[yt-dlp.git] / youtube_dl / extractor / ccc.py

# coding: utf-8
from __future__ import unicode_literals

from .common import InfoExtractor
from ..utils import (
    int_or_none,
    parse_iso8601,
    try_get,
)


class CCCIE(InfoExtractor):
    IE_NAME = 'media.ccc.de'
    _VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/v/(?P<id>[^/?#&]+)'

    _TESTS = [{
        'url': 'https://media.ccc.de/v/30C3_-_5443_-_en_-_saal_g_-_201312281830_-_introduction_to_processor_design_-_byterazor#video',
        'md5': '3a1eda8f3a29515d27f5adb967d7e740',
        'info_dict': {
            'id': '1839',
            'ext': 'mp4',
            'title': 'Introduction to Processor Design',
            'creator': 'byterazor',
            'description': 'md5:df55f6d073d4ceae55aae6f2fd98a0ac',
            'thumbnail': r're:^https?://.*\.jpg$',
            'upload_date': '20131228',
            'timestamp': 1388188800,
            'duration': 3710,
            'tags': list,
        }
    }, {
        'url': 'https://media.ccc.de/v/32c3-7368-shopshifting#download',
        'info_dict': {
            'id': '2835',
            'ext': 'mp4',
            'title': 'Shopshifting',
            'creator': 'Karsten Nohl, Fabian Bräunlein, dexter',
            'description': 'md5:0fade0535e9dc3076d0cbda4958a18eb',
            'upload_date': '20151227',
            'timestamp': 1451249100,
            'tags': list,
        }
    }]

    def _real_extract(self, url):
        display_id = self._match_id(url)
        webpage = self._download_webpage(url, display_id)
        event_id = self._search_regex(r"data-id='(\d+)'", webpage, 'event id')
        event_data = self._download_json('https://media.ccc.de/public/events/%s' % event_id, event_id)

        formats = []
        for recording in event_data.get('recordings', []):
            recording_url = recording.get('recording_url')
            if not recording_url:
                continue
            language = recording.get('language')
            folder = recording.get('folder')
            format_id = None
            if language:
                format_id = language
            if folder:
                if language:
                    format_id += '-' + folder
                else:
                    format_id = folder
            vcodec = 'h264' if 'h264' in folder else (
                'none' if folder in ('mp3', 'opus') else None
            )
            formats.append({
                'format_id': format_id,
                'url': recording_url,
                'width': int_or_none(recording.get('width')),
                'height': int_or_none(recording.get('height')),
                'filesize': int_or_none(recording.get('size'), invscale=1024 * 1024),
                'language': language,
                'vcodec': vcodec,
            })
        self._sort_formats(formats)

        return {
            'id': event_id,
            'display_id': display_id,
            'title': event_data['title'],
            'creator': try_get(event_data, lambda x: ', '.join(x['persons'])),
            'description': event_data.get('description'),
            'thumbnail': event_data.get('thumb_url'),
            'timestamp': parse_iso8601(event_data.get('date')),
            'duration': int_or_none(event_data.get('length')),
            'tags': event_data.get('tags'),
            'formats': formats,
        }


class CCCPlaylistIE(InfoExtractor):
    IE_NAME = 'media.ccc.de:lists'
    _VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/c/(?P<id>[^/?#&]+)'
    _TESTS = [{
        'url': 'https://media.ccc.de/c/30c3',
        'info_dict': {
            'title': '30C3',
            'id': '30c3',
        },
        'playlist_count': 135,
    }]

    def _real_extract(self, url):
        acronym = self._match_id(url).lower()

        conf = self._download_json('https://media.ccc.de/public/conferences/' + acronym, acronym)

        return self.playlist_result(
            [self.url_result(event['frontend_link']) for event in conf['events']],
            acronym,
            conf['title'],
        )
Commit	Line	Data
24510bdc	1	# coding: utf-8
8f84f571 PH	2	from __future__ import unicode_literals
8f84f571 PH	3
8f84f571 PH	4	from .common import InfoExtractor
	5	from ..utils import (
	6	int_or_none,
9cf79e8f	7	parse_iso8601,
24510bdc	8	try_get,
8f84f571 PH	9	)
	10
	11
	12	class CCCIE(InfoExtractor):
	13	IE_NAME = 'media.ccc.de'
0d5095fc	14	_VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/v/(?P<id>[^/?#&]+)'
8f84f571	15
0d5095fc S	16	_TESTS = [{
0d5095fc S	17	'url': 'https://media.ccc.de/v/30C3_-_5443_-_en_-_saal_g_-_201312281830_-_introduction_to_processor_design_-_byterazor#video',
15da7ce7	18	'md5': '3a1eda8f3a29515d27f5adb967d7e740',
8f84f571	19	'info_dict': {
9cf79e8f	20	'id': '1839',
8f84f571 PH	21	'ext': 'mp4',
8f84f571 PH	22	'title': 'Introduction to Processor Design',
24510bdc	23	'creator': 'byterazor',
9cf79e8f	24	'description': 'md5:df55f6d073d4ceae55aae6f2fd98a0ac',
ec85ded8	25	'thumbnail': r're:^https?://.*\.jpg$',
8499d211	26	'upload_date': '20131228',
9cf79e8f	27	'timestamp': 1388188800,
9cf79e8f	28	'duration': 3710,
24510bdc	29	'tags': list,
8f84f571	30	}
0d5095fc S	31	}, {
0d5095fc S	32	'url': 'https://media.ccc.de/v/32c3-7368-shopshifting#download',
24510bdc TG	33	'info_dict': {
	34	'id': '2835',
	35	'ext': 'mp4',
	36	'title': 'Shopshifting',
	37	'creator': 'Karsten Nohl, Fabian Bräunlein, dexter',
	38	'description': 'md5:0fade0535e9dc3076d0cbda4958a18eb',
	39	'upload_date': '20151227',
	40	'timestamp': 1451249100,
	41	'tags': list,
	42	}
0d5095fc	43	}]
8f84f571 PH	44
8f84f571 PH	45	def _real_extract(self, url):
9cf79e8f	46	display_id = self._match_id(url)
9cf79e8f	47	webpage = self._download_webpage(url, display_id)
ec85ded8	48	event_id = self._search_regex(r"data-id='(\d+)'", webpage, 'event id')
9cf79e8f	49	event_data = self._download_json('https://media.ccc.de/public/events/%s' % event_id, event_id)
8f84f571	50
8f84f571	51	formats = []
9cf79e8f	52	for recording in event_data.get('recordings', []):
	53	recording_url = recording.get('recording_url')
	54	if not recording_url:
	55	continue
	56	language = recording.get('language')
	57	folder = recording.get('folder')
	58	format_id = None
	59	if language:
	60	format_id = language
	61	if folder:
	62	if language:
	63	format_id += '-' + folder
	64	else:
	65	format_id = folder
	66	vcodec = 'h264' if 'h264' in folder else (
	67	'none' if folder in ('mp3', 'opus') else None
8f84f571 PH	68	)
	69	formats.append({
	70	'format_id': format_id,
9cf79e8f	71	'url': recording_url,
	72	'width': int_or_none(recording.get('width')),
	73	'height': int_or_none(recording.get('height')),
	74	'filesize': int_or_none(recording.get('size'), invscale=1024 * 1024),
	75	'language': language,
8f84f571	76	'vcodec': vcodec,
8f84f571	77	})
8f84f571 PH	78	self._sort_formats(formats)
8f84f571 PH	79
8f84f571	80	return {
9cf79e8f	81	'id': event_id,
	82	'display_id': display_id,
	83	'title': event_data['title'],
24510bdc	84	'creator': try_get(event_data, lambda x: ', '.join(x['persons'])),
9cf79e8f	85	'description': event_data.get('description'),
	86	'thumbnail': event_data.get('thumb_url'),
	87	'timestamp': parse_iso8601(event_data.get('date')),
	88	'duration': int_or_none(event_data.get('length')),
	89	'tags': event_data.get('tags'),
8f84f571 PH	90	'formats': formats,
8f84f571 PH	91	}
ae8c1356 TK	92
	93
	94	class CCCPlaylistIE(InfoExtractor):
	95	IE_NAME = 'media.ccc.de:lists'
	96	_VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/c/(?P<id>[^/?#&]+)'
	97	_TESTS = [{
	98	'url': 'https://media.ccc.de/c/30c3',
	99	'info_dict': {
	100	'title': '30C3',
	101	'id': '30c3',
	102	},
	103	'playlist_count': 135,
	104	}]
	105
	106	def _real_extract(self, url):
	107	acronym = self._match_id(url).lower()
	108
	109	conf = self._download_json('https://media.ccc.de/public/conferences/' + acronym, acronym)
	110
	111	return self.playlist_result(
	112	[self.url_result(event['frontend_link']) for event in conf['events']],
	113	acronym,
	114	conf['title'],
	115	)