[yt-dlp.git] / yt_dlp / extractor / ccc.py

from .common import InfoExtractor
from ..utils import (
    int_or_none,
    parse_iso8601,
    try_get,
    url_or_none,
)


class CCCIE(InfoExtractor):
    IE_NAME = 'media.ccc.de'
    _VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/v/(?P<id>[^/?#&]+)'

    _TESTS = [{
        'url': 'https://media.ccc.de/v/30C3_-_5443_-_en_-_saal_g_-_201312281830_-_introduction_to_processor_design_-_byterazor#video',
        'md5': '3a1eda8f3a29515d27f5adb967d7e740',
        'info_dict': {
            'id': '1839',
            'ext': 'mp4',
            'title': 'Introduction to Processor Design',
            'creator': 'byterazor',
            'description': 'md5:df55f6d073d4ceae55aae6f2fd98a0ac',
            'thumbnail': r're:^https?://.*\.jpg$',
            'upload_date': '20131228',
            'timestamp': 1388188800,
            'duration': 3710,
            'tags': list,
        }
    }, {
        'url': 'https://media.ccc.de/v/32c3-7368-shopshifting#download',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        display_id = self._match_id(url)
        webpage = self._download_webpage(url, display_id)
        event_id = self._search_regex(r"data-id='(\d+)'", webpage, 'event id')
        event_data = self._download_json('https://media.ccc.de/public/events/%s' % event_id, event_id)

        formats = []
        for recording in event_data.get('recordings', []):
            recording_url = recording.get('recording_url')
            if not recording_url:
                continue
            language = recording.get('language')
            folder = recording.get('folder')
            format_id = None
            if language:
                format_id = language
            if folder:
                if language:
                    format_id += '-' + folder
                else:
                    format_id = folder
            vcodec = 'h264' if 'h264' in folder else (
                'none' if folder in ('mp3', 'opus') else None
            )
            formats.append({
                'format_id': format_id,
                'url': recording_url,
                'width': int_or_none(recording.get('width')),
                'height': int_or_none(recording.get('height')),
                'filesize': int_or_none(recording.get('size'), invscale=1024 * 1024),
                'language': language,
                'vcodec': vcodec,
            })

        return {
            'id': event_id,
            'display_id': display_id,
            'title': event_data['title'],
            'creator': try_get(event_data, lambda x: ', '.join(x['persons'])),
            'description': event_data.get('description'),
            'thumbnail': event_data.get('thumb_url'),
            'timestamp': parse_iso8601(event_data.get('date')),
            'duration': int_or_none(event_data.get('length')),
            'view_count': int_or_none(event_data.get('view_count')),
            'tags': event_data.get('tags'),
            'formats': formats,
        }


class CCCPlaylistIE(InfoExtractor):
    IE_NAME = 'media.ccc.de:lists'
    _VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/c/(?P<id>[^/?#&]+)'
    _TESTS = [{
        'url': 'https://media.ccc.de/c/30c3',
        'info_dict': {
            'title': '30C3',
            'id': '30c3',
        },
        'playlist_count': 135,
    }, {
        'url': 'https://media.ccc.de/c/DS2023',
        'info_dict': {
            'title': 'Datenspuren 2023',
            'id': 'DS2023',
        },
        'playlist_count': 37
    }]

    def _real_extract(self, url):
        playlist_id = self._match_id(url)

        conf = self._download_json(
            'https://media.ccc.de/public/conferences/' + playlist_id,
            playlist_id)

        entries = []
        for e in conf['events']:
            event_url = url_or_none(e.get('frontend_link'))
            if event_url:
                entries.append(self.url_result(event_url, ie=CCCIE.ie_key()))

        return self.playlist_result(entries, playlist_id, conf.get('title'))
Commit	Line	Data
8f84f571 PH	1	from .common import InfoExtractor
	2	from ..utils import (
	3	int_or_none,
9cf79e8f	4	parse_iso8601,
24510bdc	5	try_get,
f916abc0	6	url_or_none,
8f84f571 PH	7	)
	8
	9
	10	class CCCIE(InfoExtractor):
	11	IE_NAME = 'media.ccc.de'
0d5095fc	12	_VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/v/(?P<id>[^/?#&]+)'
8f84f571	13
0d5095fc S	14	_TESTS = [{
0d5095fc S	15	'url': 'https://media.ccc.de/v/30C3_-_5443_-_en_-_saal_g_-_201312281830_-_introduction_to_processor_design_-_byterazor#video',
15da7ce7	16	'md5': '3a1eda8f3a29515d27f5adb967d7e740',
8f84f571	17	'info_dict': {
9cf79e8f	18	'id': '1839',
8f84f571 PH	19	'ext': 'mp4',
8f84f571 PH	20	'title': 'Introduction to Processor Design',
24510bdc	21	'creator': 'byterazor',
9cf79e8f	22	'description': 'md5:df55f6d073d4ceae55aae6f2fd98a0ac',
ec85ded8	23	'thumbnail': r're:^https?://.*\.jpg$',
8499d211	24	'upload_date': '20131228',
9cf79e8f	25	'timestamp': 1388188800,
9cf79e8f	26	'duration': 3710,
24510bdc	27	'tags': list,
8f84f571	28	}
0d5095fc S	29	}, {
0d5095fc S	30	'url': 'https://media.ccc.de/v/32c3-7368-shopshifting#download',
f916abc0	31	'only_matching': True,
0d5095fc	32	}]
8f84f571 PH	33
8f84f571 PH	34	def _real_extract(self, url):
9cf79e8f	35	display_id = self._match_id(url)
9cf79e8f	36	webpage = self._download_webpage(url, display_id)
ec85ded8	37	event_id = self._search_regex(r"data-id='(\d+)'", webpage, 'event id')
9cf79e8f	38	event_data = self._download_json('https://media.ccc.de/public/events/%s' % event_id, event_id)
8f84f571	39
8f84f571	40	formats = []
9cf79e8f	41	for recording in event_data.get('recordings', []):
	42	recording_url = recording.get('recording_url')
	43	if not recording_url:
	44	continue
	45	language = recording.get('language')
	46	folder = recording.get('folder')
	47	format_id = None
	48	if language:
	49	format_id = language
	50	if folder:
	51	if language:
	52	format_id += '-' + folder
	53	else:
	54	format_id = folder
	55	vcodec = 'h264' if 'h264' in folder else (
	56	'none' if folder in ('mp3', 'opus') else None
8f84f571 PH	57	)
	58	formats.append({
	59	'format_id': format_id,
9cf79e8f	60	'url': recording_url,
	61	'width': int_or_none(recording.get('width')),
	62	'height': int_or_none(recording.get('height')),
	63	'filesize': int_or_none(recording.get('size'), invscale=1024 * 1024),
	64	'language': language,
8f84f571	65	'vcodec': vcodec,
8f84f571	66	})
8f84f571	67
8f84f571	68	return {
9cf79e8f	69	'id': event_id,
	70	'display_id': display_id,
	71	'title': event_data['title'],
24510bdc	72	'creator': try_get(event_data, lambda x: ', '.join(x['persons'])),
9cf79e8f	73	'description': event_data.get('description'),
	74	'thumbnail': event_data.get('thumb_url'),
	75	'timestamp': parse_iso8601(event_data.get('date')),
	76	'duration': int_or_none(event_data.get('length')),
6e7c9201	77	'view_count': int_or_none(event_data.get('view_count')),
9cf79e8f	78	'tags': event_data.get('tags'),
8f84f571 PH	79	'formats': formats,
8f84f571 PH	80	}
ae8c1356 TK	81
	82
	83	class CCCPlaylistIE(InfoExtractor):
	84	IE_NAME = 'media.ccc.de:lists'
	85	_VALID_URL = r'https?://(?:www\.)?media\.ccc\.de/c/(?P<id>[^/?#&]+)'
	86	_TESTS = [{
	87	'url': 'https://media.ccc.de/c/30c3',
	88	'info_dict': {
	89	'title': '30C3',
	90	'id': '30c3',
	91	},
	92	'playlist_count': 135,
cf11b40a RD	93	}, {
	94	'url': 'https://media.ccc.de/c/DS2023',
	95	'info_dict': {
	96	'title': 'Datenspuren 2023',
	97	'id': 'DS2023',
	98	},
	99	'playlist_count': 37
ae8c1356 TK	100	}]
	101
	102	def _real_extract(self, url):
cf11b40a	103	playlist_id = self._match_id(url)
f916abc0 S	104
	105	conf = self._download_json(
	106	'https://media.ccc.de/public/conferences/' + playlist_id,
	107	playlist_id)
ae8c1356	108
f916abc0 S	109	entries = []
	110	for e in conf['events']:
	111	event_url = url_or_none(e.get('frontend_link'))
	112	if event_url:
	113	entries.append(self.url_result(event_url, ie=CCCIE.ie_key()))
ae8c1356	114
f916abc0	115	return self.playlist_result(entries, playlist_id, conf.get('title'))