[yt-dlp.git] / yt_dlp / extractor / rheinmaintv.py

from .common import InfoExtractor
from ..utils import extract_attributes, merge_dicts, remove_end


class RheinMainTVIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?rheinmaintv\.de/sendungen/(?:[\w-]+/)*(?P<video_id>(?P<display_id>[\w-]+)/vom-\d{2}\.\d{2}\.\d{4}(?:/\d+)?)'
    _TESTS = [{
        'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/auf-dem-weg-zur-deutschen-meisterschaft/vom-07.11.2022/',
        'info_dict': {
            'id': 'auf-dem-weg-zur-deutschen-meisterschaft-vom-07.11.2022',
            'ext': 'ismv',  # ismv+isma will be merged into mp4
            'alt_title': 'Auf dem Weg zur Deutschen Meisterschaft',
            'title': 'Auf dem Weg zur Deutschen Meisterschaft',
            'upload_date': '20221108',
            'view_count': int,
            'display_id': 'auf-dem-weg-zur-deutschen-meisterschaft',
            'thumbnail': r're:^https://.+\.jpg',
            'description': 'md5:48c59b74192bc819a9b34af1d5ed1eb9',
            'timestamp': 1667933057,
            'duration': 243.0,
        },
        'params': {'skip_download': 'ism'},
    }, {
        'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften/vom-14.11.2022/',
        'info_dict': {
            'id': 'formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften-vom-14.11.2022',
            'ext': 'ismv',
            'title': 'Formationsgemeinschaft Rhein-Main bei den Deutschen Meisterschaften',
            'timestamp': 1668526214,
            'display_id': 'formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften',
            'alt_title': 'Formationsgemeinschaft Rhein-Main bei den Deutschen Meisterschaften',
            'view_count': int,
            'thumbnail': r're:^https://.+\.jpg',
            'duration': 345.0,
            'description': 'md5:9370ba29526984006c2cba1372e5c5a0',
            'upload_date': '20221115',
        },
        'params': {'skip_download': 'ism'},
    }, {
        'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/casino-mainz-bei-den-deutschen-meisterschaften/vom-14.11.2022/',
        'info_dict': {
            'id': 'casino-mainz-bei-den-deutschen-meisterschaften-vom-14.11.2022',
            'ext': 'ismv',
            'title': 'Casino Mainz bei den Deutschen Meisterschaften',
            'view_count': int,
            'timestamp': 1668527402,
            'alt_title': 'Casino Mainz bei den Deutschen Meisterschaften',
            'upload_date': '20221115',
            'display_id': 'casino-mainz-bei-den-deutschen-meisterschaften',
            'duration': 348.0,
            'thumbnail': r're:^https://.+\.jpg',
            'description': 'md5:70fc1660eeba96da17199e5bdff4c0aa',
        },
        'params': {'skip_download': 'ism'},
    }, {
        'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/bricks4kids/vom-22.06.2022/',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        mobj = self._match_valid_url(url)
        display_id = mobj.group('display_id')
        video_id = mobj.group('video_id').replace('/', '-')
        webpage = self._download_webpage(url, video_id)

        source, img = self._search_regex(r'(?s)(?P<source><source[^>]*>)(?P<img><img[^>]*>)',
                                         webpage, 'video', group=('source', 'img'))
        source = extract_attributes(source)
        img = extract_attributes(img)

        raw_json_ld = list(self._yield_json_ld(webpage, video_id))
        json_ld = self._json_ld(raw_json_ld, video_id)
        json_ld.pop('url', None)

        ism_manifest_url = (
            source.get('src')
            or next(json_ld.get('embedUrl') for json_ld in raw_json_ld if json_ld.get('@type') == 'VideoObject')
        )
        formats, subtitles = self._extract_ism_formats_and_subtitles(ism_manifest_url, video_id)

        return merge_dicts({
            'id': video_id,
            'display_id': display_id,
            'title':
                self._html_search_regex(r'<h1><span class="title">([^<]*)</span>',
                                        webpage, 'headline', default=None)
                or img.get('title') or json_ld.get('title') or self._og_search_title(webpage)
                or remove_end(self._html_extract_title(webpage), ' -'),
            'alt_title': img.get('alt'),
            'description': json_ld.get('description') or self._og_search_description(webpage),
            'formats': formats,
            'subtitles': subtitles,
            'thumbnails': [{'url': img['src']}] if 'src' in img else json_ld.get('thumbnails'),
        }, json_ld)
Commit	Line	Data
98cb1eda	1	from .common import InfoExtractor
	2	from ..utils import extract_attributes, merge_dicts, remove_end
	3
	4
	5	class RheinMainTVIE(InfoExtractor):
	6	_VALID_URL = r'https?://(?:www\.)?rheinmaintv\.de/sendungen/(?:[\w-]+/)*(?P<video_id>(?P<display_id>[\w-]+)/vom-\d{2}\.\d{2}\.\d{4}(?:/\d+)?)'
	7	_TESTS = [{
	8	'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/auf-dem-weg-zur-deutschen-meisterschaft/vom-07.11.2022/',
	9	'info_dict': {
	10	'id': 'auf-dem-weg-zur-deutschen-meisterschaft-vom-07.11.2022',
	11	'ext': 'ismv', # ismv+isma will be merged into mp4
	12	'alt_title': 'Auf dem Weg zur Deutschen Meisterschaft',
	13	'title': 'Auf dem Weg zur Deutschen Meisterschaft',
	14	'upload_date': '20221108',
	15	'view_count': int,
	16	'display_id': 'auf-dem-weg-zur-deutschen-meisterschaft',
	17	'thumbnail': r're:^https://.+\.jpg',
	18	'description': 'md5:48c59b74192bc819a9b34af1d5ed1eb9',
	19	'timestamp': 1667933057,
	20	'duration': 243.0,
	21	},
	22	'params': {'skip_download': 'ism'},
	23	}, {
	24	'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften/vom-14.11.2022/',
	25	'info_dict': {
	26	'id': 'formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften-vom-14.11.2022',
	27	'ext': 'ismv',
	28	'title': 'Formationsgemeinschaft Rhein-Main bei den Deutschen Meisterschaften',
	29	'timestamp': 1668526214,
	30	'display_id': 'formationsgemeinschaft-rhein-main-bei-den-deutschen-meisterschaften',
	31	'alt_title': 'Formationsgemeinschaft Rhein-Main bei den Deutschen Meisterschaften',
	32	'view_count': int,
	33	'thumbnail': r're:^https://.+\.jpg',
	34	'duration': 345.0,
	35	'description': 'md5:9370ba29526984006c2cba1372e5c5a0',
	36	'upload_date': '20221115',
	37	},
	38	'params': {'skip_download': 'ism'},
	39	}, {
	40	'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/casino-mainz-bei-den-deutschen-meisterschaften/vom-14.11.2022/',
	41	'info_dict': {
	42	'id': 'casino-mainz-bei-den-deutschen-meisterschaften-vom-14.11.2022',
	43	'ext': 'ismv',
	44	'title': 'Casino Mainz bei den Deutschen Meisterschaften',
	45	'view_count': int,
	46	'timestamp': 1668527402,
	47	'alt_title': 'Casino Mainz bei den Deutschen Meisterschaften',
	48	'upload_date': '20221115',
	49	'display_id': 'casino-mainz-bei-den-deutschen-meisterschaften',
	50	'duration': 348.0,
	51	'thumbnail': r're:^https://.+\.jpg',
	52	'description': 'md5:70fc1660eeba96da17199e5bdff4c0aa',
	53	},
	54	'params': {'skip_download': 'ism'},
	55	}, {
	56	'url': 'https://www.rheinmaintv.de/sendungen/beitrag-video/bricks4kids/vom-22.06.2022/',
	57	'only_matching': True,
	58	}]
	59
	60	def _real_extract(self, url):
	61	mobj = self._match_valid_url(url)
	62	display_id = mobj.group('display_id')
	63	video_id = mobj.group('video_id').replace('/', '-')
	64	webpage = self._download_webpage(url, video_id)
65
66	source, img = self._search_regex(r'(?s)(?P<source><source[^>]>)(?P<img><img[^>]>)',
67	webpage, 'video', group=('source', 'img'))
68	source = extract_attributes(source)
69	img = extract_attributes(img)
70
71	raw_json_ld = list(self._yield_json_ld(webpage, video_id))
72	json_ld = self._json_ld(raw_json_ld, video_id)
73	json_ld.pop('url', None)
74
75	ism_manifest_url = (
76	source.get('src')
77	or next(json_ld.get('embedUrl') for json_ld in raw_json_ld if json_ld.get('@type') == 'VideoObject')
78	)
79	formats, subtitles = self._extract_ism_formats_and_subtitles(ism_manifest_url, video_id)
80
81	return merge_dicts({
82	'id': video_id,
83	'display_id': display_id,
84	'title':
85	self._html_search_regex(r'<h1><span class="title">([^<]*)</span>',
86	webpage, 'headline', default=None)
87	or img.get('title') or json_ld.get('title') or self._og_search_title(webpage)
88	or remove_end(self._html_extract_title(webpage), ' -'),
89	'alt_title': img.get('alt'),
90	'description': json_ld.get('description') or self._og_search_description(webpage),
91	'formats': formats,
92	'subtitles': subtitles,
93	'thumbnails': [{'url': img['src']}] if 'src' in img else json_ld.get('thumbnails'),
94	}, json_ld)