jfr.im git - yt-dlp.git/blame_incremental

... / ...

Commit	Line	Data
	1	import binascii
	2	import hashlib
	3	import re
	4
	5
	6	from .common import InfoExtractor
	7	from ..aes import aes_cbc_decrypt_bytes, unpad_pkcs7
	8	from ..compat import compat_urllib_parse_unquote
	9	from ..utils import (
	10	ExtractorError,
	11	int_or_none,
	12	float_or_none,
	13	mimetype2ext,
	14	str_or_none,
	15	try_get,
	16	unified_timestamp,
	17	update_url_query,
	18	url_or_none,
	19	)
	20
	21
	22	class DRTVIE(InfoExtractor):
	23	_VALID_URL = r'''(?x)
	24	https?://
	25	(?:
	26	(?:www\.)?dr\.dk/(?:tv/se\|nyheder\|(?:radio\|lyd)(?:/ondemand)?)/(?:[^/]+/)*\|
	27	(?:www\.)?(?:dr\.dk\|dr-massive\.com)/drtv/(?:se\|episode\|program)/
	28	)
	29	(?P<id>[\da-z_-]+)
	30	'''
	31	_GEO_BYPASS = False
	32	_GEO_COUNTRIES = ['DK']
	33	IE_NAME = 'drtv'
	34	_TESTS = [{
	35	'url': 'https://www.dr.dk/tv/se/boern/ultra/klassen-ultra/klassen-darlig-taber-10',
	36	'md5': '25e659cccc9a2ed956110a299fdf5983',
	37	'info_dict': {
	38	'id': 'klassen-darlig-taber-10',
	39	'ext': 'mp4',
	40	'title': 'Klassen - Dårlig taber (10)',
	41	'description': 'md5:815fe1b7fa656ed80580f31e8b3c79aa',
	42	'timestamp': 1539085800,
	43	'upload_date': '20181009',
	44	'duration': 606.84,
	45	'series': 'Klassen',
	46	'season': 'Klassen I',
	47	'season_number': 1,
	48	'season_id': 'urn:dr:mu:bundle:57d7e8216187a4031cfd6f6b',
	49	'episode': 'Episode 10',
	50	'episode_number': 10,
	51	'release_year': 2016,
	52	},
	53	'expected_warnings': ['Unable to download f4m manifest'],
	54	'skip': 'this video has been removed',
	55	}, {
	56	# embed
	57	'url': 'https://www.dr.dk/nyheder/indland/live-christianias-rydning-af-pusher-street-er-i-gang',
	58	'info_dict': {
	59	'id': 'urn:dr:mu:programcard:57c926176187a50a9c6e83c6',
	60	'ext': 'mp4',
	61	'title': 'christiania pusher street ryddes drdkrjpo',
	62	'description': 'md5:2a71898b15057e9b97334f61d04e6eb5',
	63	'timestamp': 1472800279,
	64	'upload_date': '20160902',
	65	'duration': 131.4,
	66	},
	67	'params': {
	68	'skip_download': True,
	69	},
	70	'expected_warnings': ['Unable to download f4m manifest'],
	71	}, {
	72	# with SignLanguage formats
	73	'url': 'https://www.dr.dk/tv/se/historien-om-danmark/-/historien-om-danmark-stenalder',
	74	'info_dict': {
	75	'id': '00831690010',
	76	'ext': 'mp4',
	77	'title': 'Historien om Danmark: Stenalder',
	78	'description': 'md5:8c66dcbc1669bbc6f873879880f37f2a',
	79	'timestamp': 1546628400,
	80	'upload_date': '20190104',
	81	'duration': 3504.618,
	82	'formats': 'mincount:20',
	83	'release_year': 2017,
	84	'season_id': 'urn:dr:mu:bundle:5afc03ad6187a4065ca5fd35',
	85	'season_number': 1,
	86	'season': 'Historien om Danmark',
	87	'series': 'Historien om Danmark',
	88	},
	89	'params': {
	90	'skip_download': True,
	91	},
	92	}, {
	93	'url': 'https://www.dr.dk/lyd/p4kbh/regionale-nyheder-kh4/p4-nyheder-2019-06-26-17-30-9',
	94	'only_matching': True,
	95	}, {
	96	'url': 'https://www.dr.dk/drtv/se/bonderoeven_71769',
	97	'info_dict': {
	98	'id': '00951930010',
	99	'ext': 'mp4',
	100	'title': 'Bonderøven 2019 (1:8)',
	101	'description': 'md5:b6dcfe9b6f0bea6703e9a0092739a5bd',
	102	'timestamp': 1603188600,
	103	'upload_date': '20201020',
	104	'duration': 2576.6,
	105	'season': 'Bonderøven 2019',
	106	'season_id': 'urn:dr:mu:bundle:5c201667a11fa01ca4528ce5',
	107	'release_year': 2019,
	108	'season_number': 2019,
	109	'series': 'Frank & Kastaniegaarden'
	110	},
	111	'params': {
	112	'skip_download': True,
	113	},
	114	}, {
	115	'url': 'https://www.dr.dk/drtv/episode/bonderoeven_71769',
	116	'only_matching': True,
	117	}, {
	118	'url': 'https://dr-massive.com/drtv/se/bonderoeven_71769',
	119	'only_matching': True,
	120	}, {
	121	'url': 'https://www.dr.dk/drtv/program/jagten_220924',
	122	'only_matching': True,
	123	}, {
	124	'url': 'https://www.dr.dk/lyd/p4aarhus/regionale-nyheder-ar4/regionale-nyheder-2022-05-05-12-30-3',
	125	'info_dict': {
	126	'id': 'urn:dr:mu:programcard:6265cb2571401424d0360113',
	127	'title': "Regionale nyheder",
	128	'ext': 'mp4',
	129	'duration': 120.043,
	130	'series': 'P4 Østjylland regionale nyheder',
	131	'timestamp': 1651746600,
	132	'season': 'Regionale nyheder',
	133	'release_year': 0,
	134	'season_id': 'urn:dr:mu:bundle:61c26889539f0201586b73c5',
	135	'description': '',
	136	'upload_date': '20220505',
	137	},
	138	'params': {
	139	'skip_download': True,
	140	},
	141	}]
	142
	143	def _real_extract(self, url):
	144	video_id = self._match_id(url)
	145
	146	webpage = self._download_webpage(url, video_id)
	147
	148	if '>Programmet er ikke længere tilgængeligt' in webpage:
	149	raise ExtractorError(
	150	'Video %s is not available' % video_id, expected=True)
	151
	152	video_id = self._search_regex(
	153	(r'data-(?:material-identifier\|episode-slug)="([^"]+)"',
	154	r'data-resource="[^>"]+mu/programcard/expanded/([^"]+)"'),
	155	webpage, 'video id', default=None)
	156
	157	if not video_id:
	158	video_id = self._search_regex(
	159	r'(urn(?:%3A\|:)dr(?:%3A\|:)mu(?:%3A\|:)programcard(?:%3A\|:)[\da-f]+)',
	160	webpage, 'urn', default=None)
	161	if video_id:
	162	video_id = compat_urllib_parse_unquote(video_id)
	163
	164	_PROGRAMCARD_BASE = 'https://www.dr.dk/mu-online/api/1.4/programcard'
	165	query = {'expanded': 'true'}
	166
	167	if video_id:
	168	programcard_url = '%s/%s' % (_PROGRAMCARD_BASE, video_id)
	169	else:
	170	programcard_url = _PROGRAMCARD_BASE
	171	page = self._parse_json(
	172	self._search_regex(
	173	r'data\s=\s({.+?})\s*(?:;\|</script)', webpage,
	174	'data'), '1')['cache']['page']
	175	page = page[list(page.keys())[0]]
	176	item = try_get(
	177	page, (lambda x: x['item'], lambda x: x['entries'][0]['item']),
	178	dict)
	179	video_id = item['customId'].split(':')[-1]
	180	query['productionnumber'] = video_id
	181
	182	data = self._download_json(
	183	programcard_url, video_id, 'Downloading video JSON', query=query)
	184
	185	title = str_or_none(data.get('Title')) or re.sub(
	186	r'\s\\|\s(?:TV\s\\|\sDR\|DRTV)$', '',
	187	self._og_search_title(webpage))
	188	description = self._og_search_description(
	189	webpage, default=None) or data.get('Description')
	190
	191	timestamp = unified_timestamp(
	192	data.get('PrimaryBroadcastStartTime') or data.get('SortDateTime'))
	193
	194	thumbnail = None
	195	duration = None
	196
	197	restricted_to_denmark = False
	198
	199	formats = []
	200	subtitles = {}
	201
	202	assets = []
	203	primary_asset = data.get('PrimaryAsset')
	204	if isinstance(primary_asset, dict):
	205	assets.append(primary_asset)
	206	secondary_assets = data.get('SecondaryAssets')
	207	if isinstance(secondary_assets, list):
	208	for secondary_asset in secondary_assets:
	209	if isinstance(secondary_asset, dict):
	210	assets.append(secondary_asset)
	211
	212	def hex_to_bytes(hex):
	213	return binascii.a2b_hex(hex.encode('ascii'))
	214
	215	def decrypt_uri(e):
	216	n = int(e[2:10], 16)
	217	a = e[10 + n:]
	218	data = hex_to_bytes(e[10:10 + n])
	219	key = hashlib.sha256(('%s:sRBzYNXBzkKgnjj8pGtkACch' % a).encode('utf-8')).digest()
	220	iv = hex_to_bytes(a)
	221	decrypted = unpad_pkcs7(aes_cbc_decrypt_bytes(data, key, iv))
	222	return decrypted.decode('utf-8').split('?')[0]
	223
	224	for asset in assets:
	225	kind = asset.get('Kind')
	226	if kind == 'Image':
	227	thumbnail = url_or_none(asset.get('Uri'))
	228	elif kind in ('VideoResource', 'AudioResource'):
	229	duration = float_or_none(asset.get('DurationInMilliseconds'), 1000)
	230	restricted_to_denmark = asset.get('RestrictedToDenmark')
	231	asset_target = asset.get('Target')
	232	for link in asset.get('Links', []):
	233	uri = link.get('Uri')
	234	if not uri:
	235	encrypted_uri = link.get('EncryptedUri')
	236	if not encrypted_uri:
	237	continue
	238	try:
	239	uri = decrypt_uri(encrypted_uri)
	240	except Exception:
	241	self.report_warning(
	242	'Unable to decrypt EncryptedUri', video_id)
	243	continue
	244	uri = url_or_none(uri)
	245	if not uri:
	246	continue
	247	target = link.get('Target')
	248	format_id = target or ''
	249	if asset_target in ('SpokenSubtitles', 'SignLanguage', 'VisuallyInterpreted'):
	250	preference = -1
	251	format_id += '-%s' % asset_target
	252	elif asset_target == 'Default':
	253	preference = 1
	254	else:
	255	preference = None
	256	if target == 'HDS':
	257	f4m_formats = self._extract_f4m_formats(
	258	uri + '?hdcore=3.3.0&plugin=aasp-3.3.0.99.43',
	259	video_id, preference, f4m_id=format_id, fatal=False)
	260	if kind == 'AudioResource':
	261	for f in f4m_formats:
	262	f['vcodec'] = 'none'
	263	formats.extend(f4m_formats)
	264	elif target == 'HLS':
	265	formats.extend(self._extract_m3u8_formats(
	266	uri, video_id, 'mp4', entry_protocol='m3u8_native',
	267	quality=preference, m3u8_id=format_id,
	268	fatal=False))
	269	else:
	270	bitrate = link.get('Bitrate')
	271	if bitrate:
	272	format_id += '-%s' % bitrate
	273	formats.append({
	274	'url': uri,
	275	'format_id': format_id,
	276	'tbr': int_or_none(bitrate),
	277	'ext': link.get('FileFormat'),
	278	'vcodec': 'none' if kind == 'AudioResource' else None,
	279	'quality': preference,
	280	})
	281	subtitles_list = asset.get('SubtitlesList') or asset.get('Subtitleslist')
	282	if isinstance(subtitles_list, list):
	283	LANGS = {
	284	'Danish': 'da',
	285	}
	286	for subs in subtitles_list:
	287	if not isinstance(subs, dict):
	288	continue
	289	sub_uri = url_or_none(subs.get('Uri'))
	290	if not sub_uri:
	291	continue
	292	lang = subs.get('Language') or 'da'
	293	subtitles.setdefault(LANGS.get(lang, lang), []).append({
	294	'url': sub_uri,
	295	'ext': mimetype2ext(subs.get('MimeType')) or 'vtt'
	296	})
	297
	298	if not formats and restricted_to_denmark:
	299	self.raise_geo_restricted(
	300	'Unfortunately, DR is not allowed to show this program outside Denmark.',
	301	countries=self._GEO_COUNTRIES)
	302
	303	self._sort_formats(formats)
	304
	305	return {
	306	'id': video_id,
	307	'title': title,
	308	'description': description,
	309	'thumbnail': thumbnail,
	310	'timestamp': timestamp,
	311	'duration': duration,
	312	'formats': formats,
	313	'subtitles': subtitles,
	314	'series': str_or_none(data.get('SeriesTitle')),
	315	'season': str_or_none(data.get('SeasonTitle')),
	316	'season_number': int_or_none(data.get('SeasonNumber')),
	317	'season_id': str_or_none(data.get('SeasonUrn')),
	318	'episode': str_or_none(data.get('EpisodeTitle')),
	319	'episode_number': int_or_none(data.get('EpisodeNumber')),
	320	'release_year': int_or_none(data.get('ProductionYear')),
	321	}
	322
	323
	324	class DRTVLiveIE(InfoExtractor):
	325	IE_NAME = 'drtv:live'
	326	_VALID_URL = r'https?://(?:www\.)?dr\.dk/(?:tv\|TV)/live/(?P<id>[\da-z-]+)'
	327	_GEO_COUNTRIES = ['DK']
	328	_TEST = {
	329	'url': 'https://www.dr.dk/tv/live/dr1',
	330	'info_dict': {
	331	'id': 'dr1',
	332	'ext': 'mp4',
	333	'title': 're:^DR1 [0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}$',
	334	},
	335	'params': {
	336	# m3u8 download
	337	'skip_download': True,
	338	},
	339	}
	340
	341	def _real_extract(self, url):
	342	channel_id = self._match_id(url)
	343	channel_data = self._download_json(
	344	'https://www.dr.dk/mu-online/api/1.0/channel/' + channel_id,
	345	channel_id)
	346	title = channel_data['Title']
	347
	348	formats = []
	349	for streaming_server in channel_data.get('StreamingServers', []):
	350	server = streaming_server.get('Server')
	351	if not server:
	352	continue
	353	link_type = streaming_server.get('LinkType')
	354	for quality in streaming_server.get('Qualities', []):
	355	for stream in quality.get('Streams', []):
	356	stream_path = stream.get('Stream')
	357	if not stream_path:
	358	continue
	359	stream_url = update_url_query(
	360	'%s/%s' % (server, stream_path), {'b': ''})
	361	if link_type == 'HLS':
	362	formats.extend(self._extract_m3u8_formats(
	363	stream_url, channel_id, 'mp4',
	364	m3u8_id=link_type, fatal=False, live=True))
	365	elif link_type == 'HDS':
	366	formats.extend(self._extract_f4m_formats(update_url_query(
	367	'%s/%s' % (server, stream_path), {'hdcore': '3.7.0'}),
	368	channel_id, f4m_id=link_type, fatal=False))
	369	self._sort_formats(formats)
	370
	371	return {
	372	'id': channel_id,
	373	'title': title,
	374	'thumbnail': channel_data.get('PrimaryImageUri'),
	375	'formats': formats,
	376	'is_live': True,
	377	}