jfr.im git - yt-dlp.git/blame_incremental - yt

... / ...

Commit	Line	Data
	1	import functools
	2	import re
	3
	4	from .theplatform import ThePlatformBaseIE
	5	from ..utils import (
	6	ExtractorError,
	7	GeoRestrictedError,
	8	int_or_none,
	9	OnDemandPagedList,
	10	try_get,
	11	urljoin,
	12	update_url_query,
	13	)
	14
	15
	16	class MediasetIE(ThePlatformBaseIE):
	17	_TP_TLD = 'eu'
	18	_GUID_RE = r'F[0-9A-Z]{15}'
	19	_VALID_URL = rf'''(?x)
	20	(?:
	21	mediaset:\|
	22	https?://
	23	(?:\w+\.)+mediaset\.it/
	24	(?:
	25	(?:video\|on-demand\|movie)/(?:[^/]+/)+[^/]+_\|
	26	player/(?:v\d+/)?index\.html\?\S*?\bprogramGuid=
	27	)
	28	)(?P<id>{_GUID_RE})
	29	'''
	30
	31	_EMBED_REGEX = [
	32	rf'<iframe[^>]+src=[\'"](?P<url>(?:https?:)?//(?:\w+\.)+mediaset\.it/player/(?:v\d+/)?index\.html\?\S*?programGuid={_GUID_RE})[\'"&]'
	33	]
	34	_TESTS = [{
	35	# full episode
	36	'url': 'https://mediasetinfinity.mediaset.it/video/mrwronglezionidamore/episodio-1_F310575103000102',
	37	'md5': 'a7e75c6384871f322adb781d3bd72c26',
	38	'info_dict': {
	39	'id': 'F310575103000102',
	40	'ext': 'mp4',
	41	'title': 'Episodio 1',
	42	'description': 'md5:e8017b7d7194e9bfb75299c2b8d81e02',
	43	'thumbnail': r're:^https?://.*\.jpg$',
	44	'duration': 2682.0,
	45	'upload_date': '20210530',
	46	'series': 'Mr Wrong - Lezioni d\'amore',
	47	'timestamp': 1622413946,
	48	'uploader': 'Canale 5',
	49	'uploader_id': 'C5',
	50	'season': 'Season 1',
	51	'episode': 'Episode 1',
	52	'season_number': 1,
	53	'episode_number': 1,
	54	'chapters': [{'start_time': 0.0, 'end_time': 439.88}, {'start_time': 439.88, 'end_time': 1685.84}, {'start_time': 1685.84, 'end_time': 2682.0}],
	55	},
	56	}, {
	57	'url': 'https://mediasetinfinity.mediaset.it/video/matrix/puntata-del-25-maggio_F309013801000501',
	58	'md5': '1276f966ac423d16ba255ce867de073e',
	59	'info_dict': {
	60	'id': 'F309013801000501',
	61	'ext': 'mp4',
	62	'title': 'Puntata del 25 maggio',
	63	'description': 'md5:ee2e456e3eb1dba5e814596655bb5296',
	64	'thumbnail': r're:^https?://.*\.jpg$',
	65	'duration': 6565.008,
	66	'upload_date': '20200903',
	67	'series': 'Matrix',
	68	'timestamp': 1599172492,
	69	'uploader': 'Canale 5',
	70	'uploader_id': 'C5',
	71	'season': 'Season 5',
	72	'episode': 'Episode 5',
	73	'season_number': 5,
	74	'episode_number': 5,
	75	'chapters': [{'start_time': 0.0, 'end_time': 3409.08}, {'start_time': 3409.08, 'end_time': 6565.008}],
	76	},
	77	}, {
	78	# DRM
	79	'url': 'https://mediasetinfinity.mediaset.it/movie/selvaggi/selvaggi_F006474501000101',
	80	'info_dict': {
	81	'id': 'F006474501000101',
	82	'ext': 'mp4',
	83	'title': 'Selvaggi',
	84	'description': 'md5:cfdedbbfdd12d4d0e5dcf1fa1b75284f',
	85	'thumbnail': r're:^https?://.*\.jpg$',
	86	'duration': 5233.01,
	87	'upload_date': '20210729',
	88	'timestamp': 1627594716,
	89	'uploader': 'Cine34',
	90	'uploader_id': 'B6',
	91	'chapters': [{'start_time': 0.0, 'end_time': 1938.56}, {'start_time': 1938.56, 'end_time': 5233.01}],
	92	},
	93	'params': {
	94	'ignore_no_formats_error': True,
	95	},
	96	'expected_warnings': [
	97	'None of the available releases match the specified AssetType, ProtectionScheme, and/or Format preferences',
	98	'Content behind paywall and DRM',
	99	],
	100	'skip': True,
	101	}, {
	102	# old domain
	103	'url': 'https://www.mediasetplay.mediaset.it/video/mrwronglezionidamore/episodio-1_F310575103000102',
	104	'only_matching': True,
	105	}, {
	106	# iframe
	107	'url': 'https://static3.mediasetplay.mediaset.it/player/index.html?appKey=5ad3966b1de1c4000d5cec48&programGuid=FAFU000000665924&id=665924',
	108	'only_matching': True,
	109	}, {
	110	'url': 'mediaset:FAFU000000665924',
	111	'only_matching': True,
	112	}]
	113	_WEBPAGE_TESTS = [{
	114	# Mediaset embed
	115	'url': 'http://www.tgcom24.mediaset.it/politica/serracchiani-voglio-vivere-in-una-societa-aperta-reazioni-sproporzionate-_3071354-201702a.shtml',
	116	'info_dict': {
	117	'id': 'FD00000000004929',
	118	'ext': 'mp4',
	119	'title': 'Serracchiani: "Voglio vivere in una società aperta, con tutela del patto di fiducia"',
	120	'duration': 67.013,
	121	'thumbnail': r're:^https?://.*\.jpg$',
	122	'uploader': 'Mediaset Play',
	123	'uploader_id': 'QY',
	124	'upload_date': '20201005',
	125	'timestamp': 1601866168,
	126	'chapters': [],
	127	},
	128	'params': {
	129	'skip_download': True,
	130	}
	131	}, {
	132	# WittyTV embed
	133	'url': 'https://www.wittytv.it/mauriziocostanzoshow/ultima-puntata-venerdi-25-novembre/',
	134	'info_dict': {
	135	'id': 'F312172801000801',
	136	'ext': 'mp4',
	137	'title': 'Ultima puntata - Venerdì 25 novembre',
	138	'description': 'Una serata all\'insegna della musica e del buonumore ma non priva di spunti di riflessione',
	139	'duration': 6203.01,
	140	'thumbnail': r're:^https?://.*\.jpg$',
	141	'uploader': 'Canale 5',
	142	'uploader_id': 'C5',
	143	'upload_date': '20221126',
	144	'timestamp': 1669428689,
	145	'chapters': list,
	146	'series': 'Maurizio Costanzo Show',
	147	'season': 'Season 12',
	148	'season_number': 12,
	149	'episode': 'Episode 8',
	150	'episode_number': 8,
	151	},
	152	'params': {
	153	'skip_download': True,
	154	}
	155	}]
	156
	157	def _parse_smil_formats(self, smil, smil_url, video_id, namespace=None, f4m_params=None, transform_rtmp_url=None):
	158	for video in smil.findall(self._xpath_ns('.//video', namespace)):
	159	video.attrib['src'] = re.sub(r'(https?://vod05)t(-mediaset-it\.akamaized\.net/.+?.mpd)\?.+', r'\1\2', video.attrib['src'])
	160	return super(MediasetIE, self)._parse_smil_formats(smil, smil_url, video_id, namespace, f4m_params, transform_rtmp_url)
	161
	162	def _check_drm_formats(self, tp_formats, video_id):
	163	has_nondrm, drm_manifest = False, ''
	164	for f in tp_formats:
	165	if '_sampleaes/' in (f.get('manifest_url') or ''):
	166	drm_manifest = drm_manifest or f['manifest_url']
	167	f['has_drm'] = True
	168	if not f.get('has_drm') and f.get('manifest_url'):
	169	has_nondrm = True
	170
	171	nodrm_manifest = re.sub(r'_sampleaes/(\w+)_fp_', r'/\1_no_', drm_manifest)
	172	if has_nondrm or nodrm_manifest == drm_manifest:
	173	return
	174
	175	tp_formats.extend(self._extract_m3u8_formats(
	176	nodrm_manifest, video_id, m3u8_id='hls', fatal=False) or [])
	177
	178	def _real_extract(self, url):
	179	guid = self._match_id(url)
	180	tp_path = f'PR1GhC/media/guid/2702976343/{guid}'
	181	info = self._extract_theplatform_metadata(tp_path, guid)
	182
	183	formats = []
	184	subtitles = {}
	185	first_e = geo_e = None
	186	asset_type = 'geoNo:HD,browser,geoIT\|geoNo:HD,geoIT\|geoNo:SD,browser,geoIT\|geoNo:SD,geoIT\|geoNo\|HD\|SD'
	187	# TODO: fixup ISM+none manifest URLs
	188	for f in ('MPEG4', 'MPEG-DASH', 'M3U'):
	189	try:
	190	tp_formats, tp_subtitles = self._extract_theplatform_smil(
	191	update_url_query(f'http://link.theplatform.{self._TP_TLD}/s/{tp_path}', {
	192	'mbr': 'true',
	193	'formats': f,
	194	'assetTypes': asset_type,
	195	}), guid, f'Downloading {f.split("+")[0]} SMIL data')
	196	except ExtractorError as e:
	197	if e.orig_msg == 'None of the available releases match the specified AssetType, ProtectionScheme, and/or Format preferences':
	198	e.orig_msg = 'This video is DRM protected'
	199	if not geo_e and isinstance(e, GeoRestrictedError):
	200	geo_e = e
	201	if not first_e:
	202	first_e = e
	203	continue
	204	self._check_drm_formats(tp_formats, guid)
	205	formats.extend(tp_formats)
	206	subtitles = self._merge_subtitles(subtitles, tp_subtitles)
	207
	208	# check for errors and report them
	209	if (first_e or geo_e) and not formats:
	210	raise geo_e or first_e
	211
	212	feed_data = self._download_json(
	213	f'https://feed.entertainment.tv.theplatform.eu/f/PR1GhC/mediaset-prod-all-programs-v2/guid/-/{guid}',
	214	guid, fatal=False)
	215	if feed_data:
	216	publish_info = feed_data.get('mediasetprogram$publishInfo') or {}
	217	thumbnails = feed_data.get('thumbnails') or {}
	218	thumbnail = None
	219	for key, value in thumbnails.items():
	220	if key.startswith('image_keyframe_poster-'):
	221	thumbnail = value.get('url')
	222	break
	223
	224	info.update({
	225	'description': info.get('description') or feed_data.get('description') or feed_data.get('longDescription'),
	226	'uploader': publish_info.get('description'),
	227	'uploader_id': publish_info.get('channel'),
	228	'view_count': int_or_none(feed_data.get('mediasetprogram$numberOfViews')),
	229	'thumbnail': thumbnail,
	230	})
	231
	232	if feed_data.get('programType') == 'episode':
	233	info.update({
	234	'episode_number': int_or_none(
	235	feed_data.get('tvSeasonEpisodeNumber')),
	236	'season_number': int_or_none(
	237	feed_data.get('tvSeasonNumber')),
	238	'series': feed_data.get('mediasetprogram$brandTitle'),
	239	})
	240
	241	info.update({
	242	'id': guid,
	243	'formats': formats,
	244	'subtitles': subtitles,
	245	})
	246	return info
	247
	248
	249	class MediasetShowIE(MediasetIE): # XXX: Do not subclass from concrete IE
	250	_VALID_URL = r'''(?x)
	251	(?:
	252	https?://
	253	(\w+\.)+mediaset\.it/
	254	(?:
	255	(?:fiction\|programmi-tv\|serie-tv\|kids)/(?:.+?/)?
	256	(?:[a-z-]+)_SE(?P<id>\d{12})
	257	(?:,ST(?P<st>\d{12}))?
	258	(?:,sb(?P<sb>\d{9}))?$
	259	)
	260	)
	261	'''
	262	_TESTS = [{
	263	# TV Show webpage (general webpage)
	264	'url': 'https://mediasetinfinity.mediaset.it/programmi-tv/leiene/leiene_SE000000000061',
	265	'info_dict': {
	266	'id': '000000000061',
	267	'title': 'Le Iene 2022/2023',
	268	},
	269	'playlist_mincount': 6,
	270	}, {
	271	# TV Show webpage (specific season)
	272	'url': 'https://mediasetinfinity.mediaset.it/programmi-tv/leiene/leiene_SE000000000061,ST000000002763',
	273	'info_dict': {
	274	'id': '000000002763',
	275	'title': 'Le Iene 2021/2022',
	276	},
	277	'playlist_mincount': 7,
	278	}, {
	279	# TV Show specific playlist (with multiple pages)
	280	'url': 'https://mediasetinfinity.mediaset.it/programmi-tv/leiene/iservizi_SE000000000061,ST000000002763,sb100013375',
	281	'info_dict': {
	282	'id': '100013375',
	283	'title': 'I servizi',
	284	},
	285	'playlist_mincount': 50,
	286	}]
	287
	288	_BY_SUBBRAND = 'https://feed.entertainment.tv.theplatform.eu/f/PR1GhC/mediaset-prod-all-programs-v2?byCustomValue={subBrandId}{%s}&sort=:publishInfo_lastPublished\|desc,tvSeasonEpisodeNumber\|desc&range=%d-%d'
	289	_PAGE_SIZE = 25
	290
	291	def _fetch_page(self, sb, page):
	292	lower_limit = page * self._PAGE_SIZE + 1
	293	upper_limit = lower_limit + self._PAGE_SIZE - 1
	294	content = self._download_json(
	295	self._BY_SUBBRAND % (sb, lower_limit, upper_limit), sb)
	296	for entry in content.get('entries') or []:
	297	yield self.url_result(
	298	'mediaset:' + entry['guid'],
	299	playlist_title=entry['mediasetprogram$subBrandDescription'])
	300
	301	def _real_extract(self, url):
	302	playlist_id, st, sb = self._match_valid_url(url).group('id', 'st', 'sb')
	303	if not sb:
	304	page = self._download_webpage(url, st or playlist_id)
	305	entries = [self.url_result(urljoin('https://mediasetinfinity.mediaset.it', url))
	306	for url in re.findall(r'href="([^<>=]+SE\d{12},ST\d{12},sb\d{9})">[^<]+<', page)]
	307	title = self._html_extract_title(page).split('\|')[0].strip()
	308	return self.playlist_result(entries, st or playlist_id, title)
	309
	310	entries = OnDemandPagedList(
	311	functools.partial(self._fetch_page, sb),
	312	self._PAGE_SIZE)
	313	title = try_get(entries, lambda x: x[0]['playlist_title'])
	314
	315	return self.playlist_result(entries, sb, title)