X-Git-Url: https://jfr.im/git/yt-dlp.git/blobdiff_plain/443b21dc4e499286df3852f88fbd48e7f61b1f6a..61edf57f8f13f6dfd81154174e647eb5fdd26089:/yt_dlp/extractor/ceskatelevize.py

diff --git a/yt_dlp/extractor/ceskatelevize.py b/yt_dlp/extractor/ceskatelevize.py
index 6ca2f38b5..c323985ca 100644
--- a/yt_dlp/extractor/ceskatelevize.py
+++ b/yt_dlp/extractor/ceskatelevize.py
@@ -1,31 +1,29 @@
-# coding: utf-8
-from __future__ import unicode_literals
-
 import re
+import urllib.parse
 
 from .common import InfoExtractor
-from ..compat import (
-    compat_urllib_parse_unquote,
-    compat_urllib_parse_urlparse,
-)
+from ..networking import Request
 from ..utils import (
     ExtractorError,
     float_or_none,
-    sanitized_Request,
+    str_or_none,
     traverse_obj,
     urlencode_postdata,
-    USER_AGENTS,
 )
 
+USER_AGENTS = {
+    'Safari': 'Mozilla/5.0 (X11; Linux x86_64; rv:10.0) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27',
+}
+
 
 class CeskaTelevizeIE(InfoExtractor):
-    _VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/(?:ivysilani|porady)/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'
+    _VALID_URL = r'https?://(?:www\.)?ceskatelevize\.cz/(?:ivysilani|porady|zive)/(?:[^/?#&]+/)*(?P<id>[^/#?]+)'
     _TESTS = [{
         'url': 'http://www.ceskatelevize.cz/ivysilani/10441294653-hyde-park-civilizace/215411058090502/bonus/20641-bonus-01-en',
         'info_dict': {
             'id': '61924494877028507',
             'ext': 'mp4',
-            'title': 'Hyde Park Civilizace: Bonus 01 - En',
+            'title': 'Bonus 01 - En - Hyde Park Civilizace',
             'description': 'English Subtittles',
             'thumbnail': r're:^https?://.*\.jpg',
             'duration': 81.3,
@@ -36,18 +34,29 @@ class CeskaTelevizeIE(InfoExtractor):
         },
     }, {
         # live stream
-        'url': 'http://www.ceskatelevize.cz/ivysilani/zive/ct4/',
+        'url': 'http://www.ceskatelevize.cz/zive/ct1/',
         'info_dict': {
-            'id': 402,
+            'id': '102',
             'ext': 'mp4',
-            'title': r're:^ÄT Sport \d{4}-\d{2}-\d{2} \d{2}:\d{2}$',
+            'title': r'ÄT1 - Å¾ivÃ© vysÃ­lÃ¡nÃ­ online',
+            'description': 'Sledujte Å¾ivÃ© vysÃ­lÃ¡nÃ­ kanÃ¡lu ÄT1 online. VybÃ­rat si mÅ¯Å¾ete i z dalÅ¡Ã­ch kanÃ¡lÅ¯ ÄeskÃ© televize na kterÃ©mkoli z vaÅ¡ich zaÅÃ­zenÃ­.',
             'is_live': True,
         },
         'params': {
             # m3u8 download
             'skip_download': True,
         },
-        'skip': 'Georestricted to Czech Republic',
+    }, {
+        # another
+        'url': 'http://www.ceskatelevize.cz/ivysilani/zive/ct4/',
+        'only_matching': True,
+        'info_dict': {
+            'id': '402',
+            'ext': 'mp4',
+            'title': r're:^ÄT Sport \d{4}-\d{2}-\d{2} \d{2}:\d{2}$',
+            'is_live': True,
+        },
+        # 'skip': 'Georestricted to Czech Republic',
     }, {
         'url': 'http://www.ceskatelevize.cz/ivysilani/embed/iFramePlayer.php?hash=d6a3e1370d2e4fa76296b90bad4dfc19673b641e&IDEC=217 562 22150/0004&channelID=1&width=100%25',
         'only_matching': True,
@@ -56,21 +65,21 @@ class CeskaTelevizeIE(InfoExtractor):
         'url': 'http://www.ceskatelevize.cz/porady/10520528904-queer/215562210900007-bogotart/',
         'info_dict': {
             'id': '215562210900007-bogotart',
-            'title': 'Queer: Bogotart',
-            'description': 'HlavnÃ­ mÄsto Kolumbie v doprovodu queer umÄlcÅ¯. VroucÃ­ svÄt plnÃ½ vÃ¡Å¡nÄ, sebevÄdomÃ­, ale i nÃ¡silÃ­ a bolesti. PÅipravil Peter Serge Butko',
+            'title': 'Bogotart - Queer',
+            'description': 'HlavnÃ­ mÄsto Kolumbie v doprovodu queer umÄlcÅ¯. VroucÃ­ svÄt plnÃ½ vÃ¡Å¡nÄ, sebevÄdomÃ­, ale i nÃ¡silÃ­ a bolesti',
         },
         'playlist': [{
             'info_dict': {
                 'id': '61924494877311053',
                 'ext': 'mp4',
-                'title': 'Queer: Bogotart (VarovÃ¡nÃ­ 18+)',
+                'title': 'Bogotart - Queer (VarovÃ¡nÃ­ 18+)',
                 'duration': 11.9,
             },
         }, {
             'info_dict': {
                 'id': '61924494877068022',
                 'ext': 'mp4',
-                'title': 'Queer: Bogotart (Queer)',
+                'title': 'Bogotart - Queer (Queer)',
                 'thumbnail': r're:^https?://.*\.jpg',
                 'duration': 1558.3,
             },
@@ -87,28 +96,42 @@ class CeskaTelevizeIE(InfoExtractor):
 
     def _real_extract(self, url):
         playlist_id = self._match_id(url)
-        parsed_url = compat_urllib_parse_urlparse(url)
-        webpage = self._download_webpage(url, playlist_id)
-        site_name = self._og_search_property('site_name', webpage, fatal=False, default=None)
+        webpage, urlh = self._download_webpage_handle(url, playlist_id)
+        parsed_url = urllib.parse.urlparse(urlh.url)
+        site_name = self._og_search_property('site_name', webpage, fatal=False, default='ÄeskÃ¡ televize')
         playlist_title = self._og_search_title(webpage, default=None)
         if site_name and playlist_title:
-            playlist_title = playlist_title.replace(f' â {site_name}', '', 1)
+            playlist_title = re.split(rf'\s*[â|]\s*{site_name}', playlist_title, maxsplit=1)[0]
         playlist_description = self._og_search_description(webpage, default=None)
         if playlist_description:
             playlist_description = playlist_description.replace('\xa0', ' ')
 
-        if parsed_url.path.startswith('/porady/'):
+        type_ = 'IDEC'
+        if re.search(r'(^/porady|/zive)/', parsed_url.path):
             next_data = self._search_nextjs_data(webpage, playlist_id)
-            idec = traverse_obj(next_data, ('props', 'pageProps', 'data', ('show', 'mediaMeta'), 'idec'), get_all=False)
+            if '/zive/' in parsed_url.path:
+                idec = traverse_obj(next_data, ('props', 'pageProps', 'data', 'liveBroadcast', 'current', 'idec'), get_all=False)
+            else:
+                idec = traverse_obj(next_data, ('props', 'pageProps', 'data', ('show', 'mediaMeta'), 'idec'), get_all=False)
+                if not idec:
+                    idec = traverse_obj(next_data, ('props', 'pageProps', 'data', 'videobonusDetail', 'bonusId'), get_all=False)
+                    if idec:
+                        type_ = 'bonus'
             if not idec:
                 raise ExtractorError('Failed to find IDEC id')
-            iframe_hash = self._download_webpage('https://www.ceskatelevize.cz/v-api/iframe-hash/', playlist_id)
-            webpage = self._download_webpage('https://www.ceskatelevize.cz/ivysilani/embed/iFramePlayer.php', playlist_id,
-                                             query={'hash': iframe_hash, 'origin': 'iVysilani', 'autoStart': 'true', 'IDEC': idec})
+            iframe_hash = self._download_webpage(
+                'https://www.ceskatelevize.cz/v-api/iframe-hash/',
+                playlist_id, note='Getting IFRAME hash')
+            query = {'hash': iframe_hash, 'origin': 'iVysilani', 'autoStart': 'true', type_: idec}
+            webpage = self._download_webpage(
+                'https://www.ceskatelevize.cz/ivysilani/embed/iFramePlayer.php',
+                playlist_id, note='Downloading player', query=query)
 
         NOT_AVAILABLE_STRING = 'This content is not available at your territory due to limited copyright.'
-        if '%s</p>' % NOT_AVAILABLE_STRING in webpage:
-            raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)
+        if f'{NOT_AVAILABLE_STRING}</p>' in webpage:
+            self.raise_geo_restricted(NOT_AVAILABLE_STRING)
+        if any(not_found in webpage for not_found in ('NeplatnÃ½ parametr pro videopÅehrÃ¡vaÄ', 'IDEC nebyl nalezen')):
+            raise ExtractorError('no video with IDEC available', video_id=idec, expected=True)
 
         type_ = None
         episode_id = None
@@ -140,16 +163,16 @@ def _real_extract(self, url):
         entries = []
 
         for user_agent in (None, USER_AGENTS['Safari']):
-            req = sanitized_Request(
+            req = Request(
                 'https://www.ceskatelevize.cz/ivysilani/ajax/get-client-playlist/',
                 data=urlencode_postdata(data))
 
-            req.add_header('Content-type', 'application/x-www-form-urlencoded')
-            req.add_header('x-addr', '127.0.0.1')
-            req.add_header('X-Requested-With', 'XMLHttpRequest')
+            req.headers['Content-type'] = 'application/x-www-form-urlencoded'
+            req.headers['x-addr'] = '127.0.0.1'
+            req.headers['X-Requested-With'] = 'XMLHttpRequest'
             if user_agent:
-                req.add_header('User-Agent', user_agent)
-            req.add_header('Referer', url)
+                req.headers['User-Agent'] = user_agent
+            req.headers['Referer'] = url
 
             playlistpage = self._download_json(req, playlist_id, fatal=False)
 
@@ -160,8 +183,8 @@ def _real_extract(self, url):
             if playlist_url == 'error_region':
                 raise ExtractorError(NOT_AVAILABLE_STRING, expected=True)
 
-            req = sanitized_Request(compat_urllib_parse_unquote(playlist_url))
-            req.add_header('Referer', url)
+            req = Request(urllib.parse.unquote(playlist_url))
+            req.headers['Referer'] = url
 
             playlist = self._download_json(req, playlist_id, fatal=False)
             if not playlist:
@@ -180,11 +203,11 @@ def _real_extract(self, url):
                     if 'playerType=flash' in stream_url:
                         stream_formats = self._extract_m3u8_formats(
                             stream_url, playlist_id, 'mp4', 'm3u8_native',
-                            m3u8_id='hls-%s' % format_id, fatal=False)
+                            m3u8_id=f'hls-{format_id}', fatal=False)
                     else:
                         stream_formats = self._extract_mpd_formats(
                             stream_url, playlist_id,
-                            mpd_id='dash-%s' % format_id, fatal=False)
+                            mpd_id=f'dash-{format_id}', fatal=False)
                     if 'drmOnly=true' in stream_url:
                         for f in stream_formats:
                             f['has_drm'] = True
@@ -198,7 +221,7 @@ def _real_extract(self, url):
                     entries[num]['formats'].extend(formats)
                     continue
 
-                item_id = item.get('id') or item['assetId']
+                item_id = str_or_none(item.get('id') or item['assetId'])
                 title = item['title']
 
                 duration = float_or_none(item.get('duration'))
@@ -212,10 +235,8 @@ def _real_extract(self, url):
 
                 if playlist_len == 1:
                     final_title = playlist_title or title
-                    if is_live:
-                        final_title = self._live_title(final_title)
                 else:
-                    final_title = '%s (%s)' % (playlist_title, title)
+                    final_title = f'{playlist_title} ({title})'
 
                 entries.append({
                     'id': item_id,
@@ -228,9 +249,8 @@ def _real_extract(self, url):
                     'is_live': is_live,
                 })
 
-        for e in entries:
-            self._sort_formats(e['formats'])
-
+        if len(entries) == 1:
+            return entries[0]
         return self.playlist_result(entries, playlist_id, playlist_title, playlist_description)
 
     def _get_subtitles(self, episode_id, subs):
@@ -241,7 +261,7 @@ def _get_subtitles(self, episode_id, subs):
             'cs': [{
                 'ext': 'srt',
                 'data': srt_subs,
-            }]
+            }],
         }
 
     @staticmethod
@@ -262,7 +282,7 @@ def _fix_subtitle(subtitle):
                 if m:
                     yield m.group(1)
                     start, stop = (_msectotimecode(int(t)) for t in m.groups()[1:])
-                    yield '{0} --> {1}'.format(start, stop)
+                    yield f'{start} --> {stop}'
                 else:
                     yield line