[ie] Migrate commonly plural fields to lists (#8917)

[yt-dlp.git] / yt_dlp / extractor / youtube.py
diff --git a/yt_dlp/extractor/youtube.py b/yt_dlp/extractor/youtube.py

index 73bfa662d2637a9f27d3ee1b9639b1031e8b4ee6..f18e3c733bda2765910041b1689b20aaee821deb 100644 (file)
--- a/yt_dlp/extractor/youtube.py
+++ b/yt_dlp/extractor/youtube.py
@@ -15,13 +15,13 @@
  import threading
  import time
  import traceback
-import urllib.error
  import urllib.parse
  
  from .common import InfoExtractor, SearchInfoExtractor
  from .openload import PhantomJSwrapper
  from ..compat import functools
  from ..jsinterp import JSInterpreter
+from ..networking.exceptions import HTTPError, network_exceptions
  from ..utils import (
      NO_DEFAULT,
      ExtractorError,
@@ -41,7 +41,6 @@
      join_nonempty,
      js_to_json,
      mimetype2ext,
-    network_exceptions,
      orderedSet,
      parse_codecs,
      parse_count,
@@ -429,7 +428,7 @@ class YoutubeBaseInfoExtractor(InfoExtractor):
          r'(?:www\.)?piped\.adminforge\.de',
          r'(?:www\.)?watch\.whatevertinfoil\.de',
          r'(?:www\.)?piped\.qdi\.fi',
-        r'(?:www\.)?piped\.video',
+        r'(?:(?:www|cf)\.)?piped\.video',
          r'(?:www\.)?piped\.aeong\.one',
          r'(?:www\.)?piped\.moomoo\.me',
          r'(?:www\.)?piped\.chauvet\.pro',
@@ -497,16 +496,10 @@ def _initialize_consent(self):
          cookies = self._get_cookies('https://www.youtube.com/')
          if cookies.get('__Secure-3PSID'):
              return
-        consent_id = None
-        consent = cookies.get('CONSENT')
-        if consent:
-            if 'YES' in consent.value:
-                return
-            consent_id = self._search_regex(
-                r'PENDING\+(\d+)', consent.value, 'consent', default=None)
-        if not consent_id:
-            consent_id = random.randint(100, 999)
-        self._set_cookie('.youtube.com', 'CONSENT', 'YES+cb.20210328-17-p0.en+FX+%s' % consent_id)
+        socs = cookies.get('SOCS')
+        if socs and not socs.value.startswith('CAA'):  # not consented
+            return
+        self._set_cookie('.youtube.com', 'SOCS', 'CAI', secure=True)  # accept all (required for mixes)
  
      def _initialize_pref(self):
          cookies = self._get_cookies('https://www.youtube.com/')
@@ -909,7 +902,7 @@ def extract_relative_time(relative_time_text):
          e.g. 'streamed 6 days ago', '5 seconds ago (edited)', 'updated today', '8 yr ago'
          """
  
-        # XXX: this could be moved to a general function in utils.py
+        # XXX: this could be moved to a general function in utils/_utils.py
          # The relative time text strings are roughly the same as what
          # Javascript's Intl.RelativeTimeFormat function generates.
          # See: https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Intl/RelativeTimeFormat
@@ -948,7 +941,16 @@ def _parse_time_text(self, text):
      def _extract_response(self, item_id, query, note='Downloading API JSON', headers=None,
                            ytcfg=None, check_get_keys=None, ep='browse', fatal=True, api_hostname=None,
                            default_client='web'):
-        for retry in self.RetryManager():
+        raise_for_incomplete = bool(self._configuration_arg('raise_incomplete_data', ie_key=YoutubeIE))
+        # Incomplete Data should be a warning by default when retries are exhausted, while other errors should be fatal.
+        icd_retries = iter(self.RetryManager(fatal=raise_for_incomplete))
+        icd_rm = next(icd_retries)
+        main_retries = iter(self.RetryManager())
+        main_rm = next(main_retries)
+        # Manual retry loop for multiple RetryManagers
+        # The proper RetryManager MUST be advanced after an error
+        # and its result MUST be checked if the manager is non fatal
+        while True:
              try:
                  response = self._call_api(
                      ep=ep, fatal=True, headers=headers,
@@ -959,40 +961,46 @@ def _extract_response(self, item_id, query, note='Downloading API JSON', headers
              except ExtractorError as e:
                  if not isinstance(e.cause, network_exceptions):
                      return self._error_or_warning(e, fatal=fatal)
-                elif not isinstance(e.cause, urllib.error.HTTPError):
-                    retry.error = e
+                elif not isinstance(e.cause, HTTPError):
+                    main_rm.error = e
+                    next(main_retries)
                      continue
  
-                first_bytes = e.cause.read(512)
+                first_bytes = e.cause.response.read(512)
                  if not is_html(first_bytes):
                      yt_error = try_get(
                          self._parse_json(
-                            self._webpage_read_content(e.cause, None, item_id, prefix=first_bytes) or '{}', item_id, fatal=False),
+                            self._webpage_read_content(e.cause.response, None, item_id, prefix=first_bytes) or '{}', item_id, fatal=False),
                          lambda x: x['error']['message'], str)
                      if yt_error:
                          self._report_alerts([('ERROR', yt_error)], fatal=False)
                  # Downloading page may result in intermittent 5xx HTTP error
-                # Sometimes a 404 is also recieved. See: https://github.com/ytdl-org/youtube-dl/issues/28289
+                # Sometimes a 404 is also received. See: https://github.com/ytdl-org/youtube-dl/issues/28289
                  # We also want to catch all other network exceptions since errors in later pages can be troublesome
                  # See https://github.com/yt-dlp/yt-dlp/issues/507#issuecomment-880188210
-                if e.cause.code not in (403, 429):
-                    retry.error = e
+                if e.cause.status not in (403, 429):
+                    main_rm.error = e
+                    next(main_retries)
                      continue
                  return self._error_or_warning(e, fatal=fatal)
  
              try:
                  self._extract_and_report_alerts(response, only_once=True)
              except ExtractorError as e:
-                # YouTube servers may return errors we want to retry on in a 200 OK response
+                # YouTube's servers may return errors we want to retry on in a 200 OK response
                  # See: https://github.com/yt-dlp/yt-dlp/issues/839
                  if 'unknown error' in e.msg.lower():
-                    retry.error = e
+                    main_rm.error = e
+                    next(main_retries)
                      continue
                  return self._error_or_warning(e, fatal=fatal)
              # Youtube sometimes sends incomplete data
              # See: https://github.com/ytdl-org/youtube-dl/issues/28194
              if not traverse_obj(response, *variadic(check_get_keys)):
-                retry.error = ExtractorError('Incomplete data received', expected=True)
+                icd_rm.error = ExtractorError('Incomplete data received', expected=True)
+                should_retry = next(icd_retries, None)
+                if not should_retry:
+                    return None
                  continue
  
              return response
@@ -2060,11 +2068,11 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                  'title': 'Voyeur Girl',
                  'description': 'md5:7ae382a65843d6df2685993e90a8628f',
                  'upload_date': '20190312',
-                'artist': 'Stephen',
+                'artists': ['Stephen'],
+                'creators': ['Stephen'],
                  'track': 'Voyeur Girl',
                  'album': 'it\'s too much love to know my dear',
                  'release_date': '20190313',
-                'release_year': 2019,
                  'alt_title': 'Voyeur Girl',
                  'view_count': int,
                  'playable_in_embed': True,
@@ -2074,7 +2082,6 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                  'channel': 'Stephen',  # TODO: should be "Stephen - Topic"
                  'uploader': 'Stephen',
                  'availability': 'public',
-                'creator': 'Stephen',
                  'duration': 169,
                  'thumbnail': 'https://i.ytimg.com/vi_webp/MgNrAu2pzNs/maxresdefault.webp',
                  'age_limit': 0,
@@ -2837,7 +2844,7 @@ def _extract_sequence_from_mpd(refresh_sequence, immediate):
              # Obtain from MPD's maximum seq value
              old_mpd_url = mpd_url
              last_error = ctx.pop('last_error', None)
-            expire_fast = immediate or last_error and isinstance(last_error, urllib.error.HTTPError) and last_error.code == 403
+            expire_fast = immediate or last_error and isinstance(last_error, HTTPError) and last_error.status == 403
              mpd_url, stream_number, is_live = (mpd_feed(format_id, 5 if expire_fast else 18000)
                                                 or (mpd_url, stream_number, False))
              if not refresh_sequence:
@@ -3287,16 +3294,15 @@ def _extract_chapters_from_engagement_panel(self, data, duration):
                                            chapter_time, chapter_title, duration)
              for contents in content_list)), [])
  
-    def _extract_heatmap_from_player_overlay(self, data):
-        content_list = traverse_obj(data, (
-            'playerOverlays', 'playerOverlayRenderer', 'decoratedPlayerBarRenderer', 'decoratedPlayerBarRenderer', 'playerBar',
-            'multiMarkersPlayerBarRenderer', 'markersMap', ..., 'value', 'heatmap', 'heatmapRenderer', 'heatMarkers', {list}))
-        return next(filter(None, (
-            traverse_obj(contents, (..., 'heatMarkerRenderer', {
-                'start_time': ('timeRangeStartMillis', {functools.partial(float_or_none, scale=1000)}),
-                'end_time': {lambda x: (x['timeRangeStartMillis'] + x['markerDurationMillis']) / 1000},
-                'value': ('heatMarkerIntensityScoreNormalized', {float_or_none}),
-            })) for contents in content_list)), None)
+    def _extract_heatmap(self, data):
+        return traverse_obj(data, (
+            'frameworkUpdates', 'entityBatchUpdate', 'mutations',
+            lambda _, v: v['payload']['macroMarkersListEntity']['markersList']['markerType'] == 'MARKER_TYPE_HEATMAP',
+            'payload', 'macroMarkersListEntity', 'markersList', 'markers', ..., {
+                'start_time': ('startMillis', {functools.partial(float_or_none, scale=1000)}),
+                'end_time': {lambda x: (int(x['startMillis']) + int(x['durationMillis'])) / 1000},
+                'value': ('intensityScoreNormalized', {float_or_none}),
+            })) or None
  
      def _extract_comment(self, comment_renderer, parent=None):
          comment_id = comment_renderer.get('commentId')
@@ -3584,8 +3590,6 @@ def _is_agegated(player_response):
      def _is_unplayable(player_response):
          return traverse_obj(player_response, ('playabilityStatus', 'status')) == 'UNPLAYABLE'
  
-    _PLAYER_PARAMS = 'CgIQBg=='
-
      def _extract_player_response(self, client, video_id, master_ytcfg, player_ytcfg, player_url, initial_pr, smuggled_data):
  
          session_index = self._extract_session_index(player_ytcfg, master_ytcfg)
@@ -3598,7 +3602,11 @@ def _extract_player_response(self, client, video_id, master_ytcfg, player_ytcfg,
              'videoId': video_id,
          }
          if _split_innertube_client(client)[0] == 'android':
-            yt_query['params'] = self._PLAYER_PARAMS
+            yt_query['params'] = 'CgIQBg=='
+
+        pp_arg = self._configuration_arg('player_params', [None], casesense=True)[0]
+        if pp_arg:
+            yt_query['params'] = pp_arg
  
          yt_query.update(self._generate_player_context(sts))
          return self._extract_response(
@@ -4017,6 +4025,9 @@ def _download_player_responses(self, url, smuggled_data, video_id, webpage_url):
          webpage = None
          if 'webpage' not in self._configuration_arg('player_skip'):
              query = {'bpctr': '9999999999', 'has_verified': '1'}
+            pp = self._configuration_arg('player_params', [None], casesense=True)[0]
+            if pp:
+                query['pp'] = pp
              webpage = self._download_webpage(
                  webpage_url, video_id, fatal=False, query=query)
  
@@ -4375,7 +4386,8 @@ def process_language(container, base_url, lang_code, sub_name, query):
                          release_year = release_date[:4]
                  info.update({
                      'album': mobj.group('album'.strip()),
-                    'artist': mobj.group('clean_artist') or ', '.join(a.strip() for a in mobj.group('artist').split('·')),
+                    'artists': ([a] if (a := mobj.group('clean_artist'))
+                                else [a.strip() for a in mobj.group('artist').split('·')]),
                      'track': mobj.group('track').strip(),
                      'release_date': release_date,
                      'release_year': int_or_none(release_year),
@@ -4425,7 +4437,7 @@ def process_language(container, base_url, lang_code, sub_name, query):
                  or self._extract_chapters_from_description(video_description, duration)
                  or None)
  
-            info['heatmap'] = self._extract_heatmap_from_player_overlay(initial_data)
+            info['heatmap'] = self._extract_heatmap(initial_data)
  
          contents = traverse_obj(
              initial_data, ('contents', 'twoColumnWatchNextResults', 'results', 'results', 'contents'),
@@ -4469,14 +4481,13 @@ def process_language(container, base_url, lang_code, sub_name, query):
                              if mobj:
                                  info[mobj.group('type') + '_count'] = str_to_int(mobj.group('count'))
                                  break
-            sbr_tooltip = try_get(
-                vpir, lambda x: x['sentimentBar']['sentimentBarRenderer']['tooltip'])
-            if sbr_tooltip:
-                like_count, dislike_count = sbr_tooltip.split(' / ')
-                info.update({
-                    'like_count': str_to_int(like_count),
-                    'dislike_count': str_to_int(dislike_count),
-                })
+
+            info['like_count'] = traverse_obj(vpir, (
+                'videoActions', 'menuRenderer', 'topLevelButtons', ...,
+                'segmentedLikeDislikeButtonViewModel', 'likeButtonViewModel', 'likeButtonViewModel',
+                'toggleButtonViewModel', 'toggleButtonViewModel', 'defaultButtonViewModel',
+                'buttonViewModel', 'accessibilityText', {parse_count}), get_all=False)
+
              vcr = traverse_obj(vpir, ('viewCount', 'videoViewCountRenderer'))
              if vcr:
                  vc = self._get_count(vcr, 'viewCount')
@@ -4522,7 +4533,7 @@ def process_language(container, base_url, lang_code, sub_name, query):
                      if mrr_title == 'Album':
                          info['album'] = mrr_contents_text
                      elif mrr_title == 'Artist':
-                        info['artist'] = mrr_contents_text
+                        info['artists'] = [mrr_contents_text] if mrr_contents_text else None
                      elif mrr_title == 'Song':
                          info['track'] = mrr_contents_text
              owner_badges = self._extract_badges(traverse_obj(vsir, ('owner', 'videoOwnerRenderer', 'badges')))
@@ -4548,7 +4559,15 @@ def process_language(container, base_url, lang_code, sub_name, query):
                  self._parse_time_text(self._get_text(vpir, 'dateText'))) or upload_date
          info['upload_date'] = upload_date
  
-        for s_k, d_k in [('artist', 'creator'), ('track', 'alt_title')]:
+        if upload_date and live_status not in ('is_live', 'post_live', 'is_upcoming'):
+            # Newly uploaded videos' HLS formats are potentially problematic and need to be checked
+            upload_datetime = datetime_from_str(upload_date).replace(tzinfo=datetime.timezone.utc)
+            if upload_datetime >= datetime_from_str('today-2days'):
+                for fmt in info['formats']:
+                    if fmt.get('protocol') == 'm3u8_native':
+                        fmt['__needs_testing'] = True
+
+        for s_k, d_k in [('artists', 'creators'), ('track', 'alt_title')]:
              v = info.get(s_k)
              if v:
                  info[d_k] = v
@@ -4921,10 +4940,15 @@ def _entries(self, tab, item_id, ytcfg, account_syncid, visitor_data):
              or try_get(tab_content, lambda x: x['richGridRenderer'], dict) or {})
          yield from extract_entries(parent_renderer)
          continuation = continuation_list[0]
-
+        seen_continuations = set()
          for page_num in itertools.count(1):
              if not continuation:
                  break
+            continuation_token = continuation.get('continuation')
+            if continuation_token is not None and continuation_token in seen_continuations:
+                self.write_debug('Detected YouTube feed looping - assuming end of feed.')
+                break
+            seen_continuations.add(continuation_token)
              headers = self.generate_api_headers(
                  ytcfg=ytcfg, account_syncid=account_syncid, visitor_data=visitor_data)
              response = self._extract_response(
@@ -5258,7 +5282,7 @@ def _extract_webpage(self, url, item_id, fatal=True):
                  data = self.extract_yt_initial_data(item_id, webpage or '', fatal=fatal) or {}
              except ExtractorError as e:
                  if isinstance(e.cause, network_exceptions):
-                    if not isinstance(e.cause, urllib.error.HTTPError) or e.cause.code not in (403, 429):
+                    if not isinstance(e.cause, HTTPError) or e.cause.status not in (403, 429):
                          retry.error = e
                          continue
                  self._error_or_warning(e, fatal=fatal)
@@ -5274,6 +5298,7 @@ def _extract_webpage(self, url, item_id, fatal=True):
              # See: https://github.com/yt-dlp/yt-dlp/issues/116
              if not traverse_obj(data, 'contents', 'currentVideoEndpoint', 'onResponseReceivedActions'):
                  retry.error = ExtractorError('Incomplete yt initial data received')
+                data = None
                  continue
  
          return webpage, data
@@ -6445,6 +6470,9 @@ def _extract_tab_id_and_name(self, tab, base_url='https://www.youtube.com'):
      def _has_tab(self, tabs, tab_id):
          return any(self._extract_tab_id_and_name(tab)[0] == tab_id for tab in tabs)
  
+    def _empty_playlist(self, item_id, data):
+        return self.playlist_result([], item_id, **self._extract_metadata_from_tabs(item_id, data))
+
      @YoutubeTabBaseInfoExtractor.passthrough_smuggled_data
      def _real_extract(self, url, smuggled_data):
          item_id = self._match_id(url)
@@ -6510,6 +6538,10 @@ def _real_extract(self, url, smuggled_data):
              selected_tab_id, selected_tab_name = self._extract_tab_id_and_name(selected_tab, url)  # NB: Name may be translated
              self.write_debug(f'Selected tab: {selected_tab_id!r} ({selected_tab_name}), Requested tab: {original_tab_id!r}')
  
+            # /about is no longer a tab
+            if original_tab_id == 'about':
+                return self._empty_playlist(item_id, data)
+
              if not original_tab_id and selected_tab_name:
                  self.to_screen('Downloading all uploads of the channel. '
                                 'To download only the videos in a specific tab, pass the tab\'s URL')
@@ -6522,7 +6554,7 @@ def _real_extract(self, url, smuggled_data):
                  if not extra_tabs and selected_tab_id != 'videos':
                      # Channel does not have streams, shorts or videos tabs
                      if item_id[:2] != 'UC':
-                        raise ExtractorError('This channel has no uploads', expected=True)
+                        return self._empty_playlist(item_id, data)
  
                      # Topic channels don't have /videos. Use the equivalent playlist instead
                      pl_id = f'UU{item_id[2:]}'
@@ -6530,7 +6562,7 @@ def _real_extract(self, url, smuggled_data):
                      try:
                          data, ytcfg = self._extract_data(pl_url, pl_id, ytcfg=ytcfg, fatal=True, webpage_fatal=True)
                      except ExtractorError:
-                        raise ExtractorError('This channel has no uploads', expected=True)
+                        return self._empty_playlist(item_id, data)
                      else:
                          item_id, url = pl_id, pl_url
                          self.to_screen(
@@ -6662,7 +6694,7 @@ class YoutubePlaylistIE(InfoExtractor):
              'uploader_url': 'https://www.youtube.com/@milan5503',
              'availability': 'public',
          },
-        'expected_warnings': [r'[Uu]navailable videos? (is|are|will be) hidden'],
+        'expected_warnings': [r'[Uu]navailable videos? (is|are|will be) hidden', 'Retrying', 'Giving up'],
      }, {
          'url': 'http://www.youtube.com/embed/_xDOZElKyNU?list=PLsyOSbh5bs16vubvKePAQ1x3PhKavfBIl',
          'playlist_mincount': 455,