[ie/youtube] Better error when all player responses are skipped (#9083)

[yt-dlp.git] / yt_dlp / extractor / youtube.py
diff --git a/yt_dlp/extractor/youtube.py b/yt_dlp/extractor/youtube.py

index b6212646ebaa4f6941d55725dfdab345dcafeffd..29997cd5ad060df7dbe0f6ebf69f709d33d7c813 100644 (file)
--- a/yt_dlp/extractor/youtube.py
+++ b/yt_dlp/extractor/youtube.py
@@ -2068,7 +2068,8 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                  'title': 'Voyeur Girl',
                  'description': 'md5:7ae382a65843d6df2685993e90a8628f',
                  'upload_date': '20190312',
-                'artist': 'Stephen',
+                'artists': ['Stephen'],
+                'creators': ['Stephen'],
                  'track': 'Voyeur Girl',
                  'album': 'it\'s too much love to know my dear',
                  'release_date': '20190313',
@@ -2081,7 +2082,6 @@ class YoutubeIE(YoutubeBaseInfoExtractor):
                  'channel': 'Stephen',  # TODO: should be "Stephen - Topic"
                  'uploader': 'Stephen',
                  'availability': 'public',
-                'creator': 'Stephen',
                  'duration': 169,
                  'thumbnail': 'https://i.ytimg.com/vi_webp/MgNrAu2pzNs/maxresdefault.webp',
                  'age_limit': 0,
@@ -3640,15 +3640,28 @@ def _get_requested_clients(self, url, smuggled_data):
  
          return orderedSet(requested_clients)
  
+    def _invalid_player_response(self, pr, video_id):
+        # YouTube may return a different video player response than expected.
+        # See: https://github.com/TeamNewPipe/NewPipe/issues/8713
+        if (pr_id := traverse_obj(pr, ('videoDetails', 'videoId'))) != video_id:
+            return pr_id
+
      def _extract_player_responses(self, clients, video_id, webpage, master_ytcfg, smuggled_data):
          initial_pr = None
          if webpage:
              initial_pr = self._search_json(
                  self._YT_INITIAL_PLAYER_RESPONSE_RE, webpage, 'initial player response', video_id, fatal=False)
  
+        prs = []
+        if initial_pr and not self._invalid_player_response(initial_pr, video_id):
+            # Android player_response does not have microFormats which are needed for
+            # extraction of some data. So we return the initial_pr with formats
+            # stripped out even if not requested by the user
+            # See: https://github.com/yt-dlp/yt-dlp/issues/501
+            prs.append({**initial_pr, 'streamingData': None})
+
          all_clients = set(clients)
          clients = clients[::-1]
-        prs = []
  
          def append_client(*client_names):
              """ Append the first client name that exists but not already used """
@@ -3660,18 +3673,9 @@ def append_client(*client_names):
                          all_clients.add(actual_client)
                          return
  
-        # Android player_response does not have microFormats which are needed for
-        # extraction of some data. So we return the initial_pr with formats
-        # stripped out even if not requested by the user
-        # See: https://github.com/yt-dlp/yt-dlp/issues/501
-        if initial_pr:
-            pr = dict(initial_pr)
-            pr['streamingData'] = None
-            prs.append(pr)
-
-        last_error = None
          tried_iframe_fallback = False
          player_url = None
+        skipped_clients = {}
          while clients:
              client, base_client, variant = _split_innertube_client(clients.pop())
              player_ytcfg = master_ytcfg if client == 'web' else {}
@@ -3692,26 +3696,19 @@ def append_client(*client_names):
                  pr = initial_pr if client == 'web' and initial_pr else self._extract_player_response(
                      client, video_id, player_ytcfg or master_ytcfg, player_ytcfg, player_url if require_js_player else None, initial_pr, smuggled_data)
              except ExtractorError as e:
-                if last_error:
-                    self.report_warning(last_error)
-                last_error = e
+                self.report_warning(e)
                  continue
  
-            if pr:
-                # YouTube may return a different video player response than expected.
-                # See: https://github.com/TeamNewPipe/NewPipe/issues/8713
-                pr_video_id = traverse_obj(pr, ('videoDetails', 'videoId'))
-                if pr_video_id and pr_video_id != video_id:
-                    self.report_warning(
-                        f'Skipping player response from {client} client (got player response for video "{pr_video_id}" instead of "{video_id}")' + bug_reports_message())
-                else:
-                    # Save client name for introspection later
-                    name = short_client_name(client)
-                    sd = traverse_obj(pr, ('streamingData', {dict})) or {}
-                    sd[STREAMING_DATA_CLIENT_NAME] = name
-                    for f in traverse_obj(sd, (('formats', 'adaptiveFormats'), ..., {dict})):
-                        f[STREAMING_DATA_CLIENT_NAME] = name
-                    prs.append(pr)
+            if pr_id := self._invalid_player_response(pr, video_id):
+                skipped_clients[client] = pr_id
+            elif pr:
+                # Save client name for introspection later
+                name = short_client_name(client)
+                sd = traverse_obj(pr, ('streamingData', {dict})) or {}
+                sd[STREAMING_DATA_CLIENT_NAME] = name
+                for f in traverse_obj(sd, (('formats', 'adaptiveFormats'), ..., {dict})):
+                    f[STREAMING_DATA_CLIENT_NAME] = name
+                prs.append(pr)
  
              # creator clients can bypass AGE_VERIFICATION_REQUIRED if logged in
              if variant == 'embedded' and self._is_unplayable(pr) and self.is_authenticated:
@@ -3722,10 +3719,15 @@ def append_client(*client_names):
                  elif not variant:
                      append_client(f'tv_embedded.{base_client}', f'{base_client}_embedded')
  
-        if last_error:
-            if not len(prs):
-                raise last_error
-            self.report_warning(last_error)
+        if skipped_clients:
+            self.report_warning(
+                f'Skipping player responses from {"/".join(skipped_clients)} clients '
+                f'(got player responses for video "{"/".join(set(skipped_clients.values()))}" instead of "{video_id}")')
+            if not prs:
+                raise ExtractorError(
+                    'All player responses are invalid. Your IP is likely being blocked by Youtube', expected=True)
+        elif not prs:
+            raise ExtractorError('Failed to extract any player response')
          return prs, player_url
  
      def _needs_live_processing(self, live_status, duration):
@@ -4386,7 +4388,8 @@ def process_language(container, base_url, lang_code, sub_name, query):
                          release_year = release_date[:4]
                  info.update({
                      'album': mobj.group('album'.strip()),
-                    'artist': mobj.group('clean_artist') or ', '.join(a.strip() for a in mobj.group('artist').split('·')),
+                    'artists': ([a] if (a := mobj.group('clean_artist'))
+                                else [a.strip() for a in mobj.group('artist').split('·')]),
                      'track': mobj.group('track').strip(),
                      'release_date': release_date,
                      'release_year': int_or_none(release_year),
@@ -4480,14 +4483,13 @@ def process_language(container, base_url, lang_code, sub_name, query):
                              if mobj:
                                  info[mobj.group('type') + '_count'] = str_to_int(mobj.group('count'))
                                  break
-            sbr_tooltip = try_get(
-                vpir, lambda x: x['sentimentBar']['sentimentBarRenderer']['tooltip'])
-            if sbr_tooltip:
-                like_count, dislike_count = sbr_tooltip.split(' / ')
-                info.update({
-                    'like_count': str_to_int(like_count),
-                    'dislike_count': str_to_int(dislike_count),
-                })
+
+            info['like_count'] = traverse_obj(vpir, (
+                'videoActions', 'menuRenderer', 'topLevelButtons', ...,
+                'segmentedLikeDislikeButtonViewModel', 'likeButtonViewModel', 'likeButtonViewModel',
+                'toggleButtonViewModel', 'toggleButtonViewModel', 'defaultButtonViewModel',
+                'buttonViewModel', 'accessibilityText', {parse_count}), get_all=False)
+
              vcr = traverse_obj(vpir, ('viewCount', 'videoViewCountRenderer'))
              if vcr:
                  vc = self._get_count(vcr, 'viewCount')
@@ -4533,7 +4535,7 @@ def process_language(container, base_url, lang_code, sub_name, query):
                      if mrr_title == 'Album':
                          info['album'] = mrr_contents_text
                      elif mrr_title == 'Artist':
-                        info['artist'] = mrr_contents_text
+                        info['artists'] = [mrr_contents_text] if mrr_contents_text else None
                      elif mrr_title == 'Song':
                          info['track'] = mrr_contents_text
              owner_badges = self._extract_badges(traverse_obj(vsir, ('owner', 'videoOwnerRenderer', 'badges')))
@@ -4567,7 +4569,7 @@ def process_language(container, base_url, lang_code, sub_name, query):
                      if fmt.get('protocol') == 'm3u8_native':
                          fmt['__needs_testing'] = True
  
-        for s_k, d_k in [('artist', 'creator'), ('track', 'alt_title')]:
+        for s_k, d_k in [('artists', 'creators'), ('track', 'alt_title')]:
              v = info.get(s_k)
              if v:
                  info[d_k] = v
@@ -5298,6 +5300,7 @@ def _extract_webpage(self, url, item_id, fatal=True):
              # See: https://github.com/yt-dlp/yt-dlp/issues/116
              if not traverse_obj(data, 'contents', 'currentVideoEndpoint', 'onResponseReceivedActions'):
                  retry.error = ExtractorError('Incomplete yt initial data received')
+                data = None
                  continue
  
          return webpage, data
@@ -6469,6 +6472,9 @@ def _extract_tab_id_and_name(self, tab, base_url='https://www.youtube.com'):
      def _has_tab(self, tabs, tab_id):
          return any(self._extract_tab_id_and_name(tab)[0] == tab_id for tab in tabs)
  
+    def _empty_playlist(self, item_id, data):
+        return self.playlist_result([], item_id, **self._extract_metadata_from_tabs(item_id, data))
+
      @YoutubeTabBaseInfoExtractor.passthrough_smuggled_data
      def _real_extract(self, url, smuggled_data):
          item_id = self._match_id(url)
@@ -6534,6 +6540,10 @@ def _real_extract(self, url, smuggled_data):
              selected_tab_id, selected_tab_name = self._extract_tab_id_and_name(selected_tab, url)  # NB: Name may be translated
              self.write_debug(f'Selected tab: {selected_tab_id!r} ({selected_tab_name}), Requested tab: {original_tab_id!r}')
  
+            # /about is no longer a tab
+            if original_tab_id == 'about':
+                return self._empty_playlist(item_id, data)
+
              if not original_tab_id and selected_tab_name:
                  self.to_screen('Downloading all uploads of the channel. '
                                 'To download only the videos in a specific tab, pass the tab\'s URL')
@@ -6546,7 +6556,7 @@ def _real_extract(self, url, smuggled_data):
                  if not extra_tabs and selected_tab_id != 'videos':
                      # Channel does not have streams, shorts or videos tabs
                      if item_id[:2] != 'UC':
-                        raise ExtractorError('This channel has no uploads', expected=True)
+                        return self._empty_playlist(item_id, data)
  
                      # Topic channels don't have /videos. Use the equivalent playlist instead
                      pl_id = f'UU{item_id[2:]}'
@@ -6554,7 +6564,7 @@ def _real_extract(self, url, smuggled_data):
                      try:
                          data, ytcfg = self._extract_data(pl_url, pl_id, ytcfg=ytcfg, fatal=True, webpage_fatal=True)
                      except ExtractorError:
-                        raise ExtractorError('This channel has no uploads', expected=True)
+                        return self._empty_playlist(item_id, data)
                      else:
                          item_id, url = pl_id, pl_url
                          self.to_screen(