[extractor/youtube] Add `live_status=post_live` (#4495)

[yt-dlp.git] / yt_dlp / extractor / common.py
diff --git a/yt_dlp/extractor/common.py b/yt_dlp/extractor/common.py

index aceb1052adefcaa8490fdeab8fca032b4683cf14..d168763e0bcfa2165ee2ed188e763fa4252253ca 100644 (file)
--- a/yt_dlp/extractor/common.py
+++ b/yt_dlp/extractor/common.py
@@ -11,13 +11,14 @@
  import netrc
  import os
  import random
+import re
  import sys
  import time
  import urllib.parse
  import urllib.request
  import xml.etree.ElementTree
  
-from ..compat import functools, re  # isort: split
+from ..compat import functools  # isort: split
  from ..compat import compat_etree_fromstring, compat_expanduser, compat_os_name
  from ..downloader import FileDownloader
  from ..downloader.f4m import get_base_url, remove_encrypted_media
@@ -63,6 +64,7 @@
      str_to_int,
      strip_or_none,
      traverse_obj,
+    try_call,
      try_get,
      unescapeHTML,
      unified_strdate,
@@ -310,7 +312,8 @@ class InfoExtractor:
                      live stream that goes on instead of a fixed-length video.
      was_live:       True, False, or None (=unknown). Whether this video was
                      originally a live stream.
-    live_status:    'is_live', 'is_upcoming', 'was_live', 'not_live' or None (=unknown)
+    live_status:    None (=unknown), 'is_live', 'is_upcoming', 'was_live', 'not_live'
+                    or 'post_live' (was live, but VOD is not yet processed)
                      If absent, automatically set from is_live, was_live
      start_time:     Time in seconds where the reproduction should start, as
                      specified in the URL.
@@ -382,6 +385,10 @@ class InfoExtractor:
      section_start:  Start time of the section in seconds
      section_end:    End time of the section in seconds
  
+    The following fields should only be set for storyboards:
+    rows:           Number of rows in each storyboard fragment, as an integer
+    columns:        Number of columns in each storyboard fragment, as an integer
+
      Unless mentioned otherwise, the fields should be Unicode strings.
  
      Unless mentioned otherwise, None is equivalent to absence of information.
@@ -391,7 +398,7 @@ class InfoExtractor:
      There must be a key "entries", which is a list, an iterable, or a PagedList
      object, each element of which is a valid dictionary by this specification.
  
-    Additionally, playlists can have "id", "title", and any other relevent
+    Additionally, playlists can have "id", "title", and any other relevant
      attributes with the same semantics as videos (see above).
  
      It can also have the following optional fields:
@@ -641,10 +648,10 @@ def extract(self, url):
                          return None
                      if self._x_forwarded_for_ip:
                          ie_result['__x_forwarded_for_ip'] = self._x_forwarded_for_ip
-                    subtitles = ie_result.get('subtitles')
-                    if (subtitles and 'live_chat' in subtitles
-                            and 'no-live-chat' in self.get_param('compat_opts', [])):
-                        del subtitles['live_chat']
+                    subtitles = ie_result.get('subtitles') or {}
+                    if 'no-live-chat' in self.get_param('compat_opts'):
+                        for lang in ('live_chat', 'comments', 'danmaku'):
+                            subtitles.pop(lang, None)
                      return ie_result
                  except GeoRestrictedError as e:
                      if self.__maybe_fake_ip_and_retry(e.countries):
@@ -696,7 +703,7 @@ def cookiejar(self):
          return self._downloader.cookiejar
  
      def _initialize_pre_login(self):
-        """ Intialization before login. Redefine in subclasses."""
+        """ Initialization before login. Redefine in subclasses."""
          pass
  
      def _perform_login(self, username, password):
@@ -730,14 +737,14 @@ def __can_accept_status_code(err, expected_status):
          else:
              return err.code in variadic(expected_status)
  
-    def _create_request(self, url_or_request, data=None, headers={}, query={}):
+    def _create_request(self, url_or_request, data=None, headers=None, query=None):
          if isinstance(url_or_request, urllib.request.Request):
              return update_Request(url_or_request, data=data, headers=headers, query=query)
          if query:
              url_or_request = update_url_query(url_or_request, query)
-        return sanitized_Request(url_or_request, data, headers)
+        return sanitized_Request(url_or_request, data, headers or {})
  
-    def _request_webpage(self, url_or_request, video_id, note=None, errnote=None, fatal=True, data=None, headers={}, query={}, expected_status=None):
+    def _request_webpage(self, url_or_request, video_id, note=None, errnote=None, fatal=True, data=None, headers=None, query=None, expected_status=None):
          """
          Return the response handle.
  
@@ -765,8 +772,8 @@ def _request_webpage(self, url_or_request, video_id, note=None, errnote=None, fa
          # geo unrestricted country. We will do so once we encounter any
          # geo restriction error.
          if self._x_forwarded_for_ip:
-            if 'X-Forwarded-For' not in headers:
-                headers['X-Forwarded-For'] = self._x_forwarded_for_ip
+            headers = (headers or {}).copy()
+            headers.setdefault('X-Forwarded-For', self._x_forwarded_for_ip)
  
          try:
              return self._downloader.urlopen(self._create_request(url_or_request, data, headers, query))
@@ -924,39 +931,37 @@ def _webpage_read_content(self, urlh, url_or_request, video_id, note=None, errno
  
          return content
  
-    def _parse_xml(self, xml_string, video_id, transform_source=None, fatal=True):
+    def __print_error(self, errnote, fatal, video_id, err):
+        if fatal:
+            raise ExtractorError(f'{video_id}: {errnote}', cause=err)
+        elif errnote:
+            self.report_warning(f'{video_id}: {errnote}: {err}')
+
+    def _parse_xml(self, xml_string, video_id, transform_source=None, fatal=True, errnote=None):
          if transform_source:
              xml_string = transform_source(xml_string)
          try:
              return compat_etree_fromstring(xml_string.encode('utf-8'))
          except xml.etree.ElementTree.ParseError as ve:
-            errmsg = '%s: Failed to parse XML ' % video_id
-            if fatal:
-                raise ExtractorError(errmsg, cause=ve)
-            else:
-                self.report_warning(errmsg + str(ve))
+            self.__print_error('Failed to parse XML' if errnote is None else errnote, fatal, video_id, ve)
  
-    def _parse_json(self, json_string, video_id, transform_source=None, fatal=True, **parser_kwargs):
+    def _parse_json(self, json_string, video_id, transform_source=None, fatal=True, errnote=None, **parser_kwargs):
          try:
              return json.loads(
                  json_string, cls=LenientJSONDecoder, strict=False, transform_source=transform_source, **parser_kwargs)
          except ValueError as ve:
-            errmsg = f'{video_id}: Failed to parse JSON'
-            if fatal:
-                raise ExtractorError(errmsg, cause=ve)
-            else:
-                self.report_warning(f'{errmsg}: {ve}')
+            self.__print_error('Failed to parse JSON' if errnote is None else errnote, fatal, video_id, ve)
  
-    def _parse_socket_response_as_json(self, data, video_id, transform_source=None, fatal=True):
-        return self._parse_json(
-            data[data.find('{'):data.rfind('}') + 1],
-            video_id, transform_source, fatal)
+    def _parse_socket_response_as_json(self, data, *args, **kwargs):
+        return self._parse_json(data[data.find('{'):data.rfind('}') + 1], *args, **kwargs)
  
      def __create_download_methods(name, parser, note, errnote, return_value):
  
-        def parse(ie, content, *args, **kwargs):
+        def parse(ie, content, *args, errnote=errnote, **kwargs):
              if parser is None:
                  return content
+            if errnote is False:
+                kwargs['errnote'] = errnote
              # parser is fetched by name so subclasses can override it
              return getattr(ie, parser)(content, *args, **kwargs)
  
@@ -968,7 +973,7 @@ def download_handle(self, url_or_request, video_id, note=note, errnote=errnote,
              if res is False:
                  return res
              content, urlh = res
-            return parse(self, content, video_id, transform_source=transform_source, fatal=fatal), urlh
+            return parse(self, content, video_id, transform_source=transform_source, fatal=fatal, errnote=errnote), urlh
  
          def download_content(self, url_or_request, video_id, note=note, errnote=errnote, transform_source=None,
                               fatal=True, encoding=None, data=None, headers={}, query={}, expected_status=None):
@@ -983,7 +988,7 @@ def download_content(self, url_or_request, video_id, note=note, errnote=errnote,
                      self.report_warning(f'Unable to load request from disk: {e}')
                  else:
                      content = self.__decode_webpage(webpage_bytes, encoding, url_or_request.headers)
-                    return parse(self, content, video_id, transform_source, fatal)
+                    return parse(self, content, video_id, transform_source=transform_source, fatal=fatal, errnote=errnote)
              kwargs = {
                  'note': note,
                  'errnote': errnote,
@@ -1501,7 +1506,7 @@ def extract_video_object(e):
                  'url': url_or_none(e.get('contentUrl')),
                  'title': unescapeHTML(e.get('name')),
                  'description': unescapeHTML(e.get('description')),
-                'thumbnails': [{'url': url}
+                'thumbnails': [{'url': unescapeHTML(url)}
                                 for url in variadic(traverse_obj(e, 'thumbnailUrl', 'thumbnailURL'))
                                 if url_or_none(url)],
                  'duration': parse_duration(e.get('duration')),
@@ -2820,7 +2825,7 @@ def extract_Initialization(source):
                      base_url = ''
                      for element in (representation, adaptation_set, period, mpd_doc):
                          base_url_e = element.find(_add_ns('BaseURL'))
-                        if base_url_e is not None:
+                        if try_call(lambda: base_url_e.text) is not None:
                              base_url = base_url_e.text + base_url
                              if re.match(r'^https?://', base_url):
                                  break
@@ -3207,7 +3212,7 @@ def _media_formats(src, cur_media_type, type_info=None):
  
          entries = []
          # amp-video and amp-audio are very similar to their HTML5 counterparts
-        # so we wll include them right here (see
+        # so we will include them right here (see
          # https://www.ampproject.org/docs/reference/components/amp-video)
          # For dl8-* tags see https://delight-vr.com/documentation/dl8-video/
          _MEDIA_TAG_NAME_RE = r'(?:(?:amp|dl8(?:-live)?)-)?(video|audio)'