[utils] Add temporary shim for logging

[yt-dlp.git] / yt_dlp / utils / _utils.py
diff --git a/yt_dlp/utils/_utils.py b/yt_dlp/utils/_utils.py

index 56acadd736630c6bc6e8054387295e0c1b69835d..4af955743dd870eb68048fc38de09204eb5ae0c5 100644 (file)
--- a/yt_dlp/utils/_utils.py
+++ b/yt_dlp/utils/_utils.py
@@ -1556,7 +1556,12 @@ def redirect_request(self, req, fp, code, msg, headers, newurl):
  
          new_method = req.get_method()
          new_data = req.data
-        remove_headers = []
+
+        # Technically the Cookie header should be in unredirected_hdrs,
+        # however in practice some may set it in normal headers anyway.
+        # We will remove it here to prevent any leaks.
+        remove_headers = ['Cookie']
+
          # A 303 must either use GET or HEAD for subsequent request
          # https://datatracker.ietf.org/doc/html/rfc7231#section-6.4.4
          if code == 303 and req.get_method() != 'HEAD':
@@ -1573,7 +1578,7 @@ def redirect_request(self, req, fp, code, msg, headers, newurl):
              new_data = None
              remove_headers.extend(['Content-Length', 'Content-Type'])
  
-        new_headers = {k: v for k, v in req.headers.items() if k.lower() not in remove_headers}
+        new_headers = {k: v for k, v in req.headers.items() if k.title() not in remove_headers}
  
          return urllib.request.Request(
              newurl, headers=new_headers, origin_req_host=req.origin_req_host,
@@ -3507,7 +3512,8 @@ def get_compatible_ext(*, vcodecs, acodecs, vexts, aexts, preferences=None):
          },
      }
  
-    sanitize_codec = functools.partial(try_get, getter=lambda x: x[0].split('.')[0].replace('0', ''))
+    sanitize_codec = functools.partial(
+        try_get, getter=lambda x: x[0].split('.')[0].replace('0', '').lower())
      vcodec, acodec = sanitize_codec(vcodecs), sanitize_codec(acodecs)
  
      for ext in preferences or COMPATIBLE_CODECS.keys():
@@ -3757,8 +3763,6 @@ def __init__(self, chapters, ranges, from_info=False):
          self.chapters, self.ranges, self.from_info = chapters, ranges, from_info
  
      def __call__(self, info_dict, ydl):
-        if not any((self.ranges, self.chapters, self.from_info)):
-            yield {}
  
          warning = ('There are no chapters matching the regex' if info_dict.get('chapters')
                     else 'Cannot match chapters since chapter information is unavailable')
@@ -3778,9 +3782,11 @@ def __call__(self, info_dict, ydl):
  
          if self.from_info and (info_dict.get('start_time') or info_dict.get('end_time')):
              yield {
-                'start_time': info_dict.get('start_time'),
-                'end_time': info_dict.get('end_time'),
+                'start_time': info_dict.get('start_time') or 0,
+                'end_time': info_dict.get('end_time') or float('inf'),
              }
+        elif not self.ranges and not self.chapters:
+            yield {}
  
      @staticmethod
      def _handle_negative_timestamp(time, info):
@@ -5112,20 +5118,25 @@ def format_field(obj, field=None, template='%s', ignore=NO_DEFAULT, default='',
  
  
  def clean_podcast_url(url):
-    return re.sub(r'''(?x)
+    url = re.sub(r'''(?x)
          (?:
              (?:
                  chtbl\.com/track|
                  media\.blubrry\.com| # https://create.blubrry.com/resources/podcast-media-download-statistics/getting-started/
-                play\.podtrac\.com
-            )/[^/]+|
+                play\.podtrac\.com|
+                chrt\.fm/track|
+                mgln\.ai/e
+            )(?:/[^/.]+)?|
              (?:dts|www)\.podtrac\.com/(?:pts/)?redirect\.[0-9a-z]{3,4}| # http://analytics.podtrac.com/how-to-measure
              flex\.acast\.com|
              pd(?:
                  cn\.co| # https://podcorn.com/analytics-prefix/
                  st\.fm # https://podsights.com/docs/
-            )/e
+            )/e|
+            [0-9]\.gum\.fm|
+            pscrb\.fm/rss/p
          )/''', '', url)
+    return re.sub(r'^\w+://(\w+://)', r'\1', url)
  
  
  _HEX_TABLE = '0123456789abcdef'
@@ -5737,9 +5748,9 @@ class FormatSorter:
          'source': {'convert': 'float', 'field': 'source_preference', 'default': -1},
  
          'codec': {'type': 'combined', 'field': ('vcodec', 'acodec')},
-        'br': {'type': 'multiple', 'field': ('tbr', 'vbr', 'abr'),
+        'br': {'type': 'multiple', 'field': ('tbr', 'vbr', 'abr'), 'convert': 'float_none',
                 'function': lambda it: next(filter(None, it), None)},
-        'size': {'type': 'multiple', 'field': ('filesize', 'fs_approx'),
+        'size': {'type': 'multiple', 'field': ('filesize', 'fs_approx'), 'convert': 'bytes',
                   'function': lambda it: next(filter(None, it), None)},
          'ext': {'type': 'combined', 'field': ('vext', 'aext')},
          'res': {'type': 'multiple', 'field': ('height', 'width'),
@@ -5983,3 +5994,33 @@ def calculate_preference(self, format):
              format['tbr'] = try_call(lambda: format['vbr'] + format['abr']) or None
  
          return tuple(self._calculate_field_preference(format, field) for field in self._order)
+
+
+# XXX: Temporary
+class _YDLLogger:
+    def __init__(self, ydl=None):
+        self._ydl = ydl
+
+    def debug(self, message):
+        if self._ydl:
+            self._ydl.write_debug(message)
+
+    def info(self, message):
+        if self._ydl:
+            self._ydl.to_screen(message)
+
+    def warning(self, message, *, once=False):
+        if self._ydl:
+            self._ydl.report_warning(message, only_once=once)
+
+    def error(self, message, *, is_error=True):
+        if self._ydl:
+            self._ydl.report_error(message, is_error=is_error)
+
+    def stdout(self, message):
+        if self._ydl:
+            self._ydl.to_stdout(message)
+
+    def stderr(self, message):
+        if self._ydl:
+            self._ydl.to_stderr(message)