[extractor/common] Recognize `src` attribute from HTML5 media elements (#3899)

author Lesmiscore <redacted>

Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)

committer GitHub <redacted>

Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)
author Lesmiscore <redacted>
Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)
committer GitHub <redacted>
Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)
diff --git a/test/test_InfoExtractor.py b/test/test_InfoExtractor.py

index 257ea7dd3561d2e04955db12c96c96e97f781537..928246668bc70ef87384157635d390af9fd296a6 100644 (file)
--- a/test/test_InfoExtractor.py
+++ b/test/test_InfoExtractor.py
@@ -502,6 +502,24 @@ def test_parse_html5_media_entries(self):
                  }],
              })
  
+        # from https://0000.studio/
+        # with type attribute but without extension in URL
+        expect_dict(
+            self,
+            self.ie._parse_html5_media_entries(
+                'https://0000.studio',
+                r'''
+                <video src="https://d1ggyt9m8pwf3g.cloudfront.net/protected/ap-northeast-1:1864af40-28d5-492b-b739-b32314b1a527/archive/clip/838db6a7-8973-4cd6-840d-8517e4093c92"
+                    controls="controls" type="video/mp4" preload="metadata" autoplay="autoplay" playsinline class="object-contain">
+                </video>
+                ''', None)[0],
+            {
+                'formats': [{
+                    'url': 'https://d1ggyt9m8pwf3g.cloudfront.net/protected/ap-northeast-1:1864af40-28d5-492b-b739-b32314b1a527/archive/clip/838db6a7-8973-4cd6-840d-8517e4093c92',
+                    'ext': 'mp4',
+                }],
+            })
+
      def test_extract_jwplayer_data_realworld(self):
          # from http://www.suffolk.edu/sjc/
          expect_dict(
diff --git a/yt_dlp/extractor/common.py b/yt_dlp/extractor/common.py

index 5767662ed5ee065ed5e37a6fc33ebefc7bf986dd..a589fb7fa5065733b871e13bbcc024610948bfcf 100644 (file)
--- a/yt_dlp/extractor/common.py
+++ b/yt_dlp/extractor/common.py
@@ -3197,7 +3197,8 @@ def parse_content_type(content_type):
                  return f
              return {}
  
-        def _media_formats(src, cur_media_type, type_info={}):
+        def _media_formats(src, cur_media_type, type_info=None):
+            type_info = type_info or {}
              full_url = absolute_url(src)
              ext = type_info.get('ext') or determine_ext(full_url)
              if ext == 'm3u8':
@@ -3215,6 +3216,7 @@ def _media_formats(src, cur_media_type, type_info={}):
                  formats = [{
                      'url': full_url,
                      'vcodec': 'none' if cur_media_type == 'audio' else None,
+                    'ext': ext,
                  }]
              return is_plain_url, formats
  
@@ -3241,7 +3243,8 @@ def _media_formats(src, cur_media_type, type_info={}):
              media_attributes = extract_attributes(media_tag)
              src = strip_or_none(media_attributes.get('src'))
              if src:
-                _, formats = _media_formats(src, media_type)
+                f = parse_content_type(media_attributes.get('type'))
+                _, formats = _media_formats(src, media_type, f)
                  media_info['formats'].extend(formats)
              media_info['thumbnail'] = absolute_url(media_attributes.get('poster'))
              if media_content:
author	Lesmiscore <redacted>
	Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)
committer	GitHub <redacted>
	Sun, 29 May 2022 13:48:04 +0000 (22:48 +0900)
test/test_InfoExtractor.py		patch \| blob \| blame \| history
yt_dlp/extractor/common.py		patch \| blob \| blame \| history