[ie/crunchyroll] Fix stream extraction (#10005)

[yt-dlp.git] / yt_dlp / extractor / mediasite.py
diff --git a/yt_dlp/extractor/mediasite.py b/yt_dlp/extractor/mediasite.py

index 30464bad0e745880ac2176fdc38704eb20308c70..7ea78ab69184ae2f6246f34f8def4dee7e782953 100644 (file)
--- a/yt_dlp/extractor/mediasite.py
+++ b/yt_dlp/extractor/mediasite.py
@@ -13,7 +13,7 @@
      str_or_none,
      try_call,
      try_get,
-    unescapeHTML,
+    smuggle_url,
      unsmuggle_url,
      url_or_none,
      urljoin,
@@ -25,6 +25,7 @@
  
  class MediasiteIE(InfoExtractor):
      _VALID_URL = r'(?xi)https?://[^/]+/Mediasite/(?:Play|Showcase/[^/#?]+/Presentation)/(?P<id>%s)(?P<query>\?[^#]+|)' % _ID_RE
+    _EMBED_REGEX = [r'(?xi)<iframe\b[^>]+\bsrc=(["\'])(?P<url>(?:(?:https?:)?//[^/]+)?/Mediasite/Play/%s(?:\?.*?)?)\1' % _ID_RE]
      _TESTS = [
          {
              'url': 'https://hitsmediaweb.h-its.org/mediasite/Play/2db6c271681e4f199af3c60d1f82869b1d',
@@ -112,13 +113,10 @@ class MediasiteIE(InfoExtractor):
          5: 'video3',
      }
  
-    @staticmethod
-    def _extract_urls(webpage):
-        return [
-            unescapeHTML(mobj.group('url'))
-            for mobj in re.finditer(
-                r'(?xi)<iframe\b[^>]+\bsrc=(["\'])(?P<url>(?:(?:https?:)?//[^/]+)?/Mediasite/Play/%s(?:\?.*?)?)\1' % _ID_RE,
-                webpage)]
+    @classmethod
+    def _extract_embed_urls(cls, url, webpage):
+        for embed_url in super()._extract_embed_urls(url, webpage):
+            yield smuggle_url(embed_url, {'UrlReferrer': url})
  
      def __extract_slides(self, *, stream_id, snum, Stream, duration, images):
          slide_base_url = Stream['SlideBaseUrl']
@@ -173,7 +171,7 @@ def _real_extract(self, url):
          query = mobj.group('query')
  
          webpage, urlh = self._download_webpage_handle(url, resource_id)  # XXX: add UrlReferrer?
-        redirect_url = urlh.geturl()
+        redirect_url = urlh.url
  
          # XXX: might have also extracted UrlReferrer and QueryString from the html
          service_path = compat_urlparse.urljoin(redirect_url, self._html_search_regex(
@@ -266,8 +264,6 @@ def _real_extract(self, url):
                  })
              formats.extend(stream_formats)
  
-        self._sort_formats(formats)
-
          # XXX: Presentation['Presenters']
          # XXX: Presentation['Transcript']