[ie/CBCPlayerPlaylist] Add extractor (#7870)

author trainman261 <redacted>

Sun, 20 Aug 2023 16:35:57 +0000 (18:35 +0200)

committer GitHub <redacted>

Sun, 20 Aug 2023 16:35:57 +0000 (16:35 +0000)
author trainman261 <redacted>
Sun, 20 Aug 2023 16:35:57 +0000 (18:35 +0200)
committer GitHub <redacted>
Sun, 20 Aug 2023 16:35:57 +0000 (16:35 +0000)
diff --git a/yt_dlp/extractor/_extractors.py b/yt_dlp/extractor/_extractors.py

index d4d3b6074c60eb5779ba7c04e7e6711295454a45..194ad8356f1cb5820c7e65937f847c47254a61fa 100644 (file)
--- a/yt_dlp/extractor/_extractors.py
+++ b/yt_dlp/extractor/_extractors.py
@@ -303,6 +303,7 @@
  from .cbc import (
      CBCIE,
      CBCPlayerIE,
+    CBCPlayerPlaylistIE,
      CBCGemIE,
      CBCGemPlaylistIE,
      CBCGemLiveIE,
diff --git a/yt_dlp/extractor/cbc.py b/yt_dlp/extractor/cbc.py

index 9413281a57b2a5a3845cd2dca11d493f4069f643..b3c5471f7b7eecfad17d26924b2375b8f189f7ac 100644 (file)
--- a/yt_dlp/extractor/cbc.py
+++ b/yt_dlp/extractor/cbc.py
@@ -2,6 +2,7 @@
  import json
  import base64
  import time
+import urllib.parse
  
  from .common import InfoExtractor
  from ..compat import (
@@ -228,6 +229,38 @@ def _real_extract(self, url):
          }
  
  
+class CBCPlayerPlaylistIE(InfoExtractor):
+    IE_NAME = 'cbc.ca:player:playlist'
+    _VALID_URL = r'https?://(?:www\.)?cbc\.ca/(?:player/)(?!play/)(?P<id>[^?#]+)'
+    _TESTS = [{
+        'url': 'https://www.cbc.ca/player/news/TV%20Shows/The%20National/Latest%20Broadcast',
+        'playlist_mincount': 25,
+        'info_dict': {
+            'id': 'news/tv shows/the national/latest broadcast',
+        }
+    }, {
+        'url': 'https://www.cbc.ca/player/news/Canada/North',
+        'playlist_mincount': 25,
+        'info_dict': {
+            'id': 'news/canada/north',
+        }
+    }]
+
+    def _real_extract(self, url):
+        playlist_id = urllib.parse.unquote(self._match_id(url)).lower()
+        webpage = self._download_webpage(url, playlist_id)
+        json_content = self._search_json(
+            r'window\.__INITIAL_STATE__\s*=', webpage, 'initial state', playlist_id)
+
+        def entries():
+            for video_id in traverse_obj(json_content, (
+                'video', 'clipsByCategory', lambda k, _: k.lower() == playlist_id, 'items', ..., 'id'
+            )):
+                yield self.url_result(f'https://www.cbc.ca/player/play/{video_id}', CBCPlayerIE)
+
+        return self.playlist_result(entries(), playlist_id)
+
+
  class CBCGemIE(InfoExtractor):
      IE_NAME = 'gem.cbc.ca'
      _VALID_URL = r'https?://gem\.cbc\.ca/(?:media/)?(?P<id>[0-9a-z-]+/s[0-9]+[a-z][0-9]+)'
author	trainman261 <redacted>
	Sun, 20 Aug 2023 16:35:57 +0000 (18:35 +0200)
committer	GitHub <redacted>
	Sun, 20 Aug 2023 16:35:57 +0000 (16:35 +0000)
yt_dlp/extractor/_extractors.py		patch \| blob \| blame \| history
yt_dlp/extractor/cbc.py		patch \| blob \| blame \| history