[ie/orf:on] Improve extraction (#9677)

[yt-dlp.git] / yt_dlp / extractor / xhamster.py
diff --git a/yt_dlp/extractor/xhamster.py b/yt_dlp/extractor/xhamster.py

index e42eed7d8e28bb3a4878d07c13df0c850b353358..01ac5ddb65ed6c707ef8898dfb45a80b1a60c266 100644 (file)
--- a/yt_dlp/extractor/xhamster.py
+++ b/yt_dlp/extractor/xhamster.py
@@ -21,10 +21,10 @@
  
  
  class XHamsterIE(InfoExtractor):
-    _DOMAINS = r'(?:xhamster\.(?:com|one|desi)|xhms\.pro|xhamster\d+\.com|xhday\.com)'
+    _DOMAINS = r'(?:xhamster\.(?:com|one|desi)|xhms\.pro|xhamster\d+\.com|xhday\.com|xhvid\.com)'
      _VALID_URL = r'''(?x)
                      https?://
-                        (?:.+?\.)?%s/
+                        (?:[^/?#]+\.)?%s/
                          (?:
                              movies/(?P<id>[\dA-Za-z]+)/(?P<display_id>[^/]*)\.html|
                              videos/(?P<display_id_2>[^/]*)-(?P<id_2>[\dA-Za-z]+)
@@ -120,6 +120,9 @@ class XHamsterIE(InfoExtractor):
      }, {
          'url': 'https://xhday.com/videos/strapless-threesome-xhh7yVf',
          'only_matching': True,
+    }, {
+        'url': 'https://xhvid.com/videos/lk-mm-xhc6wn6',
+        'only_matching': True,
      }]
  
      def _real_extract(self, url):
@@ -180,7 +183,7 @@ def get_height(s):
                          'height': get_height(quality),
                          'filesize': format_sizes.get(quality),
                          'http_headers': {
-                            'Referer': urlh.geturl(),
+                            'Referer': urlh.url,
                          },
                      })
              xplayer_sources = try_get(
@@ -234,7 +237,6 @@ def get_height(s):
                                          'Referer': standard_url,
                                      },
                                  })
-            self._sort_formats(formats)
  
              categories_list = video.get('categories')
              if isinstance(categories_list, list):
@@ -311,8 +313,6 @@ def get_height(s):
                  'url': video_url,
              })
  
-        self._sort_formats(formats)
-
          # Only a few videos have an description
          mobj = re.search(r'<span>Description: </span>([^<]+)', webpage)
          description = mobj.group(1) if mobj else None
@@ -372,7 +372,8 @@ def get_height(s):
  
  
  class XHamsterEmbedIE(InfoExtractor):
-    _VALID_URL = r'https?://(?:.+?\.)?%s/xembed\.php\?video=(?P<id>\d+)' % XHamsterIE._DOMAINS
+    _VALID_URL = r'https?://(?:[^/?#]+\.)?%s/xembed\.php\?video=(?P<id>\d+)' % XHamsterIE._DOMAINS
+    _EMBED_REGEX = [r'<iframe[^>]+?src=(["\'])(?P<url>(?:https?:)?//(?:www\.)?xhamster\.com/xembed\.php\?video=\d+)\1']
      _TEST = {
          'url': 'http://xhamster.com/xembed.php?video=3328539',
          'info_dict': {
@@ -387,12 +388,6 @@ class XHamsterEmbedIE(InfoExtractor):
          }
      }
  
-    @staticmethod
-    def _extract_urls(webpage):
-        return [url for _, url in re.findall(
-            r'<iframe[^>]+?src=(["\'])(?P<url>(?:https?:)?//(?:www\.)?xhamster\.com/xembed\.php\?video=\d+)\1',
-            webpage)]
-
      def _real_extract(self, url):
          video_id = self._match_id(url)
  
@@ -412,7 +407,7 @@ def _real_extract(self, url):
  
  
  class XHamsterUserIE(InfoExtractor):
-    _VALID_URL = r'https?://(?:.+?\.)?%s/users/(?P<id>[^/?#&]+)' % XHamsterIE._DOMAINS
+    _VALID_URL = rf'https?://(?:[^/?#]+\.)?{XHamsterIE._DOMAINS}/(?:(?P<user>users)|creators)/(?P<id>[^/?#&]+)'
      _TESTS = [{
          # Paginated user profile
          'url': 'https://xhamster.com/users/netvideogirls/videos',
@@ -427,13 +422,23 @@ class XHamsterUserIE(InfoExtractor):
              'id': 'firatkaan',
          },
          'playlist_mincount': 1,
+    }, {
+        'url': 'https://xhamster.com/creators/squirt-orgasm-69',
+        'info_dict': {
+            'id': 'squirt-orgasm-69',
+        },
+        'playlist_mincount': 150,
      }, {
          'url': 'https://xhday.com/users/mobhunter',
          'only_matching': True,
+    }, {
+        'url': 'https://xhvid.com/users/pelushe21',
+        'only_matching': True,
      }]
  
-    def _entries(self, user_id):
-        next_page_url = 'https://xhamster.com/users/%s/videos/1' % user_id
+    def _entries(self, user_id, is_user):
+        prefix, suffix = ('users', 'videos') if is_user else ('creators', 'exclusive')
+        next_page_url = f'https://xhamster.com/{prefix}/{user_id}/{suffix}/1'
          for pagenum in itertools.count(1):
              page = self._download_webpage(
                  next_page_url, user_id, 'Downloading page %s' % pagenum)
@@ -456,5 +461,5 @@ def _entries(self, user_id):
                  break
  
      def _real_extract(self, url):
-        user_id = self._match_id(url)
-        return self.playlist_result(self._entries(user_id), user_id)
+        user, user_id = self._match_valid_url(url).group('user', 'id')
+        return self.playlist_result(self._entries(user_id, bool(user)), user_id)