[yt-dlp.git] / youtube_dl / extractor / tube8.py

from __future__ import unicode_literals

from ..utils import (
    int_or_none,
    str_to_int,
)
from .keezmovies import KeezMoviesIE


class Tube8IE(KeezMoviesIE):
    _VALID_URL = r'https?://(?:www\.)?tube8\.com/(?:[^/]+/)+(?P<display_id>[^/]+)/(?P<id>\d+)'
    _TESTS = [{
        'url': 'http://www.tube8.com/teen/kasia-music-video/229795/',
        'md5': '65e20c48e6abff62ed0c3965fff13a39',
        'info_dict': {
            'id': '229795',
            'display_id': 'kasia-music-video',
            'ext': 'mp4',
            'description': 'hot teen Kasia grinding',
            'uploader': 'unknown',
            'title': 'Kasia music video',
            'age_limit': 18,
            'duration': 230,
        }
    }, {
        'url': 'http://www.tube8.com/shemale/teen/blonde-cd-gets-kidnapped-by-two-blacks-and-punished-for-being-a-slutty-girl/19569151/',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        webpage, info = self._extract_info(url)

        if not info['title']:
            info['title'] = self._html_search_regex(
                r'videoTitle\s*=\s*"([^"]+)', webpage, 'title')

        description = self._html_search_regex(
            r'>Description:</strong>\s*(.+?)\s*<', webpage, 'description', fatal=False)
        uploader = self._html_search_regex(
            r'<span class="username">\s*(.+?)\s*<',
            webpage, 'uploader', fatal=False)

        like_count = int_or_none(self._search_regex(
            r'rupVar\s*=\s*"(\d+)"', webpage, 'like count', fatal=False))
        dislike_count = int_or_none(self._search_regex(
            r'rdownVar\s*=\s*"(\d+)"', webpage, 'dislike count', fatal=False))
        view_count = str_to_int(self._search_regex(
            r'<strong>Views: </strong>([\d,\.]+)\s*</li>',
            webpage, 'view count', fatal=False))
        comment_count = str_to_int(self._search_regex(
            r'<span id="allCommentsCount">(\d+)</span>',
            webpage, 'comment count', fatal=False))

        info.update({
            'description': description,
            'uploader': uploader,
            'view_count': view_count,
            'like_count': like_count,
            'dislike_count': dislike_count,
            'comment_count': comment_count,
        })

        return info
Commit	Line	Data
2fb3deec S	1	from __future__ import unicode_literals
2fb3deec S	2
1cc79574	3	from ..utils import (
2fb3deec S	4	int_or_none,
2fb3deec S	5	str_to_int,
1d45a23b	6	)
8804f10e	7	from .keezmovies import KeezMoviesIE
2fb3deec	8
1d45a23b	9
8804f10e	10	class Tube8IE(KeezMoviesIE):
58e7071a	11	_VALID_URL = r'https?://(?:www\.)?tube8\.com/(?:[^/]+/)+(?P<display_id>[^/]+)/(?P<id>\d+)'
7dde358a S	12	_TESTS = [{
	13	'url': 'http://www.tube8.com/teen/kasia-music-video/229795/',
	14	'md5': '65e20c48e6abff62ed0c3965fff13a39',
	15	'info_dict': {
	16	'id': '229795',
	17	'display_id': 'kasia-music-video',
	18	'ext': 'mp4',
	19	'description': 'hot teen Kasia grinding',
	20	'uploader': 'unknown',
	21	'title': 'Kasia music video',
	22	'age_limit': 18,
	23	'duration': 230,
	24	}
a616f654	25	}, {
7dde358a S	26	'url': 'http://www.tube8.com/shemale/teen/blonde-cd-gets-kidnapped-by-two-blacks-and-punished-for-being-a-slutty-girl/19569151/',
	27	'only_matching': True,
	28	}]
1d45a23b	29
1d45a23b	30	def _real_extract(self, url):
8804f10e	31	webpage, info = self._extract_info(url)
2fb3deec	32
8804f10e S	33	if not info['title']:
	34	info['title'] = self._html_search_regex(
	35	r'videoTitle\s=\s"([^"]+)', webpage, 'title')
2fb3deec	36
2fb3deec	37	description = self._html_search_regex(
6ebdfe43	38	r'>Description:</strong>\s(.+?)\s<', webpage, 'description', fatal=False)
2fb3deec	39	uploader = self._html_search_regex(
6ebdfe43	40	r'<span class="username">\s(.+?)\s<',
2fb3deec S	41	webpage, 'uploader', fatal=False)
2fb3deec S	42
7dde358a	43	like_count = int_or_none(self._search_regex(
6ebdfe43	44	r'rupVar\s=\s"(\d+)"', webpage, 'like count', fatal=False))
7dde358a	45	dislike_count = int_or_none(self._search_regex(
6ebdfe43	46	r'rdownVar\s=\s"(\d+)"', webpage, 'dislike count', fatal=False))
7dde358a S	47	view_count = str_to_int(self._search_regex(
	48	r'<strong>Views: </strong>([\d,\.]+)\s*</li>',
	49	webpage, 'view count', fatal=False))
	50	comment_count = str_to_int(self._search_regex(
	51	r'<span id="allCommentsCount">(\d+)</span>',
	52	webpage, 'comment count', fatal=False))
1d45a23b	53
8804f10e	54	info.update({
2fb3deec	55	'description': description,
2fb3deec	56	'uploader': uploader,
2fb3deec S	57	'view_count': view_count,
	58	'like_count': like_count,
	59	'dislike_count': dislike_count,
	60	'comment_count': comment_count,
8804f10e S	61	})
	62
	63	return info