[yt-dlp.git] / yt_dlp / extractor / porn91.py

# coding: utf-8
from __future__ import unicode_literals

from .common import InfoExtractor
from ..utils import (
    parse_duration,
    int_or_none,
    ExtractorError,
)


class Porn91IE(InfoExtractor):
    IE_NAME = '91porn'
    _VALID_URL = r'(?:https?://)(?:www\.|)91porn\.com/.+?\?viewkey=(?P<id>[\w\d]+)'

    _TEST = {
        'url': 'http://91porn.com/view_video.php?viewkey=7e42283b4f5ab36da134',
        'md5': '7fcdb5349354f40d41689bd0fa8db05a',
        'info_dict': {
            'id': '7e42283b4f5ab36da134',
            'title': '18岁大一漂亮学妹，水嫩性感，再爽一次！',
            'ext': 'mp4',
            'duration': 431,
            'age_limit': 18,
        }
    }

    def _real_extract(self, url):
        video_id = self._match_id(url)
        self._set_cookie('91porn.com', 'language', 'cn_CN')

        webpage = self._download_webpage(
            'http://91porn.com/view_video.php?viewkey=%s' % video_id, video_id)

        if '作为游客，你每天只可观看10个视频' in webpage:
            raise ExtractorError('91 Porn says: Daily limit 10 videos exceeded', expected=True)

        title = self._search_regex(
            r'<div id="viewvideo-title">([^<]+)</div>', webpage, 'title')
        title = title.replace('\n', '')

        video_link_url = self._search_regex(
            r'<textarea[^>]+id=["\']fm-video_link[^>]+>([^<]+)</textarea>',
            webpage, 'video link')
        videopage = self._download_webpage(video_link_url, video_id)

        info_dict = self._parse_html5_media_entries(url, videopage, video_id)[0]

        duration = parse_duration(self._search_regex(
            r'时长:\s*</span>\s*(\d+:\d+)', webpage, 'duration', fatal=False))

        comment_count = int_or_none(self._search_regex(
            r'留言:\s*</span>\s*(\d+)', webpage, 'comment count', fatal=False))

        info_dict.update({
            'id': video_id,
            'title': title,
            'duration': duration,
            'comment_count': comment_count,
            'age_limit': self._rta_search(webpage),
        })

        return info_dict
Commit	Line	Data
dcdb292f	1	# coding: utf-8
d90b3854 P	2	from __future__ import unicode_literals
d90b3854 P	3
d90b3854	4	from .common import InfoExtractor
a80601f8 YCH	5	from ..utils import (
	6	parse_duration,
	7	int_or_none,
d05a1dbe	8	ExtractorError,
a80601f8	9	)
d90b3854 P	10
	11
	12	class Porn91IE(InfoExtractor):
	13	IE_NAME = '91porn'
	14	_VALID_URL = r'(?:https?://)(?:www\.\|)91porn\.com/.+?\?viewkey=(?P<id>[\w\d]+)'
	15
	16	_TEST = {
9ff811c5	17	'url': 'http://91porn.com/view_video.php?viewkey=7e42283b4f5ab36da134',
3110bb93	18	'md5': '7fcdb5349354f40d41689bd0fa8db05a',
9ff811c5 YCH	19	'info_dict': {
	20	'id': '7e42283b4f5ab36da134',
	21	'title': '18岁大一漂亮学妹，水嫩性感，再爽一次！',
a80601f8 YCH	22	'ext': 'mp4',
a80601f8 YCH	23	'duration': 431,
b61b7787	24	'age_limit': 18,
9ff811c5	25	}
d90b3854 P	26	}
	27
	28	def _real_extract(self, url):
1c222387	29	video_id = self._match_id(url)
d90b3854	30	self._set_cookie('91porn.com', 'language', 'cn_CN')
298c04b4 S	31
	32	webpage = self._download_webpage(
	33	'http://91porn.com/view_video.php?viewkey=%s' % video_id, video_id)
d05a1dbe YCH	34
	35	if '作为游客，你每天只可观看10个视频' in webpage:
	36	raise ExtractorError('91 Porn says: Daily limit 10 videos exceeded', expected=True)
	37
703d78bb	38	title = self._search_regex(
1c222387	39	r'<div id="viewvideo-title">([^<]+)</div>', webpage, 'title')
703d78bb	40	title = title.replace('\n', '')
d90b3854	41
2fe074a9	42	video_link_url = self._search_regex(
	43	r'<textarea[^>]+id=["\']fm-video_link[^>]+>([^<]+)</textarea>',
	44	webpage, 'video link')
	45	videopage = self._download_webpage(video_link_url, video_id)
	46
	47	info_dict = self._parse_html5_media_entries(url, videopage, video_id)[0]
d90b3854	48
a80601f8 YCH	49	duration = parse_duration(self._search_regex(
	50	r'时长:\s</span>\s(\d+:\d+)', webpage, 'duration', fatal=False))
	51
	52	comment_count = int_or_none(self._search_regex(
	53	r'留言:\s</span>\s(\d+)', webpage, 'comment count', fatal=False))
	54
3110bb93	55	info_dict.update({
d90b3854 P	56	'id': video_id,
d90b3854 P	57	'title': title,
a80601f8 YCH	58	'duration': duration,
a80601f8 YCH	59	'comment_count': comment_count,
b61b7787	60	'age_limit': self._rta_search(webpage),
3110bb93 YCH	61	})
	62
	63	return info_dict