[yt-dlp.git] / youtube_dl / extractor / joj.py

# coding: utf-8\r
from __future__ import unicode_literals\r
\r
import re\r
\r
from .common import InfoExtractor\r
from ..compat import compat_str\r
from ..utils import (\r
    int_or_none,\r
    js_to_json,\r
    try_get,\r
)\r
\r
\r
class JojIE(InfoExtractor):\r
    _VALID_URL = r'''(?x)\r
                    (?:\r
                        joj:|\r
                        https?://media\.joj\.sk/embed/\r
                    )\r
                    (?P<id>[\da-f]{8}-[\da-f]{4}-[\da-f]{4}-[\da-f]{4}-[\da-f]{12})\r
                '''\r
    _TESTS = [{\r
        'url': 'https://media.joj.sk/embed/a388ec4c-6019-4a4a-9312-b1bee194e932',\r
        'info_dict': {\r
            'id': 'a388ec4c-6019-4a4a-9312-b1bee194e932',\r
            'ext': 'mp4',\r
            'title': 'NOVÉ BÝVANIE',\r
            'thumbnail': r're:^https?://.*\.jpg$',\r
            'duration': 3118,\r
        }\r
    }, {\r
        'url': 'joj:a388ec4c-6019-4a4a-9312-b1bee194e932',\r
        'only_matching': True,\r
    }]\r
\r
    @staticmethod\r
    def _extract_urls(webpage):\r
        return re.findall(\r
            r'<iframe\b[^>]+\bsrc=["\'](?P<url>(?:https?:)?//media\.joj\.sk/embed/[\da-f]{8}-[\da-f]{4}-[\da-f]{4}-[\da-f]{4}-[\da-f]{12})',\r
            webpage)\r
\r
    def _real_extract(self, url):\r
        video_id = self._match_id(url)\r
\r
        webpage = self._download_webpage(\r
            'https://media.joj.sk/embed/%s' % video_id, video_id)\r
\r
        title = self._search_regex(\r
            (r'videoTitle\s*:\s*(["\'])(?P<title>(?:(?!\1).)+)\1',\r
             r'<title>(?P<title>[^<]+)'), webpage, 'title',\r
            default=None, group='title') or self._og_search_title(webpage)\r
\r
        bitrates = self._parse_json(\r
            self._search_regex(\r
                r'(?s)bitrates\s*=\s*({.+?});', webpage, 'bitrates',\r
                default='{}'),\r
            video_id, transform_source=js_to_json, fatal=False)\r
\r
        formats = []\r
        for format_url in try_get(bitrates, lambda x: x['mp4'], list) or []:\r
            if isinstance(format_url, compat_str):\r
                height = self._search_regex(\r
                    r'(\d+)[pP]\.', format_url, 'height', default=None)\r
                formats.append({\r
                    'url': format_url,\r
                    'format_id': '%sp' % height if height else None,\r
                    'height': int(height),\r
                })\r
        if not formats:\r
            playlist = self._download_xml(\r
                'https://media.joj.sk/services/Video.php?clip=%s' % video_id,\r
                video_id)\r
            for file_el in playlist.findall('./files/file'):\r
                path = file_el.get('path')\r
                if not path:\r
                    continue\r
                format_id = file_el.get('id') or file_el.get('label')\r
                formats.append({\r
                    'url': 'http://n16.joj.sk/storage/%s' % path.replace(\r
                        'dat/', '', 1),\r
                    'format_id': format_id,\r
                    'height': int_or_none(self._search_regex(\r
                        r'(\d+)[pP]', format_id or path, 'height',\r
                        default=None)),\r
                })\r
        self._sort_formats(formats)\r
\r
        thumbnail = self._og_search_thumbnail(webpage)\r
\r
        duration = int_or_none(self._search_regex(\r
            r'videoDuration\s*:\s*(\d+)', webpage, 'duration', fatal=False))\r
\r
        return {\r
            'id': video_id,\r
            'title': title,\r
            'thumbnail': thumbnail,\r
            'duration': duration,\r
            'formats': formats,\r
        }\r
Commit	Line	Data
256a746d	1	# coding: utf-8\r
	2	from __future__ import unicode_literals\r
	3	\r
256a746d	4	import re\r
256a746d	5	\r
73cf76a9 S	6	from .common import InfoExtractor\r
	7	from ..compat import compat_str\r
	8	from ..utils import (\r
	9	int_or_none,\r
	10	js_to_json,\r
	11	try_get,\r
	12	)\r
	13	\r
256a746d	14	\r
256a746d	15	class JojIE(InfoExtractor):\r
73cf76a9 S	16	_VALID_URL = r'''(?x)\r
	17	(?:\r
	18	joj:\|\r
	19	https?://media\.joj\.sk/embed/\r
	20	)\r
	21	(?P<id>[\da-f]{8}-[\da-f]{4}-[\da-f]{4}-[\da-f]{4}-[\da-f]{12})\r
	22	'''\r
256a746d	23	_TESTS = [{\r
73cf76a9	24	'url': 'https://media.joj.sk/embed/a388ec4c-6019-4a4a-9312-b1bee194e932',\r
256a746d	25	'info_dict': {\r
	26	'id': 'a388ec4c-6019-4a4a-9312-b1bee194e932',\r
	27	'ext': 'mp4',\r
73cf76a9 S	28	'title': 'NOVÉ BÝVANIE',\r
	29	'thumbnail': r're:^https?://.*\.jpg$',\r
	30	'duration': 3118,\r
256a746d	31	}\r
256a746d	32	}, {\r
73cf76a9 S	33	'url': 'joj:a388ec4c-6019-4a4a-9312-b1bee194e932',\r
73cf76a9 S	34	'only_matching': True,\r
256a746d	35	}]\r
256a746d	36	\r
73cf76a9 S	37	@staticmethod\r
	38	def _extract_urls(webpage):\r
	39	return re.findall(\r
	40	r'<iframe\b[^>]+\bsrc=["\'](?P<url>(?:https?:)?//media\.joj\.sk/embed/[\da-f]{8}-[\da-f]{4}-[\da-f]{4}-[\da-f]{4}-[\da-f]{12})',\r
	41	webpage)\r
256a746d	42	\r
256a746d	43	def _real_extract(self, url):\r
73cf76a9 S	44	video_id = self._match_id(url)\r
	45	\r
	46	webpage = self._download_webpage(\r
	47	'https://media.joj.sk/embed/%s' % video_id, video_id)\r
	48	\r
	49	title = self._search_regex(\r
	50	(r'videoTitle\s:\s(["\'])(?P<title>(?:(?!\1).)+)\1',\r
	51	r'<title>(?P<title>[^<]+)'), webpage, 'title',\r
	52	default=None, group='title') or self._og_search_title(webpage)\r
	53	\r
	54	bitrates = self._parse_json(\r
	55	self._search_regex(\r
	56	r'(?s)bitrates\s=\s({.+?});', webpage, 'bitrates',\r
	57	default='{}'),\r
	58	video_id, transform_source=js_to_json, fatal=False)\r
	59	\r
256a746d	60	formats = []\r
73cf76a9 S	61	for format_url in try_get(bitrates, lambda x: x['mp4'], list) or []:\r
	62	if isinstance(format_url, compat_str):\r
	63	height = self._search_regex(\r
	64	r'(\d+)[pP]\.', format_url, 'height', default=None)\r
	65	formats.append({\r
	66	'url': format_url,\r
	67	'format_id': '%sp' % height if height else None,\r
	68	'height': int(height),\r
	69	})\r
	70	if not formats:\r
	71	playlist = self._download_xml(\r
	72	'https://media.joj.sk/services/Video.php?clip=%s' % video_id,\r
	73	video_id)\r
	74	for file_el in playlist.findall('./files/file'):\r
	75	path = file_el.get('path')\r
	76	if not path:\r
	77	continue\r
	78	format_id = file_el.get('id') or file_el.get('label')\r
	79	formats.append({\r
	80	'url': 'http://n16.joj.sk/storage/%s' % path.replace(\r
	81	'dat/', '', 1),\r
	82	'format_id': format_id,\r
	83	'height': int_or_none(self._search_regex(\r
	84	r'(\d+)[pP]', format_id or path, 'height',\r
	85	default=None)),\r
	86	})\r
256a746d	87	self._sort_formats(formats)\r
256a746d	88	\r
73cf76a9 S	89	thumbnail = self._og_search_thumbnail(webpage)\r
	90	\r
	91	duration = int_or_none(self._search_regex(\r
	92	r'videoDuration\s:\s(\d+)', webpage, 'duration', fatal=False))\r
	93	\r
256a746d	94	return {\r
256a746d	95	'id': video_id,\r
73cf76a9 S	96	'title': title,\r
	97	'thumbnail': thumbnail,\r
	98	'duration': duration,\r
256a746d	99	'formats': formats,\r
256a746d	100	}\r