[yt-dlp.git] / youtube_dl / extractor / ard.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..utils import (
    determine_ext,
    ExtractorError,
    qualities,
    compat_urllib_parse_urlparse,
    compat_urllib_parse,
    int_or_none,
    parse_duration,
    unified_strdate,
)


class ARDMediathekIE(InfoExtractor):
    IE_NAME = 'ARD:mediathek'
    _VALID_URL = r'^https?://(?:(?:www\.)?ardmediathek\.de|mediathek\.daserste\.de)/(?:.*/)(?P<video_id>[0-9]+|[^0-9][^/\?]+)[^/\?]*(?:\?.*)?'

    _TESTS = [{
        'url': 'http://mediathek.daserste.de/sendungen_a-z/328454_anne-will/22429276_vertrauen-ist-gut-spionieren-ist-besser-geht',
        'file': '22429276.mp4',
        'md5': '469751912f1de0816a9fc9df8336476c',
        'info_dict': {
            'title': 'Vertrauen ist gut, Spionieren ist besser - Geht so deutsch-amerikanische Freundschaft?',
            'description': 'Das Erste Mediathek [ARD]: Vertrauen ist gut, Spionieren ist besser - Geht so deutsch-amerikanische Freundschaft?, Anne Will, Über die Spionage-Affäre diskutieren Clemens Binninger, Katrin Göring-Eckardt, Georg Mascolo, Andrew B. Denison und Constanze Kurz.. Das Video zur Sendung Anne Will am Mittwoch, 16.07.2014',
        },
        'skip': 'Blocked outside of Germany',
    }, {
        'url': 'http://www.ardmediathek.de/tv/Tatort/Das-Wunder-von-Wolbeck-Video-tgl-ab-20/Das-Erste/Video?documentId=22490580&bcastId=602916',
        'info_dict': {
            'id': '22490580',
            'ext': 'mp4',
            'title': 'Das Wunder von Wolbeck (Video tgl. ab 20 Uhr)',
            'description': 'Auf einem restaurierten Hof bei Wolbeck wird der Heilpraktiker Raffael Lembeck eines morgens von seiner Frau Stella tot aufgefunden. Das Opfer war offensichtlich in seiner Praxis zu Fall gekommen und ist dann verblutet, erklärt Prof. Boerne am Tatort.',
        },
        'skip': 'Blocked outside of Germany',
    }]

    def _real_extract(self, url):
        # determine video id from url
        m = re.match(self._VALID_URL, url)

        numid = re.search(r'documentId=([0-9]+)', url)
        if numid:
            video_id = numid.group(1)
        else:
            video_id = m.group('video_id')

        urlp = compat_urllib_parse_urlparse(url)
        url = urlp._replace(path=compat_urllib_parse.quote(urlp.path.encode('utf-8'))).geturl()

        webpage = self._download_webpage(url, video_id)

        if '>Der gewünschte Beitrag ist nicht mehr verfügbar.<' in webpage:
            raise ExtractorError('Video %s is no longer available' % video_id, expected=True)

        title = self._html_search_regex(
            [r'<h1(?:\s+class="boxTopHeadline")?>(.*?)</h1>',
             r'<meta name="dcterms.title" content="(.*?)"/>',
             r'<h4 class="headline">(.*?)</h4>'],
            webpage, 'title')
        description = self._html_search_meta(
            'dcterms.abstract', webpage, 'description', default=None)
        if description is None:
            description = self._html_search_meta(
                'description', webpage, 'meta description')

        # Thumbnail is sometimes not present.
        # It is in the mobile version, but that seems to use a different URL
        # structure altogether.
        thumbnail = self._og_search_thumbnail(webpage, default=None)

        media_streams = re.findall(r'''(?x)
            mediaCollection\.addMediaStream\([0-9]+,\s*[0-9]+,\s*"[^"]*",\s*
            "([^"]+)"''', webpage)

        if media_streams:
            QUALITIES = qualities(['lo', 'hi', 'hq'])
            formats = []
            for furl in set(media_streams):
                if furl.endswith('.f4m'):
                    fid = 'f4m'
                else:
                    fid_m = re.match(r'.*\.([^.]+)\.[^.]+$', furl)
                    fid = fid_m.group(1) if fid_m else None
                formats.append({
                    'quality': QUALITIES(fid),
                    'format_id': fid,
                    'url': furl,
                })
        else:  # request JSON file
            media_info = self._download_json(
                'http://www.ardmediathek.de/play/media/%s' % video_id, video_id)
            # The second element of the _mediaArray contains the standard http urls
            streams = media_info['_mediaArray'][1]['_mediaStreamArray']
            if not streams:
                if '"fsk"' in webpage:
                    raise ExtractorError('This video is only available after 20:00')

            formats = []
            for s in streams:
                if type(s['_stream']) == list:
                    for index, url in enumerate(s['_stream'][::-1]):
                        quality = s['_quality'] + index
                        formats.append({
                            'quality': quality,
                            'url': url,
                            'format_id': '%s-%s' % (determine_ext(url), quality)
                        })
                    continue

                format = {
                    'quality': s['_quality'],
                    'url': s['_stream'],
                }

                format['format_id'] = '%s-%s' % (
                    determine_ext(format['url']), format['quality'])

                formats.append(format)

        self._sort_formats(formats)

        return {
            'id': video_id,
            'title': title,
            'description': description,
            'formats': formats,
            'thumbnail': thumbnail,
        }


class ARDIE(InfoExtractor):
    _VALID_URL = '(?P<mainurl>https?://(www\.)?daserste\.de/[^?#]+/videos/(?P<display_id>[^/?#]+)-(?P<id>[0-9]+))\.html'
    _TEST = {
        'url': 'http://www.daserste.de/information/reportage-dokumentation/dokus/videos/die-story-im-ersten-mission-unter-falscher-flagge-100.html',
        'md5': 'd216c3a86493f9322545e045ddc3eb35',
        'info_dict': {
            'display_id': 'die-story-im-ersten-mission-unter-falscher-flagge',
            'id': '100',
            'ext': 'mp4',
            'duration': 2600,
            'title': 'Die Story im Ersten: Mission unter falscher Flagge',
            'upload_date': '20140804',
            'thumbnail': 're:^https?://.*\.jpg$',
        }
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        display_id = mobj.group('display_id')

        player_url = mobj.group('mainurl') + '~playerXml.xml'
        doc = self._download_xml(player_url, display_id)
        video_node = doc.find('./video')
        upload_date = unified_strdate(video_node.find('./broadcastDate').text)
        thumbnail = video_node.find('.//teaserImage//variant/url').text

        formats = []
        for a in video_node.findall('.//asset'):
            f = {
                'format_id': a.attrib['type'],
                'width': int_or_none(a.find('./frameWidth').text),
                'height': int_or_none(a.find('./frameHeight').text),
                'vbr': int_or_none(a.find('./bitrateVideo').text),
                'abr': int_or_none(a.find('./bitrateAudio').text),
                'vcodec': a.find('./codecVideo').text,
                'tbr': int_or_none(a.find('./totalBitrate').text),
            }
            if a.find('./serverPrefix').text:
                f['url'] = a.find('./serverPrefix').text
                f['playpath'] = a.find('./fileName').text
            else:
                f['url'] = a.find('./fileName').text
            formats.append(f)
        self._sort_formats(formats)

        return {
            'id': mobj.group('id'),
            'formats': formats,
            'display_id': display_id,
            'title': video_node.find('./title').text,
            'duration': parse_duration(video_node.find('./duration').text),
            'upload_date': upload_date,
            'thumbnail': thumbnail,
        }
Commit	Line	Data
f9b85496 PH	1	# coding: utf-8
	2	from __future__ import unicode_literals
	3
d5822b96 PH	4	import re
	5
	6	from .common import InfoExtractor
	7	from ..utils import (
f9b85496	8	determine_ext,
d5822b96	9	ExtractorError,
29546b34	10	qualities,
5622f29a S	11	compat_urllib_parse_urlparse,
5622f29a S	12	compat_urllib_parse,
6d3d3fc0 PH	13	int_or_none,
	14	parse_duration,
	15	unified_strdate,
d5822b96 PH	16	)
d5822b96 PH	17
f9b85496	18
6d3d3fc0 PH	19	class ARDMediathekIE(InfoExtractor):
6d3d3fc0 PH	20	IE_NAME = 'ARD:mediathek'
29546b34	21	_VALID_URL = r'^https?://(?:(?:www\.)?ardmediathek\.de\|mediathek\.daserste\.de)/(?:./)(?P<video_id>[0-9]+\|[^0-9][^/\?]+)[^/\?](?:\?.*)?'
f9b85496	22
29546b34 PH	23	_TESTS = [{
	24	'url': 'http://mediathek.daserste.de/sendungen_a-z/328454_anne-will/22429276_vertrauen-ist-gut-spionieren-ist-besser-geht',
	25	'file': '22429276.mp4',
	26	'md5': '469751912f1de0816a9fc9df8336476c',
f9b85496	27	'info_dict': {
29546b34 PH	28	'title': 'Vertrauen ist gut, Spionieren ist besser - Geht so deutsch-amerikanische Freundschaft?',
29546b34 PH	29	'description': 'Das Erste Mediathek [ARD]: Vertrauen ist gut, Spionieren ist besser - Geht so deutsch-amerikanische Freundschaft?, Anne Will, Über die Spionage-Affäre diskutieren Clemens Binninger, Katrin Göring-Eckardt, Georg Mascolo, Andrew B. Denison und Constanze Kurz.. Das Video zur Sendung Anne Will am Mittwoch, 16.07.2014',
6f5ac90c	30	},
f9b85496	31	'skip': 'Blocked outside of Germany',
29546b34 PH	32	}, {
	33	'url': 'http://www.ardmediathek.de/tv/Tatort/Das-Wunder-von-Wolbeck-Video-tgl-ab-20/Das-Erste/Video?documentId=22490580&bcastId=602916',
	34	'info_dict': {
	35	'id': '22490580',
	36	'ext': 'mp4',
	37	'title': 'Das Wunder von Wolbeck (Video tgl. ab 20 Uhr)',
	38	'description': 'Auf einem restaurierten Hof bei Wolbeck wird der Heilpraktiker Raffael Lembeck eines morgens von seiner Frau Stella tot aufgefunden. Das Opfer war offensichtlich in seiner Praxis zu Fall gekommen und ist dann verblutet, erklärt Prof. Boerne am Tatort.',
	39	},
	40	'skip': 'Blocked outside of Germany',
	41	}]
d5822b96 PH	42
	43	def _real_extract(self, url):
	44	# determine video id from url
	45	m = re.match(self._VALID_URL, url)
	46
	47	numid = re.search(r'documentId=([0-9]+)', url)
	48	if numid:
	49	video_id = numid.group(1)
	50	else:
	51	video_id = m.group('video_id')
	52
5622f29a S	53	urlp = compat_urllib_parse_urlparse(url)
	54	url = urlp._replace(path=compat_urllib_parse.quote(urlp.path.encode('utf-8'))).geturl()
	55
	56	webpage = self._download_webpage(url, video_id)
f9b85496	57
3a5beb0c S	58	if '>Der gewünschte Beitrag ist nicht mehr verfügbar.<' in webpage:
	59	raise ExtractorError('Video %s is no longer available' % video_id, expected=True)
	60
f9b85496	61	title = self._html_search_regex(
0f97c9a0	62	[r'<h1(?:\s+class="boxTopHeadline")?>(.*?)</h1>',
6a3fa81f	63	r'<meta name="dcterms.title" content="(.*?)"/>',
0f97c9a0 PH	64	r'<h4 class="headline">(.*?)</h4>'],
0f97c9a0 PH	65	webpage, 'title')
f9b85496	66	description = self._html_search_meta(
29546b34 PH	67	'dcterms.abstract', webpage, 'description', default=None)
	68	if description is None:
	69	description = self._html_search_meta(
	70	'description', webpage, 'meta description')
	71
	72	# Thumbnail is sometimes not present.
	73	# It is in the mobile version, but that seems to use a different URL
	74	# structure altogether.
	75	thumbnail = self._og_search_thumbnail(webpage, default=None)
	76
	77	media_streams = re.findall(r'''(?x)
	78	mediaCollection\.addMediaStream\([0-9]+,\s[0-9]+,\s"[^"]",\s
	79	"([^"]+)"''', webpage)
	80
	81	if media_streams:
	82	QUALITIES = qualities(['lo', 'hi', 'hq'])
	83	formats = []
	84	for furl in set(media_streams):
	85	if furl.endswith('.f4m'):
	86	fid = 'f4m'
	87	else:
	88	fid_m = re.match(r'.*\.([^.]+)\.[^.]+$', furl)
	89	fid = fid_m.group(1) if fid_m else None
	90	formats.append({
	91	'quality': QUALITIES(fid),
	92	'format_id': fid,
	93	'url': furl,
	94	})
	95	else: # request JSON file
	96	media_info = self._download_json(
	97	'http://www.ardmediathek.de/play/media/%s' % video_id, video_id)
	98	# The second element of the _mediaArray contains the standard http urls
	99	streams = media_info['_mediaArray'][1]['_mediaStreamArray']
	100	if not streams:
	101	if '"fsk"' in webpage:
	102	raise ExtractorError('This video is only available after 20:00')
	103
	104	formats = []
	105	for s in streams:
	106	if type(s['_stream']) == list:
	107	for index, url in enumerate(s['_stream'][::-1]):
	108	quality = s['_quality'] + index
	109	formats.append({
	110	'quality': quality,
	111	'url': url,
	112	'format_id': '%s-%s' % (determine_ext(url), quality)
e5da4021	113	})
29546b34	114	continue
e5da4021	115
29546b34 PH	116	format = {
	117	'quality': s['_quality'],
	118	'url': s['_stream'],
	119	}
6a3fa81f	120
29546b34 PH	121	format['format_id'] = '%s-%s' % (
29546b34 PH	122	determine_ext(format['url']), format['quality'])
f9b85496	123
29546b34	124	formats.append(format)
f9b85496 PH	125
	126	self._sort_formats(formats)
	127
	128	return {
	129	'id': video_id,
	130	'title': title,
	131	'description': description,
	132	'formats': formats,
	133	'thumbnail': thumbnail,
	134	}
6d3d3fc0 PH	135
	136
	137	class ARDIE(InfoExtractor):
	138	_VALID_URL = '(?P<mainurl>https?://(www\.)?daserste\.de/[^?#]+/videos/(?P<display_id>[^/?#]+)-(?P<id>[0-9]+))\.html'
	139	_TEST = {
	140	'url': 'http://www.daserste.de/information/reportage-dokumentation/dokus/videos/die-story-im-ersten-mission-unter-falscher-flagge-100.html',
	141	'md5': 'd216c3a86493f9322545e045ddc3eb35',
	142	'info_dict': {
	143	'display_id': 'die-story-im-ersten-mission-unter-falscher-flagge',
	144	'id': '100',
	145	'ext': 'mp4',
	146	'duration': 2600,
	147	'title': 'Die Story im Ersten: Mission unter falscher Flagge',
	148	'upload_date': '20140804',
	149	'thumbnail': 're:^https?://.*\.jpg$',
	150	}
	151	}
	152
	153	def _real_extract(self, url):
	154	mobj = re.match(self._VALID_URL, url)
	155	display_id = mobj.group('display_id')
	156
	157	player_url = mobj.group('mainurl') + '~playerXml.xml'
	158	doc = self._download_xml(player_url, display_id)
	159	video_node = doc.find('./video')
	160	upload_date = unified_strdate(video_node.find('./broadcastDate').text)
	161	thumbnail = video_node.find('.//teaserImage//variant/url').text
	162
	163	formats = []
	164	for a in video_node.findall('.//asset'):
	165	f = {
	166	'format_id': a.attrib['type'],
	167	'width': int_or_none(a.find('./frameWidth').text),
	168	'height': int_or_none(a.find('./frameHeight').text),
	169	'vbr': int_or_none(a.find('./bitrateVideo').text),
	170	'abr': int_or_none(a.find('./bitrateAudio').text),
	171	'vcodec': a.find('./codecVideo').text,
	172	'tbr': int_or_none(a.find('./totalBitrate').text),
	173	}
	174	if a.find('./serverPrefix').text:
	175	f['url'] = a.find('./serverPrefix').text
	176	f['playpath'] = a.find('./fileName').text
	177	else:
	178	f['url'] = a.find('./fileName').text
	179	formats.append(f)
	180	self._sort_formats(formats)
	181
	182	return {
	183	'id': mobj.group('id'),
	184	'formats': formats,
	185	'display_id': display_id,
	186	'title': video_node.find('./title').text,
	187	'duration': parse_duration(video_node.find('./duration').text),
	188	'upload_date': upload_date,
	189	'thumbnail': thumbnail,
	190	}
	191