youtube_dl/extractor/gdcvault.py

   1 from __future__ import unicode_literals
   2
   3 import re
   4 import json
   5 import xml.etree.ElementTree
   6
   7 from .common import InfoExtractor
   8 from ..utils import unified_strdate
   9
  10
  11 class GDCVaultIE(InfoExtractor):
  12     _VALID_URL = r'https?://(?:www\.)?gdcvault\.com/play/(?P<id>\d+)/(?P<name>(\w|-)+)'
  13     _TESTS = [
  14         {
  15             u'url': u'http://www.gdcvault.com/play/1015683/Embracing-the-Dark-Art-of',
  16             u'md5': u'05763e5edd1a74776999a12b02ee1c4e',
  17             u'info_dict': {
  18                 u"id": u"1015683",
  19                 u"ext": u"flv",
  20                 u"title": u"Embracing the Dark Art of Mathematical Modeling in AI"
  21             }
  22         },
  23         {
  24             u'url': u'http://www.gdcvault.com/play/1019721/Doki-Doki-Universe-Sweet-Simple',
  25             u'md5': u'7ce8388f544c88b7ac11c7ab1b593704',
  26             u'info_dict': {
  27                 u"id": u"1019721",
  28                 u"ext": u"mp4",
  29                 u"title": u"Doki-Doki Universe: Sweet, Simple and Genuine (GDC Next 10)"
  30             }
  31         },
  32     ]
  33
  34     def _real_extract(self, url):
  35         mobj = re.match(self._VALID_URL, url)
  36
  37         video_id = mobj.group('id')
  38         webpage_url = 'http://www.gdcvault.com/play/' + video_id
  39
  40         start_page = self._download_webpage(webpage_url, video_id)
  41
  42         self.report_extraction(video_id)
  43
  44         xml_root = self._html_search_regex(r'<iframe src="(?P<xml_root>.*?)player.html.*?".*?</iframe>', start_page, 'xml root')
  45         xml_name = self._html_search_regex(r'<iframe src=".*?\?xml=(?P<xml_file>.+?\.xml).*?".*?</iframe>', start_page, 'xml filename', None, False)
  46         if xml_name is None:
  47             # Fallback to the older format
  48             xml_name = self._html_search_regex(r'<iframe src=".*?\?xmlURL=xml/(?P<xml_file>.+?\.xml).*?".*?</iframe>', start_page, 'xml filename')
  49
  50         xml_decription_url = xml_root + 'xml/' + xml_name
  51
  52         xml_description = self._download_xml(xml_decription_url, video_id)
  53
  54         video_title = xml_description.find('./metadata/title').text
  55
  56         video_details = {
  57             'id': video_id,
  58             'title': video_title,
  59         }
  60         video_formats = []
  61
  62         mp4_video = xml_description.find('./metadata/mp4video')
  63         if mp4_video is not None:
  64             mobj = re.match(r'(?P<root>https?://.*?/).*', mp4_video.text)
  65             video_root = mobj.group('root')
  66             formats = xml_description.findall('./metadata/MBRVideos/MBRVideo')
  67             for format in formats:
  68                 mobj = re.match(r'mp4\:(?P<path>.*)', format.find('streamName').text)
  69                 url = video_root + mobj.group('path')
  70                 vbr = format.find('bitrate').text
  71                 video_formats.append({
  72                     'url': url,
  73                     'vbr': int(vbr),
  74                 })
  75             video_details['formats'] = video_formats
  76         else:
  77             # Fallback to flv
  78             akami_url = xml_description.find('./metadata/akamaiHost').text
  79             slide_video_path = xml_description.find('./metadata/slideVideo').text
  80             video_formats.append({
  81                     'url': 'rtmp://' + akami_url + '/' + slide_video_path,
  82                     'format_note': 'slide deck video',
  83                     'quality': -2,
  84                     'preference': -2,
  85                     'format_id': 'slides',
  86                 })
  87             speaker_video_path = xml_description.find('./metadata/speakerVideo').text
  88             video_formats.append({
  89                     'url': 'rtmp://' + akami_url + '/' + speaker_video_path,
  90                     'format_note': 'speaker video',
  91                     'quality': -1,
  92                     'preference': -1,
  93                     'format_id': 'speaker',
  94                 })
  95
  96         return [{
  97             'id': video_id,
  98             'title': video_title,
  99             'formats': video_formats,
 100         }]