[yt-dlp.git] / yt_dlp / extractor / teachertube.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..utils import (
    determine_ext,
    ExtractorError,
    qualities,
)


class TeacherTubeIE(InfoExtractor):
    IE_NAME = 'teachertube'
    IE_DESC = 'teachertube.com videos'

    _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(viewVideo\.php\?video_id=|music\.php\?music_id=|video/(?:[\da-z-]+-)?|audio/)(?P<id>\d+)'

    _TESTS = [{
        # flowplayer
        'url': 'http://www.teachertube.com/viewVideo.php?video_id=339997',
        'md5': 'f9434ef992fd65936d72999951ee254c',
        'info_dict': {
            'id': '339997',
            'ext': 'mp4',
            'title': 'Measures of dispersion from a frequency table',
            'description': 'Measures of dispersion from a frequency table',
            'thumbnail': r're:https?://.*\.(?:jpg|png)',
        },
    }, {
        # jwplayer
        'url': 'http://www.teachertube.com/music.php?music_id=8805',
        'md5': '01e8352006c65757caf7b961f6050e21',
        'info_dict': {
            'id': '8805',
            'ext': 'mp3',
            'title': 'PER ASPERA AD ASTRA',
            'description': 'RADIJSKA EMISIJA ZRAKOPLOVNE TEHNI?KE ?KOLE P',
        },
    }, {
        # unavailable video
        'url': 'http://www.teachertube.com/video/intro-video-schleicher-297790',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)

        error = self._search_regex(
            r'<div\b[^>]+\bclass=["\']msgBox error[^>]+>([^<]+)', webpage,
            'error', default=None)
        if error:
            raise ExtractorError('%s said: %s' % (self.IE_NAME, error), expected=True)

        title = self._html_search_meta('title', webpage, 'title', fatal=True)
        TITLE_SUFFIX = ' - TeacherTube'
        if title.endswith(TITLE_SUFFIX):
            title = title[:-len(TITLE_SUFFIX)].strip()

        description = self._html_search_meta('description', webpage, 'description')
        if description:
            description = description.strip()

        quality = qualities(['mp3', 'flv', 'mp4'])

        media_urls = re.findall(r'data-contenturl="([^"]+)"', webpage)
        media_urls.extend(re.findall(r'var\s+filePath\s*=\s*"([^"]+)"', webpage))
        media_urls.extend(re.findall(r'\'file\'\s*:\s*["\']([^"\']+)["\'],', webpage))

        formats = [
            {
                'url': media_url,
                'quality': quality(determine_ext(media_url))
            } for media_url in set(media_urls)
        ]

        self._sort_formats(formats)

        thumbnail = self._og_search_thumbnail(
            webpage, default=None) or self._html_search_meta(
            'thumbnail', webpage)

        return {
            'id': video_id,
            'title': title,
            'description': description,
            'thumbnail': thumbnail,
            'formats': formats,
        }


class TeacherTubeUserIE(InfoExtractor):
    IE_NAME = 'teachertube:user:collection'
    IE_DESC = 'teachertube.com user and collection videos'

    _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(user/profile|collection)/(?P<user>[0-9a-zA-Z]+)/?'

    _MEDIA_RE = r'''(?sx)
        class="?sidebar_thumb_time"?>[0-9:]+</div>
        \s*
        <a\s+href="(https?://(?:www\.)?teachertube\.com/(?:video|audio)/[^"]+)"
    '''
    _TEST = {
        'url': 'http://www.teachertube.com/user/profile/rbhagwati2',
        'info_dict': {
            'id': 'rbhagwati2'
        },
        'playlist_mincount': 179,
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        user_id = mobj.group('user')

        urls = []
        webpage = self._download_webpage(url, user_id)
        urls.extend(re.findall(self._MEDIA_RE, webpage))

        pages = re.findall(r'/ajax-user/user-videos/%s\?page=([0-9]+)' % user_id, webpage)[:-1]
        for p in pages:
            more = 'http://www.teachertube.com/ajax-user/user-videos/%s?page=%s' % (user_id, p)
            webpage = self._download_webpage(more, user_id, 'Downloading page %s/%s' % (p, len(pages)))
            video_urls = re.findall(self._MEDIA_RE, webpage)
            urls.extend(video_urls)

        entries = [self.url_result(vurl, 'TeacherTube') for vurl in urls]
        return self.playlist_result(entries, user_id)
Commit	Line	Data
dcdb292f	1	# coding: utf-8
b4e74474	2	from __future__ import unicode_literals
	3
	4	import re
	5
	6	from .common import InfoExtractor
f0a6c3d2	7	from ..utils import (
f0a6c3d2	8	determine_ext,
9d6458a2 S	9	ExtractorError,
9d6458a2 S	10	qualities,
f0a6c3d2	11	)
b4e74474	12
	13
	14	class TeacherTubeIE(InfoExtractor):
	15	IE_NAME = 'teachertube'
	16	IE_DESC = 'teachertube.com videos'
	17
1e07fea2	18	_VALID_URL = r'https?://(?:www\.)?teachertube\.com/(viewVideo\.php\?video_id=\|music\.php\?music_id=\|video/(?:[\da-z-]+-)?\|audio/)(?P<id>\d+)'
b4e74474	19
b4e74474	20	_TESTS = [{
837b0617	21	# flowplayer
b4e74474	22	'url': 'http://www.teachertube.com/viewVideo.php?video_id=339997',
	23	'md5': 'f9434ef992fd65936d72999951ee254c',
	24	'info_dict': {
	25	'id': '339997',
	26	'ext': 'mp4',
9a2dc4f7 S	27	'title': 'Measures of dispersion from a frequency table',
9a2dc4f7 S	28	'description': 'Measures of dispersion from a frequency table',
837b0617	29	'thumbnail': r're:https?://.*\.(?:jpg\|png)',
b4e74474	30	},
f0a6c3d2	31	}, {
837b0617	32	# jwplayer
f0a6c3d2 S	33	'url': 'http://www.teachertube.com/music.php?music_id=8805',
	34	'md5': '01e8352006c65757caf7b961f6050e21',
	35	'info_dict': {
	36	'id': '8805',
	37	'ext': 'mp3',
	38	'title': 'PER ASPERA AD ASTRA',
9a2dc4f7	39	'description': 'RADIJSKA EMISIJA ZRAKOPLOVNE TEHNI?KE ?KOLE P',
f0a6c3d2	40	},
1e07fea2	41	}, {
837b0617	42	# unavailable video
1e07fea2	43	'url': 'http://www.teachertube.com/video/intro-video-schleicher-297790',
837b0617	44	'only_matching': True,
b4e74474	45	}]
	46
	47	def _real_extract(self, url):
211503c3	48	video_id = self._match_id(url)
b4e74474	49	webpage = self._download_webpage(url, video_id)
b4e74474	50
9d6458a2 S	51	error = self._search_regex(
	52	r'<div\b[^>]+\bclass=["\']msgBox error[^>]+>([^<]+)', webpage,
	53	'error', default=None)
	54	if error:
	55	raise ExtractorError('%s said: %s' % (self.IE_NAME, error), expected=True)
	56
1a30deca	57	title = self._html_search_meta('title', webpage, 'title', fatal=True)
9a2dc4f7 S	58	TITLE_SUFFIX = ' - TeacherTube'
	59	if title.endswith(TITLE_SUFFIX):
	60	title = title[:-len(TITLE_SUFFIX)].strip()
	61
	62	description = self._html_search_meta('description', webpage, 'description')
	63	if description:
	64	description = description.strip()
	65
f0a6c3d2 S	66	quality = qualities(['mp3', 'flv', 'mp4'])
f0a6c3d2 S	67
9a2dc4f7 S	68	media_urls = re.findall(r'data-contenturl="([^"]+)"', webpage)
9a2dc4f7 S	69	media_urls.extend(re.findall(r'var\s+filePath\s=\s"([^"]+)"', webpage))
c7df67ed	70	media_urls.extend(re.findall(r'\'file\'\s:\s["\']([^"\']+)["\'],', webpage))
702e5220	71
f0a6c3d2 S	72	formats = [
	73	{
	74	'url': media_url,
	75	'quality': quality(determine_ext(media_url))
702e5220	76	} for media_url in set(media_urls)
f0a6c3d2	77	]
b4e74474	78
	79	self._sort_formats(formats)
	80
837b0617 S	81	thumbnail = self._og_search_thumbnail(
	82	webpage, default=None) or self._html_search_meta(
	83	'thumbnail', webpage)
	84
b4e74474	85	return {
b4e74474	86	'id': video_id,
9a2dc4f7	87	'title': title,
9a2dc4f7	88	'description': description,
837b0617 S	89	'thumbnail': thumbnail,
837b0617 S	90	'formats': formats,
b4e74474	91	}
	92
	93
31a196d7 PP	94	class TeacherTubeUserIE(InfoExtractor):
	95	IE_NAME = 'teachertube:user:collection'
	96	IE_DESC = 'teachertube.com user and collection videos'
b4e74474	97
31a196d7	98	_VALID_URL = r'https?://(?:www\.)?teachertube\.com/(user/profile\|collection)/(?P<user>[0-9a-zA-Z]+)/?'
b4e74474	99
1a30deca PH	100	_MEDIA_RE = r'''(?sx)
	101	class="?sidebar_thumb_time"?>[0-9:]+</div>
	102	\s*
	103	<a\s+href="(https?://(?:www\.)?teachertube\.com/(?:video\|audio)/[^"]+)"
	104	'''
22a6f150 PH	105	_TEST = {
	106	'url': 'http://www.teachertube.com/user/profile/rbhagwati2',
	107	'info_dict': {
	108	'id': 'rbhagwati2'
	109	},
	110	'playlist_mincount': 179,
	111	}
7aeb67b3	112
b4e74474	113	def _real_extract(self, url):
	114	mobj = re.match(self._VALID_URL, url)
	115	user_id = mobj.group('user')
	116
31a196d7 PP	117	urls = []
31a196d7 PP	118	webpage = self._download_webpage(url, user_id)
7aeb67b3	119	urls.extend(re.findall(self._MEDIA_RE, webpage))
5f6a1245	120
1a30deca	121	pages = re.findall(r'/ajax-user/user-videos/%s\?page=([0-9]+)' % user_id, webpage)[:-1]
31a196d7 PP	122	for p in pages:
31a196d7 PP	123	more = 'http://www.teachertube.com/ajax-user/user-videos/%s?page=%s' % (user_id, p)
1a30deca PH	124	webpage = self._download_webpage(more, user_id, 'Downloading page %s/%s' % (p, len(pages)))
	125	video_urls = re.findall(self._MEDIA_RE, webpage)
	126	urls.extend(video_urls)
b4e74474	127
1a30deca	128	entries = [self.url_result(vurl, 'TeacherTube') for vurl in urls]
b4e74474	129	return self.playlist_result(entries, user_id)