[yt-dlp.git] / yt_dlp / extractor / teachertube.py

import re

from .common import InfoExtractor
from ..utils import (
    determine_ext,
    ExtractorError,
    qualities,
)


class TeacherTubeIE(InfoExtractor):
    IE_NAME = 'teachertube'
    IE_DESC = 'teachertube.com videos'

    _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(viewVideo\.php\?video_id=|music\.php\?music_id=|video/(?:[\da-z-]+-)?|audio/)(?P<id>\d+)'

    _TESTS = [{
        # flowplayer
        'url': 'http://www.teachertube.com/viewVideo.php?video_id=339997',
        'md5': 'f9434ef992fd65936d72999951ee254c',
        'info_dict': {
            'id': '339997',
            'ext': 'mp4',
            'title': 'Measures of dispersion from a frequency table',
            'description': 'Measures of dispersion from a frequency table',
            'thumbnail': r're:https?://.*\.(?:jpg|png)',
        },
    }, {
        # jwplayer
        'url': 'http://www.teachertube.com/music.php?music_id=8805',
        'md5': '01e8352006c65757caf7b961f6050e21',
        'info_dict': {
            'id': '8805',
            'ext': 'mp3',
            'title': 'PER ASPERA AD ASTRA',
            'description': 'RADIJSKA EMISIJA ZRAKOPLOVNE TEHNI?KE ?KOLE P',
        },
    }, {
        # unavailable video
        'url': 'http://www.teachertube.com/video/intro-video-schleicher-297790',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)

        error = self._search_regex(
            r'<div\b[^>]+\bclass=["\']msgBox error[^>]+>([^<]+)', webpage,
            'error', default=None)
        if error:
            raise ExtractorError('%s said: %s' % (self.IE_NAME, error), expected=True)

        title = self._html_search_meta('title', webpage, 'title', fatal=True)
        TITLE_SUFFIX = ' - TeacherTube'
        if title.endswith(TITLE_SUFFIX):
            title = title[:-len(TITLE_SUFFIX)].strip()

        description = self._html_search_meta('description', webpage, 'description')
        if description:
            description = description.strip()

        quality = qualities(['mp3', 'flv', 'mp4'])

        media_urls = re.findall(r'data-contenturl="([^"]+)"', webpage)
        media_urls.extend(re.findall(r'var\s+filePath\s*=\s*"([^"]+)"', webpage))
        media_urls.extend(re.findall(r'\'file\'\s*:\s*["\']([^"\']+)["\'],', webpage))

        formats = [
            {
                'url': media_url,
                'quality': quality(determine_ext(media_url))
            } for media_url in set(media_urls)
        ]

        thumbnail = self._og_search_thumbnail(
            webpage, default=None) or self._html_search_meta(
            'thumbnail', webpage)

        return {
            'id': video_id,
            'title': title,
            'description': description,
            'thumbnail': thumbnail,
            'formats': formats,
        }


class TeacherTubeUserIE(InfoExtractor):
    IE_NAME = 'teachertube:user:collection'
    IE_DESC = 'teachertube.com user and collection videos'

    _VALID_URL = r'https?://(?:www\.)?teachertube\.com/(user/profile|collection)/(?P<user>[0-9a-zA-Z]+)/?'

    _MEDIA_RE = r'''(?sx)
        class="?sidebar_thumb_time"?>[0-9:]+</div>
        \s*
        <a\s+href="(https?://(?:www\.)?teachertube\.com/(?:video|audio)/[^"]+)"
    '''
    _TEST = {
        'url': 'http://www.teachertube.com/user/profile/rbhagwati2',
        'info_dict': {
            'id': 'rbhagwati2'
        },
        'playlist_mincount': 179,
    }

    def _real_extract(self, url):
        mobj = self._match_valid_url(url)
        user_id = mobj.group('user')

        urls = []
        webpage = self._download_webpage(url, user_id)
        urls.extend(re.findall(self._MEDIA_RE, webpage))

        pages = re.findall(r'/ajax-user/user-videos/%s\?page=([0-9]+)' % user_id, webpage)[:-1]
        for p in pages:
            more = 'http://www.teachertube.com/ajax-user/user-videos/%s?page=%s' % (user_id, p)
            webpage = self._download_webpage(more, user_id, 'Downloading page %s/%s' % (p, len(pages)))
            video_urls = re.findall(self._MEDIA_RE, webpage)
            urls.extend(video_urls)

        entries = [self.url_result(vurl, 'TeacherTube') for vurl in urls]
        return self.playlist_result(entries, user_id)
Commit	Line	Data
b4e74474	1	import re
	2
	3	from .common import InfoExtractor
f0a6c3d2	4	from ..utils import (
f0a6c3d2	5	determine_ext,
9d6458a2 S	6	ExtractorError,
9d6458a2 S	7	qualities,
f0a6c3d2	8	)
b4e74474	9
	10
	11	class TeacherTubeIE(InfoExtractor):
	12	IE_NAME = 'teachertube'
	13	IE_DESC = 'teachertube.com videos'
	14
1e07fea2	15	_VALID_URL = r'https?://(?:www\.)?teachertube\.com/(viewVideo\.php\?video_id=\|music\.php\?music_id=\|video/(?:[\da-z-]+-)?\|audio/)(?P<id>\d+)'
b4e74474	16
b4e74474	17	_TESTS = [{
837b0617	18	# flowplayer
b4e74474	19	'url': 'http://www.teachertube.com/viewVideo.php?video_id=339997',
	20	'md5': 'f9434ef992fd65936d72999951ee254c',
	21	'info_dict': {
	22	'id': '339997',
	23	'ext': 'mp4',
9a2dc4f7 S	24	'title': 'Measures of dispersion from a frequency table',
9a2dc4f7 S	25	'description': 'Measures of dispersion from a frequency table',
837b0617	26	'thumbnail': r're:https?://.*\.(?:jpg\|png)',
b4e74474	27	},
f0a6c3d2	28	}, {
837b0617	29	# jwplayer
f0a6c3d2 S	30	'url': 'http://www.teachertube.com/music.php?music_id=8805',
	31	'md5': '01e8352006c65757caf7b961f6050e21',
	32	'info_dict': {
	33	'id': '8805',
	34	'ext': 'mp3',
	35	'title': 'PER ASPERA AD ASTRA',
9a2dc4f7	36	'description': 'RADIJSKA EMISIJA ZRAKOPLOVNE TEHNI?KE ?KOLE P',
f0a6c3d2	37	},
1e07fea2	38	}, {
837b0617	39	# unavailable video
1e07fea2	40	'url': 'http://www.teachertube.com/video/intro-video-schleicher-297790',
837b0617	41	'only_matching': True,
b4e74474	42	}]
	43
	44	def _real_extract(self, url):
211503c3	45	video_id = self._match_id(url)
b4e74474	46	webpage = self._download_webpage(url, video_id)
b4e74474	47
9d6458a2 S	48	error = self._search_regex(
	49	r'<div\b[^>]+\bclass=["\']msgBox error[^>]+>([^<]+)', webpage,
	50	'error', default=None)
	51	if error:
	52	raise ExtractorError('%s said: %s' % (self.IE_NAME, error), expected=True)
	53
1a30deca	54	title = self._html_search_meta('title', webpage, 'title', fatal=True)
9a2dc4f7 S	55	TITLE_SUFFIX = ' - TeacherTube'
	56	if title.endswith(TITLE_SUFFIX):
	57	title = title[:-len(TITLE_SUFFIX)].strip()
	58
	59	description = self._html_search_meta('description', webpage, 'description')
	60	if description:
	61	description = description.strip()
	62
f0a6c3d2 S	63	quality = qualities(['mp3', 'flv', 'mp4'])
f0a6c3d2 S	64
9a2dc4f7 S	65	media_urls = re.findall(r'data-contenturl="([^"]+)"', webpage)
9a2dc4f7 S	66	media_urls.extend(re.findall(r'var\s+filePath\s=\s"([^"]+)"', webpage))
c7df67ed	67	media_urls.extend(re.findall(r'\'file\'\s:\s["\']([^"\']+)["\'],', webpage))
702e5220	68
f0a6c3d2 S	69	formats = [
	70	{
	71	'url': media_url,
	72	'quality': quality(determine_ext(media_url))
702e5220	73	} for media_url in set(media_urls)
f0a6c3d2	74	]
b4e74474	75
837b0617 S	76	thumbnail = self._og_search_thumbnail(
	77	webpage, default=None) or self._html_search_meta(
	78	'thumbnail', webpage)
	79
b4e74474	80	return {
b4e74474	81	'id': video_id,
9a2dc4f7	82	'title': title,
9a2dc4f7	83	'description': description,
837b0617 S	84	'thumbnail': thumbnail,
837b0617 S	85	'formats': formats,
b4e74474	86	}
	87
	88
31a196d7 PP	89	class TeacherTubeUserIE(InfoExtractor):
	90	IE_NAME = 'teachertube:user:collection'
	91	IE_DESC = 'teachertube.com user and collection videos'
b4e74474	92
31a196d7	93	_VALID_URL = r'https?://(?:www\.)?teachertube\.com/(user/profile\|collection)/(?P<user>[0-9a-zA-Z]+)/?'
b4e74474	94
1a30deca PH	95	_MEDIA_RE = r'''(?sx)
	96	class="?sidebar_thumb_time"?>[0-9:]+</div>
	97	\s*
	98	<a\s+href="(https?://(?:www\.)?teachertube\.com/(?:video\|audio)/[^"]+)"
	99	'''
22a6f150 PH	100	_TEST = {
	101	'url': 'http://www.teachertube.com/user/profile/rbhagwati2',
	102	'info_dict': {
	103	'id': 'rbhagwati2'
	104	},
	105	'playlist_mincount': 179,
	106	}
7aeb67b3	107
b4e74474	108	def _real_extract(self, url):
5ad28e7f	109	mobj = self._match_valid_url(url)
b4e74474	110	user_id = mobj.group('user')
b4e74474	111
31a196d7 PP	112	urls = []
31a196d7 PP	113	webpage = self._download_webpage(url, user_id)
7aeb67b3	114	urls.extend(re.findall(self._MEDIA_RE, webpage))
5f6a1245	115
1a30deca	116	pages = re.findall(r'/ajax-user/user-videos/%s\?page=([0-9]+)' % user_id, webpage)[:-1]
31a196d7 PP	117	for p in pages:
31a196d7 PP	118	more = 'http://www.teachertube.com/ajax-user/user-videos/%s?page=%s' % (user_id, p)
1a30deca PH	119	webpage = self._download_webpage(more, user_id, 'Downloading page %s/%s' % (p, len(pages)))
	120	video_urls = re.findall(self._MEDIA_RE, webpage)
	121	urls.extend(video_urls)
b4e74474	122
1a30deca	123	entries = [self.url_result(vurl, 'TeacherTube') for vurl in urls]
b4e74474	124	return self.playlist_result(entries, user_id)