[yt-dlp.git] / youtube_dl / extractor / newgrounds.py

from __future__ import unicode_literals

import json
import re

from .common import InfoExtractor


class NewgroundsIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?newgrounds\.com/(?:audio/listen|portal/view)/(?P<id>[0-9]+)'
    _TESTS = [{
        'url': 'http://www.newgrounds.com/audio/listen/549479',
        'md5': 'fe6033d297591288fa1c1f780386f07a',
        'info_dict': {
            'id': '549479',
            'ext': 'mp3',
            'title': 'B7 - BusMode',
            'uploader': 'Burn7',
        }
    }, {
        'url': 'http://www.newgrounds.com/portal/view/673111',
        'md5': '3394735822aab2478c31b1004fe5e5bc',
        'info_dict': {
            'id': '673111',
            'ext': 'mp4',
            'title': 'Dancin',
            'uploader': 'Squirrelman82',
        },
    }]

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        music_id = mobj.group('id')
        webpage = self._download_webpage(url, music_id)

        title = self._html_search_regex(
            r'<title>([^>]+)</title>', webpage, 'title')

        uploader = self._html_search_regex(
            [r',"artist":"([^"]+)",', r'[\'"]owner[\'"]\s*:\s*[\'"]([^\'"]+)[\'"],'],
            webpage, 'uploader')

        music_url_json_string = self._html_search_regex(
            r'({"url":"[^"]+"),', webpage, 'music url') + '}'
        music_url_json = json.loads(music_url_json_string)
        music_url = music_url_json['url']

        return {
            'id': music_id,
            'title': title,
            'url': music_url,
            'uploader': uploader,
        }
Commit	Line	Data
bd2d82a5 PH	1	from __future__ import unicode_literals
bd2d82a5 PH	2
eb03f4da R	3	import json
	4	import re
	5
	6	from .common import InfoExtractor
eb03f4da	7
d0ae9e3a	8
eb03f4da	9	class NewgroundsIE(InfoExtractor):
0de968b5 YCH	10	_VALID_URL = r'https?://(?:www\.)?newgrounds\.com/(?:audio/listen\|portal/view)/(?P<id>[0-9]+)'
0de968b5 YCH	11	_TESTS = [{
bd2d82a5	12	'url': 'http://www.newgrounds.com/audio/listen/549479',
bd2d82a5 PH	13	'md5': 'fe6033d297591288fa1c1f780386f07a',
bd2d82a5 PH	14	'info_dict': {
d55433bb PH	15	'id': '549479',
	16	'ext': 'mp3',
	17	'title': 'B7 - BusMode',
	18	'uploader': 'Burn7',
eb03f4da	19	}
0de968b5 YCH	20	}, {
	21	'url': 'http://www.newgrounds.com/portal/view/673111',
	22	'md5': '3394735822aab2478c31b1004fe5e5bc',
	23	'info_dict': {
	24	'id': '673111',
	25	'ext': 'mp4',
	26	'title': 'Dancin',
	27	'uploader': 'Squirrelman82',
	28	},
	29	}]
eb03f4da R	30
	31	def _real_extract(self, url):
	32	mobj = re.match(self._VALID_URL, url)
	33	music_id = mobj.group('id')
	34	webpage = self._download_webpage(url, music_id)
5f6a1245	35
bd2d82a5	36	title = self._html_search_regex(
0de968b5 YCH	37	r'<title>([^>]+)</title>', webpage, 'title')
0de968b5 YCH	38
bd2d82a5	39	uploader = self._html_search_regex(
0de968b5 YCH	40	[r',"artist":"([^"]+)",', r'[\'"]owner[\'"]\s:\s[\'"]([^\'"]+)[\'"],'],
0de968b5 YCH	41	webpage, 'uploader')
5f6a1245	42
bd2d82a5 PH	43	music_url_json_string = self._html_search_regex(
bd2d82a5 PH	44	r'({"url":"[^"]+"),', webpage, 'music url') + '}'
eb03f4da R	45	music_url_json = json.loads(music_url_json_string)
	46	music_url = music_url_json['url']
	47
d0ae9e3a	48	return {
bd2d82a5 PH	49	'id': music_id,
	50	'title': title,
	51	'url': music_url,
eb03f4da	52	'uploader': uploader,
d0ae9e3a	53	}