[yt-dlp.git] / yt_dlp / extractor / iheart.py

# coding: utf-8
from __future__ import unicode_literals

from .common import InfoExtractor
from ..utils import (
    clean_html,
    clean_podcast_url,
    int_or_none,
    str_or_none,
)


class IHeartRadioBaseIE(InfoExtractor):
    def _call_api(self, path, video_id, fatal=True, query=None):
        return self._download_json(
            'https://api.iheart.com/api/v3/podcast/' + path,
            video_id, fatal=fatal, query=query)

    def _extract_episode(self, episode):
        return {
            'thumbnail': episode.get('imageUrl'),
            'description': clean_html(episode.get('description')),
            'timestamp': int_or_none(episode.get('startDate'), 1000),
            'duration': int_or_none(episode.get('duration')),
        }


class IHeartRadioIE(IHeartRadioBaseIE):
    IENAME = 'iheartradio'
    _VALID_URL = r'(?:https?://(?:www\.)?iheart\.com/podcast/[^/]+/episode/(?P<display_id>[^/?&#]+)-|iheartradio:)(?P<id>\d+)'
    _TEST = {
        'url': 'https://www.iheart.com/podcast/105-behind-the-bastards-29236323/episode/part-one-alexander-lukashenko-the-dictator-70346499/?embed=true',
        'md5': 'c8609c92c8688dcb69d8541042b8abca',
        'info_dict': {
            'id': '70346499',
            'ext': 'mp3',
            'title': 'Part One: Alexander Lukashenko: The Dictator of Belarus',
            'description': 'md5:96cc7297b3a5a9ebae28643801c96fae',
            'timestamp': 1597741200,
            'upload_date': '20200818',
        }
    }

    def _real_extract(self, url):
        episode_id = self._match_id(url)
        episode = self._call_api(
            'episodes/' + episode_id, episode_id)['episode']
        info = self._extract_episode(episode)
        info.update({
            'id': episode_id,
            'title': episode['title'],
            'url': clean_podcast_url(episode['mediaUrl']),
        })
        return info


class IHeartRadioPodcastIE(IHeartRadioBaseIE):
    IE_NAME = 'iheartradio:podcast'
    _VALID_URL = r'https?://(?:www\.)?iheart(?:podcastnetwork)?\.com/podcast/[^/?&#]+-(?P<id>\d+)/?(?:[?#&]|$)'
    _TESTS = [{
        'url': 'https://www.iheart.com/podcast/1119-it-could-happen-here-30717896/',
        'info_dict': {
            'id': '30717896',
            'title': 'It Could Happen Here',
            'description': 'md5:5842117412a967eb0b01f8088eb663e2',
        },
        'playlist_mincount': 11,
    }, {
        'url': 'https://www.iheartpodcastnetwork.com/podcast/105-stuff-you-should-know-26940277',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        podcast_id = self._match_id(url)
        path = 'podcasts/' + podcast_id
        episodes = self._call_api(
            path + '/episodes', podcast_id, query={'limit': 1000000000})['data']

        entries = []
        for episode in episodes:
            episode_id = str_or_none(episode.get('id'))
            if not episode_id:
                continue
            info = self._extract_episode(episode)
            info.update({
                '_type': 'url',
                'id': episode_id,
                'title': episode.get('title'),
                'url': 'iheartradio:' + episode_id,
                'ie_key': IHeartRadioIE.ie_key(),
            })
            entries.append(info)

        podcast = self._call_api(path, podcast_id, False) or {}

        return self.playlist_result(
            entries, podcast_id, podcast.get('title'), podcast.get('description'))
Commit	Line	Data
00dd0cd5	1	# coding: utf-8
	2	from __future__ import unicode_literals
	3
	4	from .common import InfoExtractor
	5	from ..utils import (
	6	clean_html,
	7	clean_podcast_url,
	8	int_or_none,
	9	str_or_none,
	10	)
	11
	12
	13	class IHeartRadioBaseIE(InfoExtractor):
	14	def _call_api(self, path, video_id, fatal=True, query=None):
	15	return self._download_json(
	16	'https://api.iheart.com/api/v3/podcast/' + path,
	17	video_id, fatal=fatal, query=query)
	18
	19	def _extract_episode(self, episode):
	20	return {
	21	'thumbnail': episode.get('imageUrl'),
	22	'description': clean_html(episode.get('description')),
	23	'timestamp': int_or_none(episode.get('startDate'), 1000),
	24	'duration': int_or_none(episode.get('duration')),
	25	}
	26
	27
	28	class IHeartRadioIE(IHeartRadioBaseIE):
	29	IENAME = 'iheartradio'
	30	_VALID_URL = r'(?:https?://(?:www\.)?iheart\.com/podcast/[^/]+/episode/(?P<display_id>[^/?&#]+)-\|iheartradio:)(?P<id>\d+)'
	31	_TEST = {
	32	'url': 'https://www.iheart.com/podcast/105-behind-the-bastards-29236323/episode/part-one-alexander-lukashenko-the-dictator-70346499/?embed=true',
	33	'md5': 'c8609c92c8688dcb69d8541042b8abca',
	34	'info_dict': {
	35	'id': '70346499',
	36	'ext': 'mp3',
	37	'title': 'Part One: Alexander Lukashenko: The Dictator of Belarus',
	38	'description': 'md5:96cc7297b3a5a9ebae28643801c96fae',
	39	'timestamp': 1597741200,
	40	'upload_date': '20200818',
	41	}
	42	}
	43
	44	def _real_extract(self, url):
	45	episode_id = self._match_id(url)
	46	episode = self._call_api(
	47	'episodes/' + episode_id, episode_id)['episode']
	48	info = self._extract_episode(episode)
	49	info.update({
	50	'id': episode_id,
	51	'title': episode['title'],
	52	'url': clean_podcast_url(episode['mediaUrl']),
	53	})
	54	return info
	55
	56
	57	class IHeartRadioPodcastIE(IHeartRadioBaseIE):
	58	IE_NAME = 'iheartradio:podcast'
	59	_VALID_URL = r'https?://(?:www\.)?iheart(?:podcastnetwork)?\.com/podcast/[^/?&#]+-(?P<id>\d+)/?(?:[?#&]\|$)'
	60	_TESTS = [{
	61	'url': 'https://www.iheart.com/podcast/1119-it-could-happen-here-30717896/',
	62	'info_dict': {
	63	'id': '30717896',
	64	'title': 'It Could Happen Here',
65	'description': 'md5:5842117412a967eb0b01f8088eb663e2',
66	},
67	'playlist_mincount': 11,
68	}, {
69	'url': 'https://www.iheartpodcastnetwork.com/podcast/105-stuff-you-should-know-26940277',
70	'only_matching': True,
71	}]
72
73	def _real_extract(self, url):
74	podcast_id = self._match_id(url)
75	path = 'podcasts/' + podcast_id
76	episodes = self._call_api(
77	path + '/episodes', podcast_id, query={'limit': 1000000000})['data']
78
79	entries = []
80	for episode in episodes:
81	episode_id = str_or_none(episode.get('id'))
82	if not episode_id:
83	continue
84	info = self._extract_episode(episode)
85	info.update({
86	'_type': 'url',
87	'id': episode_id,
88	'title': episode.get('title'),
89	'url': 'iheartradio:' + episode_id,
90	'ie_key': IHeartRadioIE.ie_key(),
91	})
92	entries.append(info)
93
94	podcast = self._call_api(path, podcast_id, False) or {}
95
96	return self.playlist_result(
97	entries, podcast_id, podcast.get('title'), podcast.get('description'))