[yt-dlp.git] / yt_dlp / extractor / yappy.py

from .common import InfoExtractor
from ..utils import (
    int_or_none,
    traverse_obj,
    unified_timestamp,
    url_or_none
)


class YappyIE(InfoExtractor):
    _VALID_URL = r'https?://yappy\.media/video/(?P<id>\w+)'
    _TESTS = [{
        'url': 'https://yappy.media/video/47fea6d8586f48d1a0cf96a7342aabd2',
        'info_dict': {
            'id': '47fea6d8586f48d1a0cf96a7342aabd2',
            'ext': 'mp4',
            'title': 'Куда нажимать? Как снимать? Смотри видос и погнали!🤘🏻',
            'timestamp': 1661893200,
            'description': 'Куда нажимать? Как снимать? Смотри видос и погнали!🤘🏻',
            'thumbnail': 'https://cdn-st.ritm.media/static/pic/thumbnails/0c7c4d73388f47848acaf540d2e2bb8c-thumbnail.jpg',
            'upload_date': '20220830',
            'view_count': int,
            'like_count': int,
            'uploader_id': '59a0c8c485e5410b9c43474bf4c6a373',
            'categories': ['Образование и наука', 'Лайфхак', 'Технологии', 'Арт/искусство'],
            'repost_count': int,
            'uploader': 'YAPPY',
        }
    }, {
        'url': 'https://yappy.media/video/3862451954ad4bd58ae2ccefddb0bd33',
        'info_dict': {
            'id': '3862451954ad4bd58ae2ccefddb0bd33',
            'ext': 'mp4',
            'title': 'Опиши свой характер 3 словами🙃\n#психология #дружба #отношения',
            'timestamp': 1674726985,
            'like_count': int,
            'description': 'Опиши свой характер 3 словами🙃\n#психология #дружба #отношения',
            'uploader_id': '6793ee3581974a3586fc01e157de6c99',
            'view_count': int,
            'repost_count': int,
            'uploader': 'LENA SHTURMAN',
            'upload_date': '20230126',
            'thumbnail': 'https://cdn-st.ritm.media/static/pic/user_thumbnails/6e76bb4bbad640b6/9ec84c115b2b1967/1674716171.jpg',
        }
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)
        webpage = self._download_webpage(url, video_id)
        json_ld = self._search_json_ld(webpage, video_id)
        nextjs_data = self._search_nextjs_data(webpage, video_id)

        media_data = (
            traverse_obj(
                nextjs_data, ('props', 'pageProps', ('data', 'OpenGraphParameters')), get_all=False)
            or self._download_json(f'https://yappy.media/api/video/{video_id}', video_id))

        media_url = traverse_obj(media_data, ('link', {url_or_none})) or ''
        has_watermark = media_url.endswith('-wm.mp4')

        formats = [{
            'url': media_url,
            'ext': 'mp4',
            'format_note': 'Watermarked' if has_watermark else None,
            'preference': -10 if has_watermark else None
        }] if media_url else []

        if has_watermark:
            formats.append({
                'url': media_url.replace('-wm.mp4', '.mp4'),
                'ext': 'mp4'
            })

        audio_link = traverse_obj(media_data, ('audio', 'link'))
        if audio_link:
            formats.append({
                'url': audio_link,
                'ext': 'mp3',
                'acodec': 'mp3',
                'vcodec': 'none'
            })

        return {
            'id': video_id,
            'title': (json_ld.get('description') or self._html_search_meta(['og:title'], webpage)
                      or self._html_extract_title(webpage)),
            'formats': formats,
            'thumbnail': (media_data.get('thumbnail')
                          or self._html_search_meta(['og:image', 'og:image:secure_url'], webpage)),
            'description': (media_data.get('description') or json_ld.get('description')
                            or self._html_search_meta(['description', 'og:description'], webpage)),
            'timestamp': unified_timestamp(media_data.get('publishedAt') or json_ld.get('timestamp')),
            'view_count': int_or_none(media_data.get('viewsCount') or json_ld.get('view_count')),
            'like_count': int_or_none(media_data.get('likesCount')),
            'uploader': traverse_obj(media_data, ('creator', 'firstName')),
            'uploader_id': traverse_obj(media_data, ('creator', ('uuid', 'nickname')), get_all=False),
            'categories': traverse_obj(media_data, ('categories', ..., 'name')) or None,
            'repost_count': int_or_none(media_data.get('sharingCount'))
        }
Commit	Line	Data
36163001 H	1	from .common import InfoExtractor
	2	from ..utils import (
	3	int_or_none,
	4	traverse_obj,
	5	unified_timestamp,
	6	url_or_none
	7	)
	8
	9
	10	class YappyIE(InfoExtractor):
	11	_VALID_URL = r'https?://yappy\.media/video/(?P<id>\w+)'
	12	_TESTS = [{
	13	'url': 'https://yappy.media/video/47fea6d8586f48d1a0cf96a7342aabd2',
	14	'info_dict': {
	15	'id': '47fea6d8586f48d1a0cf96a7342aabd2',
	16	'ext': 'mp4',
	17	'title': 'Куда нажимать? Как снимать? Смотри видос и погнали!🤘🏻',
	18	'timestamp': 1661893200,
	19	'description': 'Куда нажимать? Как снимать? Смотри видос и погнали!🤘🏻',
	20	'thumbnail': 'https://cdn-st.ritm.media/static/pic/thumbnails/0c7c4d73388f47848acaf540d2e2bb8c-thumbnail.jpg',
	21	'upload_date': '20220830',
	22	'view_count': int,
	23	'like_count': int,
	24	'uploader_id': '59a0c8c485e5410b9c43474bf4c6a373',
	25	'categories': ['Образование и наука', 'Лайфхак', 'Технологии', 'Арт/искусство'],
	26	'repost_count': int,
	27	'uploader': 'YAPPY',
	28	}
	29	}, {
	30	'url': 'https://yappy.media/video/3862451954ad4bd58ae2ccefddb0bd33',
	31	'info_dict': {
	32	'id': '3862451954ad4bd58ae2ccefddb0bd33',
	33	'ext': 'mp4',
	34	'title': 'Опиши свой характер 3 словами🙃\n#психология #дружба #отношения',
	35	'timestamp': 1674726985,
	36	'like_count': int,
	37	'description': 'Опиши свой характер 3 словами🙃\n#психология #дружба #отношения',
	38	'uploader_id': '6793ee3581974a3586fc01e157de6c99',
	39	'view_count': int,
	40	'repost_count': int,
	41	'uploader': 'LENA SHTURMAN',
	42	'upload_date': '20230126',
	43	'thumbnail': 'https://cdn-st.ritm.media/static/pic/user_thumbnails/6e76bb4bbad640b6/9ec84c115b2b1967/1674716171.jpg',
	44	}
	45	}]
	46
	47	def _real_extract(self, url):
	48	video_id = self._match_id(url)
	49	webpage = self._download_webpage(url, video_id)
	50	json_ld = self._search_json_ld(webpage, video_id)
	51	nextjs_data = self._search_nextjs_data(webpage, video_id)
	52
	53	media_data = (
	54	traverse_obj(
	55	nextjs_data, ('props', 'pageProps', ('data', 'OpenGraphParameters')), get_all=False)
	56	or self._download_json(f'https://yappy.media/api/video/{video_id}', video_id))
	57
	58	media_url = traverse_obj(media_data, ('link', {url_or_none})) or ''
	59	has_watermark = media_url.endswith('-wm.mp4')
	60
	61	formats = [{
	62	'url': media_url,
	63	'ext': 'mp4',
	64	'format_note': 'Watermarked' if has_watermark else None,
65	'preference': -10 if has_watermark else None
66	}] if media_url else []
67
68	if has_watermark:
69	formats.append({
70	'url': media_url.replace('-wm.mp4', '.mp4'),
71	'ext': 'mp4'
72	})
73
74	audio_link = traverse_obj(media_data, ('audio', 'link'))
75	if audio_link:
76	formats.append({
77	'url': audio_link,
78	'ext': 'mp3',
79	'acodec': 'mp3',
80	'vcodec': 'none'
81	})
82
83	return {
84	'id': video_id,
85	'title': (json_ld.get('description') or self._html_search_meta(['og:title'], webpage)
86	or self._html_extract_title(webpage)),
87	'formats': formats,
88	'thumbnail': (media_data.get('thumbnail')
89	or self._html_search_meta(['og:image', 'og:image:secure_url'], webpage)),
90	'description': (media_data.get('description') or json_ld.get('description')
91	or self._html_search_meta(['description', 'og:description'], webpage)),
92	'timestamp': unified_timestamp(media_data.get('publishedAt') or json_ld.get('timestamp')),
93	'view_count': int_or_none(media_data.get('viewsCount') or json_ld.get('view_count')),
94	'like_count': int_or_none(media_data.get('likesCount')),
95	'uploader': traverse_obj(media_data, ('creator', 'firstName')),
96	'uploader_id': traverse_obj(media_data, ('creator', ('uuid', 'nickname')), get_all=False),
97	'categories': traverse_obj(media_data, ('categories', ..., 'name')) or None,
98	'repost_count': int_or_none(media_data.get('sharingCount'))
99	}