]>
Commit | Line | Data |
---|---|---|
659aa21b | 1 | import re |
add96eb9 | 2 | import urllib.parse |
659aa21b | 3 | |
4 | from .common import InfoExtractor | |
bcb891e8 | 5 | from ..utils import ( |
e5437320 | 6 | ExtractorError, |
e897bd82 | 7 | determine_ext, |
bcb891e8 | 8 | int_or_none, |
e5437320 | 9 | parse_iso8601, |
062a3fdf | 10 | remove_end, |
bcb891e8 | 11 | ) |
659aa21b | 12 | |
13 | ||
14 | class LifeNewsIE(InfoExtractor): | |
5181759c S |
15 | IE_NAME = 'life' |
16 | IE_DESC = 'Life.ru' | |
17 | _VALID_URL = r'https?://life\.ru/t/[^/]+/(?P<id>\d+)' | |
bcb891e8 | 18 | |
848edeab | 19 | _TESTS = [{ |
e7998f59 | 20 | # single video embedded via video/source |
5181759c | 21 | 'url': 'https://life.ru/t/новости/98736', |
e7998f59 | 22 | 'md5': '77c95eaefaca216e32a76a343ad89d23', |
659aa21b | 23 | 'info_dict': { |
e7998f59 | 24 | 'id': '98736', |
bcb891e8 | 25 | 'ext': 'mp4', |
e7998f59 S |
26 | 'title': 'Мужчина нашел дома архив оборонного завода', |
27 | 'description': 'md5:3b06b1b39b5e2bea548e403d99b8bf26', | |
e5437320 | 28 | 'timestamp': 1344154740, |
e7998f59 | 29 | 'upload_date': '20120805', |
e5437320 | 30 | 'view_count': int, |
add96eb9 | 31 | }, |
848edeab | 32 | }, { |
e7998f59 | 33 | # single video embedded via iframe |
5181759c | 34 | 'url': 'https://life.ru/t/новости/152125', |
848edeab YCH |
35 | 'md5': '77d19a6f0886cd76bdbf44b4d971a273', |
36 | 'info_dict': { | |
37 | 'id': '152125', | |
38 | 'ext': 'mp4', | |
39 | 'title': 'В Сети появилось видео захвата «Правым сектором» колхозных полей ', | |
40 | 'description': 'Жители двух поселков Днепропетровской области не простили радикалам угрозу лишения плодородных земель и пошли в лобовую. ', | |
e5437320 | 41 | 'timestamp': 1427961840, |
848edeab | 42 | 'upload_date': '20150402', |
e5437320 | 43 | 'view_count': int, |
add96eb9 | 44 | }, |
07d2921c | 45 | }, { |
e7998f59 | 46 | # two videos embedded via iframe |
5181759c | 47 | 'url': 'https://life.ru/t/новости/153461', |
07d2921c YCH |
48 | 'info_dict': { |
49 | 'id': '153461', | |
07d2921c YCH |
50 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве', |
51 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
e5437320 S |
52 | 'timestamp': 1430825520, |
53 | 'view_count': int, | |
e7998f59 S |
54 | }, |
55 | 'playlist': [{ | |
56 | 'md5': '9b6ef8bc0ffa25aebc8bdb40d89ab795', | |
57 | 'info_dict': { | |
58 | 'id': '153461-video1', | |
59 | 'ext': 'mp4', | |
60 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 1)', | |
61 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
e5437320 | 62 | 'timestamp': 1430825520, |
e7998f59 S |
63 | 'upload_date': '20150505', |
64 | }, | |
65 | }, { | |
66 | 'md5': 'ebb3bf3b1ce40e878d0d628e93eb0322', | |
67 | 'info_dict': { | |
68 | 'id': '153461-video2', | |
69 | 'ext': 'mp4', | |
70 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 2)', | |
71 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
e5437320 | 72 | 'timestamp': 1430825520, |
e7998f59 S |
73 | 'upload_date': '20150505', |
74 | }, | |
75 | }], | |
057ebeac | 76 | }, { |
5181759c S |
77 | 'url': 'https://life.ru/t/новости/213035', |
78 | 'only_matching': True, | |
79 | }, { | |
80 | 'url': 'https://life.ru/t/%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8/153461', | |
81 | 'only_matching': True, | |
82 | }, { | |
83 | 'url': 'https://life.ru/t/новости/411489/manuel_vals_nazval_frantsiiu_tsieliu_nomier_odin_dlia_ighil', | |
057ebeac | 84 | 'only_matching': True, |
848edeab | 85 | }] |
659aa21b | 86 | |
87 | def _real_extract(self, url): | |
5181759c | 88 | video_id = self._match_id(url) |
659aa21b | 89 | |
5181759c | 90 | webpage = self._download_webpage(url, video_id) |
659aa21b | 91 | |
e7998f59 S |
92 | video_urls = re.findall( |
93 | r'<video[^>]+><source[^>]+src=["\'](.+?)["\']', webpage) | |
94 | ||
95 | iframe_links = re.findall( | |
884cdb6c | 96 | r'<iframe[^>]+src=["\']((?:https?:)?//embed\.life\.ru/(?:embed|video)/.+?)["\']', |
e7998f59 S |
97 | webpage) |
98 | ||
99 | if not video_urls and not iframe_links: | |
add96eb9 | 100 | raise ExtractorError(f'No media links available for {video_id}') |
659aa21b | 101 | |
062a3fdf S |
102 | title = remove_end( |
103 | self._og_search_title(webpage), | |
5181759c | 104 | ' - Life.ru') |
659aa21b | 105 | |
106 | description = self._og_search_description(webpage) | |
107 | ||
108 | view_count = self._html_search_regex( | |
e5437320 S |
109 | r'<div[^>]+class=(["\']).*?\bhits-count\b.*?\1[^>]*>\s*(?P<value>\d+)\s*</div>', |
110 | webpage, 'view count', fatal=False, group='value') | |
659aa21b | 111 | |
e5437320 S |
112 | timestamp = parse_iso8601(self._search_regex( |
113 | r'<time[^>]+datetime=(["\'])(?P<value>.+?)\1', | |
114 | webpage, 'upload date', fatal=False, group='value')) | |
659aa21b | 115 | |
848edeab YCH |
116 | common_info = { |
117 | 'description': description, | |
118 | 'view_count': int_or_none(view_count), | |
e5437320 | 119 | 'timestamp': timestamp, |
848edeab YCH |
120 | } |
121 | ||
e7998f59 | 122 | def make_entry(video_id, video_url, index=None): |
848edeab YCH |
123 | cur_info = dict(common_info) |
124 | cur_info.update({ | |
add96eb9 | 125 | 'id': video_id if not index else f'{video_id}-video{index}', |
e7998f59 | 126 | 'url': video_url, |
add96eb9 | 127 | 'title': title if not index else f'{title} (Видео {index})', |
848edeab YCH |
128 | }) |
129 | return cur_info | |
130 | ||
e7998f59 | 131 | def make_video_entry(video_id, video_url, index=None): |
add96eb9 | 132 | video_url = urllib.parse.urljoin(url, video_url) |
e7998f59 S |
133 | return make_entry(video_id, video_url, index) |
134 | ||
135 | def make_iframe_entry(video_id, video_url, index=None): | |
136 | video_url = self._proto_relative_url(video_url, 'http:') | |
137 | cur_info = make_entry(video_id, video_url, index) | |
138 | cur_info['_type'] = 'url_transparent' | |
848edeab | 139 | return cur_info |
fc26f3b4 | 140 | |
e7998f59 S |
141 | if len(video_urls) == 1 and not iframe_links: |
142 | return make_video_entry(video_id, video_urls[0]) | |
143 | ||
144 | if len(iframe_links) == 1 and not video_urls: | |
145 | return make_iframe_entry(video_id, iframe_links[0]) | |
146 | ||
147 | entries = [] | |
148 | ||
149 | if video_urls: | |
150 | for num, video_url in enumerate(video_urls, 1): | |
151 | entries.append(make_video_entry(video_id, video_url, num)) | |
152 | ||
153 | if iframe_links: | |
154 | for num, iframe_link in enumerate(iframe_links, len(video_urls) + 1): | |
155 | entries.append(make_iframe_entry(video_id, iframe_link, num)) | |
156 | ||
157 | playlist = common_info.copy() | |
158 | playlist.update(self.playlist_result(entries, video_id, title, description)) | |
159 | return playlist | |
75427031 S |
160 | |
161 | ||
162 | class LifeEmbedIE(InfoExtractor): | |
163 | IE_NAME = 'life:embed' | |
884cdb6c | 164 | _VALID_URL = r'https?://embed\.life\.ru/(?:embed|video)/(?P<id>[\da-f]{32})' |
75427031 | 165 | |
884cdb6c | 166 | _TESTS = [{ |
75427031 S |
167 | 'url': 'http://embed.life.ru/embed/e50c2dec2867350528e2574c899b8291', |
168 | 'md5': 'b889715c9e49cb1981281d0e5458fbbe', | |
169 | 'info_dict': { | |
170 | 'id': 'e50c2dec2867350528e2574c899b8291', | |
171 | 'ext': 'mp4', | |
172 | 'title': 'e50c2dec2867350528e2574c899b8291', | |
ec85ded8 | 173 | 'thumbnail': r're:http://.*\.jpg', |
add96eb9 | 174 | }, |
884cdb6c S |
175 | }, { |
176 | # with 1080p | |
177 | 'url': 'https://embed.life.ru/video/e50c2dec2867350528e2574c899b8291', | |
178 | 'only_matching': True, | |
179 | }] | |
75427031 S |
180 | |
181 | def _real_extract(self, url): | |
182 | video_id = self._match_id(url) | |
183 | ||
184 | webpage = self._download_webpage(url, video_id) | |
185 | ||
884cdb6c | 186 | thumbnail = None |
75427031 | 187 | formats = [] |
884cdb6c S |
188 | |
189 | def extract_m3u8(manifest_url): | |
190 | formats.extend(self._extract_m3u8_formats( | |
191 | manifest_url, video_id, 'mp4', | |
192 | entry_protocol='m3u8_native', m3u8_id='m3u8')) | |
193 | ||
194 | def extract_original(original_url): | |
195 | formats.append({ | |
196 | 'url': original_url, | |
197 | 'format_id': determine_ext(original_url, None), | |
f983b875 | 198 | 'quality': 1, |
884cdb6c S |
199 | }) |
200 | ||
201 | playlist = self._parse_json( | |
202 | self._search_regex( | |
203 | r'options\s*=\s*({.+?});', webpage, 'options', default='{}'), | |
204 | video_id).get('playlist', {}) | |
205 | if playlist: | |
206 | master = playlist.get('master') | |
add96eb9 | 207 | if isinstance(master, str) and determine_ext(master) == 'm3u8': |
208 | extract_m3u8(urllib.parse.urljoin(url, master)) | |
884cdb6c | 209 | original = playlist.get('original') |
add96eb9 | 210 | if isinstance(original, str): |
884cdb6c S |
211 | extract_original(original) |
212 | thumbnail = playlist.get('image') | |
213 | ||
214 | # Old rendition fallback | |
215 | if not formats: | |
216 | for video_url in re.findall(r'"file"\s*:\s*"([^"]+)', webpage): | |
add96eb9 | 217 | video_url = urllib.parse.urljoin(url, video_url) |
884cdb6c S |
218 | if determine_ext(video_url) == 'm3u8': |
219 | extract_m3u8(video_url) | |
220 | else: | |
221 | extract_original(video_url) | |
222 | ||
884cdb6c | 223 | thumbnail = thumbnail or self._search_regex( |
75427031 S |
224 | r'"image"\s*:\s*"([^"]+)', webpage, 'thumbnail', default=None) |
225 | ||
226 | return { | |
227 | 'id': video_id, | |
228 | 'title': video_id, | |
229 | 'thumbnail': thumbnail, | |
230 | 'formats': formats, | |
231 | } |