]>
Commit | Line | Data |
---|---|---|
1 | import re | |
2 | ||
3 | from .common import InfoExtractor | |
4 | from ..compat import ( | |
5 | compat_str, | |
6 | compat_urlparse, | |
7 | ) | |
8 | from ..utils import ( | |
9 | determine_ext, | |
10 | ExtractorError, | |
11 | int_or_none, | |
12 | parse_iso8601, | |
13 | remove_end, | |
14 | ) | |
15 | ||
16 | ||
17 | class LifeNewsIE(InfoExtractor): | |
18 | IE_NAME = 'life' | |
19 | IE_DESC = 'Life.ru' | |
20 | _VALID_URL = r'https?://life\.ru/t/[^/]+/(?P<id>\d+)' | |
21 | ||
22 | _TESTS = [{ | |
23 | # single video embedded via video/source | |
24 | 'url': 'https://life.ru/t/новости/98736', | |
25 | 'md5': '77c95eaefaca216e32a76a343ad89d23', | |
26 | 'info_dict': { | |
27 | 'id': '98736', | |
28 | 'ext': 'mp4', | |
29 | 'title': 'Мужчина нашел дома архив оборонного завода', | |
30 | 'description': 'md5:3b06b1b39b5e2bea548e403d99b8bf26', | |
31 | 'timestamp': 1344154740, | |
32 | 'upload_date': '20120805', | |
33 | 'view_count': int, | |
34 | } | |
35 | }, { | |
36 | # single video embedded via iframe | |
37 | 'url': 'https://life.ru/t/новости/152125', | |
38 | 'md5': '77d19a6f0886cd76bdbf44b4d971a273', | |
39 | 'info_dict': { | |
40 | 'id': '152125', | |
41 | 'ext': 'mp4', | |
42 | 'title': 'В Сети появилось видео захвата «Правым сектором» колхозных полей ', | |
43 | 'description': 'Жители двух поселков Днепропетровской области не простили радикалам угрозу лишения плодородных земель и пошли в лобовую. ', | |
44 | 'timestamp': 1427961840, | |
45 | 'upload_date': '20150402', | |
46 | 'view_count': int, | |
47 | } | |
48 | }, { | |
49 | # two videos embedded via iframe | |
50 | 'url': 'https://life.ru/t/новости/153461', | |
51 | 'info_dict': { | |
52 | 'id': '153461', | |
53 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве', | |
54 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
55 | 'timestamp': 1430825520, | |
56 | 'view_count': int, | |
57 | }, | |
58 | 'playlist': [{ | |
59 | 'md5': '9b6ef8bc0ffa25aebc8bdb40d89ab795', | |
60 | 'info_dict': { | |
61 | 'id': '153461-video1', | |
62 | 'ext': 'mp4', | |
63 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 1)', | |
64 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
65 | 'timestamp': 1430825520, | |
66 | 'upload_date': '20150505', | |
67 | }, | |
68 | }, { | |
69 | 'md5': 'ebb3bf3b1ce40e878d0d628e93eb0322', | |
70 | 'info_dict': { | |
71 | 'id': '153461-video2', | |
72 | 'ext': 'mp4', | |
73 | 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 2)', | |
74 | 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.', | |
75 | 'timestamp': 1430825520, | |
76 | 'upload_date': '20150505', | |
77 | }, | |
78 | }], | |
79 | }, { | |
80 | 'url': 'https://life.ru/t/новости/213035', | |
81 | 'only_matching': True, | |
82 | }, { | |
83 | 'url': 'https://life.ru/t/%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8/153461', | |
84 | 'only_matching': True, | |
85 | }, { | |
86 | 'url': 'https://life.ru/t/новости/411489/manuel_vals_nazval_frantsiiu_tsieliu_nomier_odin_dlia_ighil', | |
87 | 'only_matching': True, | |
88 | }] | |
89 | ||
90 | def _real_extract(self, url): | |
91 | video_id = self._match_id(url) | |
92 | ||
93 | webpage = self._download_webpage(url, video_id) | |
94 | ||
95 | video_urls = re.findall( | |
96 | r'<video[^>]+><source[^>]+src=["\'](.+?)["\']', webpage) | |
97 | ||
98 | iframe_links = re.findall( | |
99 | r'<iframe[^>]+src=["\']((?:https?:)?//embed\.life\.ru/(?:embed|video)/.+?)["\']', | |
100 | webpage) | |
101 | ||
102 | if not video_urls and not iframe_links: | |
103 | raise ExtractorError('No media links available for %s' % video_id) | |
104 | ||
105 | title = remove_end( | |
106 | self._og_search_title(webpage), | |
107 | ' - Life.ru') | |
108 | ||
109 | description = self._og_search_description(webpage) | |
110 | ||
111 | view_count = self._html_search_regex( | |
112 | r'<div[^>]+class=(["\']).*?\bhits-count\b.*?\1[^>]*>\s*(?P<value>\d+)\s*</div>', | |
113 | webpage, 'view count', fatal=False, group='value') | |
114 | ||
115 | timestamp = parse_iso8601(self._search_regex( | |
116 | r'<time[^>]+datetime=(["\'])(?P<value>.+?)\1', | |
117 | webpage, 'upload date', fatal=False, group='value')) | |
118 | ||
119 | common_info = { | |
120 | 'description': description, | |
121 | 'view_count': int_or_none(view_count), | |
122 | 'timestamp': timestamp, | |
123 | } | |
124 | ||
125 | def make_entry(video_id, video_url, index=None): | |
126 | cur_info = dict(common_info) | |
127 | cur_info.update({ | |
128 | 'id': video_id if not index else '%s-video%s' % (video_id, index), | |
129 | 'url': video_url, | |
130 | 'title': title if not index else '%s (Видео %s)' % (title, index), | |
131 | }) | |
132 | return cur_info | |
133 | ||
134 | def make_video_entry(video_id, video_url, index=None): | |
135 | video_url = compat_urlparse.urljoin(url, video_url) | |
136 | return make_entry(video_id, video_url, index) | |
137 | ||
138 | def make_iframe_entry(video_id, video_url, index=None): | |
139 | video_url = self._proto_relative_url(video_url, 'http:') | |
140 | cur_info = make_entry(video_id, video_url, index) | |
141 | cur_info['_type'] = 'url_transparent' | |
142 | return cur_info | |
143 | ||
144 | if len(video_urls) == 1 and not iframe_links: | |
145 | return make_video_entry(video_id, video_urls[0]) | |
146 | ||
147 | if len(iframe_links) == 1 and not video_urls: | |
148 | return make_iframe_entry(video_id, iframe_links[0]) | |
149 | ||
150 | entries = [] | |
151 | ||
152 | if video_urls: | |
153 | for num, video_url in enumerate(video_urls, 1): | |
154 | entries.append(make_video_entry(video_id, video_url, num)) | |
155 | ||
156 | if iframe_links: | |
157 | for num, iframe_link in enumerate(iframe_links, len(video_urls) + 1): | |
158 | entries.append(make_iframe_entry(video_id, iframe_link, num)) | |
159 | ||
160 | playlist = common_info.copy() | |
161 | playlist.update(self.playlist_result(entries, video_id, title, description)) | |
162 | return playlist | |
163 | ||
164 | ||
165 | class LifeEmbedIE(InfoExtractor): | |
166 | IE_NAME = 'life:embed' | |
167 | _VALID_URL = r'https?://embed\.life\.ru/(?:embed|video)/(?P<id>[\da-f]{32})' | |
168 | ||
169 | _TESTS = [{ | |
170 | 'url': 'http://embed.life.ru/embed/e50c2dec2867350528e2574c899b8291', | |
171 | 'md5': 'b889715c9e49cb1981281d0e5458fbbe', | |
172 | 'info_dict': { | |
173 | 'id': 'e50c2dec2867350528e2574c899b8291', | |
174 | 'ext': 'mp4', | |
175 | 'title': 'e50c2dec2867350528e2574c899b8291', | |
176 | 'thumbnail': r're:http://.*\.jpg', | |
177 | } | |
178 | }, { | |
179 | # with 1080p | |
180 | 'url': 'https://embed.life.ru/video/e50c2dec2867350528e2574c899b8291', | |
181 | 'only_matching': True, | |
182 | }] | |
183 | ||
184 | def _real_extract(self, url): | |
185 | video_id = self._match_id(url) | |
186 | ||
187 | webpage = self._download_webpage(url, video_id) | |
188 | ||
189 | thumbnail = None | |
190 | formats = [] | |
191 | ||
192 | def extract_m3u8(manifest_url): | |
193 | formats.extend(self._extract_m3u8_formats( | |
194 | manifest_url, video_id, 'mp4', | |
195 | entry_protocol='m3u8_native', m3u8_id='m3u8')) | |
196 | ||
197 | def extract_original(original_url): | |
198 | formats.append({ | |
199 | 'url': original_url, | |
200 | 'format_id': determine_ext(original_url, None), | |
201 | 'quality': 1, | |
202 | }) | |
203 | ||
204 | playlist = self._parse_json( | |
205 | self._search_regex( | |
206 | r'options\s*=\s*({.+?});', webpage, 'options', default='{}'), | |
207 | video_id).get('playlist', {}) | |
208 | if playlist: | |
209 | master = playlist.get('master') | |
210 | if isinstance(master, compat_str) and determine_ext(master) == 'm3u8': | |
211 | extract_m3u8(compat_urlparse.urljoin(url, master)) | |
212 | original = playlist.get('original') | |
213 | if isinstance(original, compat_str): | |
214 | extract_original(original) | |
215 | thumbnail = playlist.get('image') | |
216 | ||
217 | # Old rendition fallback | |
218 | if not formats: | |
219 | for video_url in re.findall(r'"file"\s*:\s*"([^"]+)', webpage): | |
220 | video_url = compat_urlparse.urljoin(url, video_url) | |
221 | if determine_ext(video_url) == 'm3u8': | |
222 | extract_m3u8(video_url) | |
223 | else: | |
224 | extract_original(video_url) | |
225 | ||
226 | thumbnail = thumbnail or self._search_regex( | |
227 | r'"image"\s*:\s*"([^"]+)', webpage, 'thumbnail', default=None) | |
228 | ||
229 | return { | |
230 | 'id': video_id, | |
231 | 'title': video_id, | |
232 | 'thumbnail': thumbnail, | |
233 | 'formats': formats, | |
234 | } |