Западные организации банят парсинг экономической информации

Эти скоты из ОЭСР заблочили мой аккаунт, с которого я выгружал массивы статистической информации в контексте того, как Европа деградирует. Чуть ранее бан прилетел от ЕЦБ и МВФ. Про Bloomberg и Reuters даже говорить нечего. Но если с последними это общая политика для всех, то с ЕЦБ, МВФ и ОЭСР, видимо, избирательно для конкретных аккаунтов. Нет проблем создать новые, даже без VPN, однако они будут пустыми.

Это были на протяжении более 10 лет настроенные шаблоны выгрузки данных, настроенная и откалиброванная информационная среда, из которой сырые данные (в том числе и через API) поставлялись в собственные инфо-аналитические комплексы для обработки.

Также под бан попали действующий и резервный аккаунт с Yahoo_finance. Но с этими ублюдками сложнее. Там даже VPN и привязка к международному аккаунту не помогает «Sorry, this product is not available in the country where your account was created.»

Инфо-война в полный рост. Вся эта западная мразь считают, что на этом все закончилось? Нет, все только начинается!

***

Помнится несколько лет назад я организовывал «DOS» атаки на сервера Bloomberg и Reuters. Тогда были исключительно благие намерения – зеркалировать/реплицировать их корпоративные базы данных через легальный API доступ в рамках разрешенной информационной инфраструктуры.

Задача состояла в том, чтобы загрузить корпоративные отчеты по всем мировым компаниям за весь период публикации (с 1987 года) по всем корпоративным индикаторам в отчетности Income Statement, Balance Sheet и Cash Flow.

Обработать сверхбольшие массивы информации – нет проблем, к этому собственные технологии обработки данных были готовы. Задача была элегантно выгрузить. Поток запросов был максимально оптимизирован. Однако, тогда я с удивлением обнаружил, что в те времена (2013-2014) Reuters в отличие от Bloomberg практически не было защиты от сверх интенсивных запросов по источникам данных. Первый «транш» данных прошел достаточно быстро, но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых.

Первый запрос не был достаточно оптимизирован. Пока готовил новый блок запросов, доступ к данным ограничивался – скорость обработки запросов резко упала. Ну ок, что поделать, работал с тем, что есть. От нескольких минут, запросы выполнялись за десятки минут. В итоге от глобальной корпоративной базы пришлось ограничиться американской, как наиболее приоритетной. И чем «глубже» работал с данными, тем больше было ограничений на загрузку. В итоге от идеи всех мировых компаний пришлось ограничиться выборкой по крупнейшим. И от идеи всех корпоративных индикаторов собрать лишь ключевые корпоративные индикаторы.

Но дальше был ад – даже небольшие выборки по 40-50 Мб данных выполнялись за несколько часов. А потом, запросы зависали даже для небольшого количества запросов. В итоге от автоматического режима пришлось вернуться практически к ручному. По сути, от 1 Гб данных в начале все вернулось к блоку данных в 2-3 Мб за запрос. Конечно, так корпоративные базы не зеркалируешь. Но я упрямый и продолжал это делать много месяцев по несколько мегабайт. Жаль, что сейчас это все похерелось. Я не был удивлен в подобном, это логично и естественно. Если бы я был системным администратором и видел DOS атаки на корпоративные базы, я бы поступил так же.

Удивило другое, видимо из сотен тысяч пользователей Bloomberg и Reuters только мне пришло в голову реплицировать их корпоративные базы! Иначе не объяснить, что в самом начале лимита на выгрузку практически не было. Все ограничивалось лишь потоком запросов. И ведь ценность Bloomberg и Reuters именно в корпоративных базах, т.к. макроэкономические можно получить практически бесплатно, если немного потрудиться.

Также я предполагал, что лично на мой аккаунт навесили тогда лимиты на загрузку, однако через несколько лет через партнеров по работе, я просил обновить БД на основе моих скриптов. Никак не связанные со мной аккаунты столкнулись с тем, что скорость обновления чудовищно низкая – примерно так, как в самом конце моего сотрудничества с Bloomberg и Reuters, т.е. по несколько Мб за запрос. А ведь в начале я им запустил червя в штаны чуть не на гигабайт залпом. Не знаю, связана ли была моя «DOS» атака с изменением глобальной политики по скачиванию данных с их серверов, однако точно помню, что в начале все было неплохо, а далее адские лимиты.

Сейчас с дата провайдерами все скверно. Практически все коммерческие поставщики данных на официальном уровне разрывают связи с Россией. Но даже государственные и международные это делают – ОЭСР, МВФ, ЕЦБ и другие. Судя по всему, делают это избирательно и подло – все мои аккаунты с настроенным шаблонами заблокированы. Можно создать новые, но это время, много времени, причем все равно это пойдет под блокировку рано или поздно. Ручная работа возможна, но не получится физически поставлять информацию в подобной интенсивности, как раньше.

Но пока работаю с тем, что удалось изъять у них (а в этом плане я безжалостен и забираю все, что можно забрать) и выстраивать инфраструктуру заново.

https://t.me/spydell_finance

датафид

spydell_finance

spydell

Москва

366

17 669

с 5 мая 2022

34 Комментария

Вася Пражкин
08 мая 2022, 10:46
но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых
800 МБ — сверхбольшой?
+1
- Brassiere
  08 мая 2022, 11:05
  Вася Пражкин, эксель уже не потянет)
  0
Сам такой
08 мая 2022, 11:17
Вся прелесть свободы информации в деле.
+2
Ухо спекулянта
08 мая 2022, 11:29
всех парсеров в БАН!!! много вас понаплодилось кровососов
+6
Alexander
08 мая 2022, 11:45
Привыкайте, пользуйтесь официальными источниками ММВБ и ЦБ РФ.
+1
Леонид
08 мая 2022, 12:01
Кто ещё про демократию и свободу слова «тама» хочет порассуждать? Может, было бы неплохо у нас по такому же принципу шорох навести на гостелевидении, блогеров пошерстить… только вот работать будет почти некому… большая часть из них прошла курсы «как нужно любить Запад в десяти частях». В первой части написано как нужно ненавидеть Россию.
+4
GOLD
08 мая 2022, 12:08
Для получения кошерного IP можно арендовать виртуальную машину на территории, контролируемой еврейскими банкирами — США, Евросоюз.

Я так и делаю. С доступом во все дыры нет никаких проблем.
+8
- Григорий
  08 мая 2022, 12:57
  $100, идея неплоха.
  0
- Сергей В
  08 мая 2022, 14:24
  $100, он же пишет что смотрят по изначальному IP регистрации, теперь только если заново регаться из под машин новых или впн
  0
Алексей
08 мая 2022, 12:13
DOS Атаки это звучит))) примерно как блюпуп с фрэшкой))
+6
- Ухо спекулянта
  08 мая 2022, 12:17
  Алексей,
  0
- Ухо спекулянта
  08 мая 2022, 12:24
  Алексей, наш человек ))) хакер с пелёнок ёпть ))
  +1
- Доктор
  08 мая 2022, 19:40
  Алексей, блютуч на юэсби
  0
Григорий
08 мая 2022, 12:56
Крутой чел, нечего сказать
0
Capasian
08 мая 2022, 13:39
А из EDGAR Комиссии по ценным бумагам выгрузку нельзя сделать? Вроде как в машиночитаемом виде там все отчёты есть
0
b@e
08 мая 2022, 14:53
ТС с нами с 5 мая и такой пафосный текст!
+2
- jaśnie wielmożny pan Szczur
  08 мая 2022, 15:58
  b@e, это с нами с 5мая, а так-то Паша лет 15 уже тарахтит, если не больше))
  +2
- Среднеброд
  09 мая 2022, 15:19
  b@e, уже давно читаю в других местах.
  0
Виталий
08 мая 2022, 16:38
Следим за вашими армагеддон постами.
Продолжайте
0
Раиль
08 мая 2022, 17:43
Зачем заниматься ерундой! Выгружаете массивы данных с лживых вражеских источников.
Выгружайте с проверенных: ВестиРу, СоловьевЛайв, Царьград — там вам все объяснят без всяких выгрузок.
Государство вас вырастило, выкормило, а у вас никакой благодарности, все лезете не туда. Сталина на вас нет, он бы вас только за одно желание выгружать отправил на лес валить как врага народа
+4
Roman Resner
08 мая 2022, 19:48
Че когда Армагеддон?
0
Рамиль Ульмасбаев
08 мая 2022, 21:57
От чего такая бавовна? Прям сразу мрази. Там люди, их можно понять. Тоже читали, верили и ждали апокалипсис, но поняли с кем имеют дело и «привязали к спинкам коек».
0
Игорь К
09 мая 2022, 04:18
у меня yahoo!finance работает и есть не просит. Специально пошёл проверил, потому что я в основном виджетом их приложения пользуюсь и он не отваливался (только зелёный цвет давно не показывал)
0
Cat_in_heaven
09 мая 2022, 07:50
У большого дядьки халява кончилась — об этом страх и ненависть в Лас-вегасе?
+1
Stanis
09 мая 2022, 09:39
Да, действительно.
Бавовна пришла и сюда…
0
gambler09
09 мая 2022, 11:25
и поделом забанили! этот профессиональный манипулятор сам всех моментально банит за любую критику. Да даже у Мартынова тут нет аргументов в спорах.
0
xSVPx
09 мая 2022, 20:34
Вы что-то не так делаете.
Сливать надо сырые данные, обрабатывать потом самостоятельно.
А что чем сложнее запросы тем медленнее — это норма.
Если доступ относительно открыт, то сливайте используя сотни или тысячи аккаунтов и ip. Делов то…
0
xSVPx
09 мая 2022, 20:37
Ps. 800мб — это не данные — это слёзы.
Сверхбольших это даже не 800тб...
Собирал куда как более простые вещи и там получались терабайты данных. А до обезжиривания десятки терабайт.
0