spydell
spydell личный блог
08 мая 2022, 10:39

Западные организации банят парсинг экономической информации

Эти скоты из ОЭСР заблочили мой аккаунт, с которого я выгружал массивы статистической информации в контексте того, как Европа деградирует. Чуть ранее бан прилетел от ЕЦБ и МВФ. Про Bloomberg и Reuters даже говорить нечего. Но если с последними это общая политика для всех, то с ЕЦБ, МВФ и ОЭСР, видимо, избирательно для конкретных аккаунтов. Нет проблем создать новые, даже без VPN, однако они будут пустыми.

Западные организации банят парсинг экономической информации


Это были на протяжении более 10 лет настроенные шаблоны выгрузки данных, настроенная и откалиброванная информационная среда, из которой сырые данные (в том числе и через API) поставлялись в собственные инфо-аналитические комплексы для обработки.

Также под бан попали действующий и резервный аккаунт с Yahoo_finance. Но с этими ублюдками сложнее. Там даже VPN и привязка к международному аккаунту не помогает «Sorry, this product is not available in the country where your account was created.»

Инфо-война в полный рост. Вся эта западная мразь считают, что на этом все закончилось? Нет, все только начинается!

***

Помнится несколько лет назад я организовывал «DOS» атаки на сервера Bloomberg и Reuters. Тогда были исключительно благие намерения – зеркалировать/реплицировать их корпоративные базы данных через легальный API доступ в рамках разрешенной информационной инфраструктуры.

Задача состояла в том, чтобы загрузить корпоративные отчеты по всем мировым компаниям за весь период публикации (с 1987 года) по всем корпоративным индикаторам в отчетности Income Statement, Balance Sheet и Cash Flow.

Обработать сверхбольшие массивы информации – нет проблем, к этому собственные технологии обработки данных были готовы. Задача была элегантно выгрузить. Поток запросов был максимально оптимизирован. Однако, тогда я с удивлением обнаружил, что в те времена (2013-2014) Reuters в отличие от Bloomberg практически не было защиты от сверх интенсивных запросов по источникам данных. Первый «транш» данных прошел достаточно быстро, но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых.

Первый запрос не был достаточно оптимизирован. Пока готовил новый блок запросов, доступ к данным ограничивался – скорость обработки запросов резко упала. Ну ок, что поделать, работал с тем, что есть. От нескольких минут, запросы выполнялись за десятки минут. В итоге от глобальной корпоративной базы пришлось ограничиться американской, как наиболее приоритетной. И чем «глубже» работал с данными, тем больше было ограничений на загрузку. В итоге от идеи всех мировых компаний пришлось ограничиться выборкой по крупнейшим. И от идеи всех корпоративных индикаторов собрать лишь ключевые корпоративные индикаторы.

Но дальше был ад – даже небольшие выборки по 40-50 Мб данных выполнялись за несколько часов. А потом, запросы зависали даже для небольшого количества запросов. В итоге от автоматического режима пришлось вернуться практически к ручному. По сути, от 1 Гб данных в начале все вернулось к блоку данных в 2-3 Мб за запрос. Конечно, так корпоративные базы не зеркалируешь. Но я упрямый и продолжал это делать много месяцев по несколько мегабайт. Жаль, что сейчас это все похерелось. Я не был удивлен в подобном, это логично и естественно. Если бы я был системным администратором и видел DOS атаки на корпоративные базы, я бы поступил так же.

Удивило другое, видимо из сотен тысяч пользователей Bloomberg и Reuters только мне пришло в голову реплицировать их корпоративные базы! Иначе не объяснить, что в самом начале лимита на выгрузку практически не было. Все ограничивалось лишь потоком запросов. И ведь ценность Bloomberg и Reuters именно в корпоративных базах, т.к. макроэкономические можно получить практически бесплатно, если немного потрудиться.

Также я предполагал, что лично на мой аккаунт навесили тогда лимиты на загрузку, однако через несколько лет через партнеров по работе, я просил обновить БД на основе моих скриптов. Никак не связанные со мной аккаунты столкнулись с тем, что скорость обновления чудовищно низкая – примерно так, как в самом конце моего сотрудничества с Bloomberg и Reuters, т.е. по несколько Мб за запрос. А ведь в начале я им запустил червя в штаны чуть не на гигабайт залпом. Не знаю, связана ли была моя «DOS» атака с изменением глобальной политики по скачиванию данных с их серверов, однако точно помню, что в начале все было неплохо, а далее адские лимиты.

Сейчас с дата провайдерами все скверно. Практически все коммерческие поставщики данных на официальном уровне разрывают связи с Россией. Но даже государственные и международные это делают – ОЭСР, МВФ, ЕЦБ и другие. Судя по всему, делают это избирательно и подло – все мои аккаунты с настроенным шаблонами заблокированы. Можно создать новые, но это время, много времени, причем все равно это пойдет под блокировку рано или поздно. Ручная работа возможна, но не получится физически поставлять информацию в подобной интенсивности, как раньше.

Но пока работаю с тем, что удалось изъять у них (а в этом плане я безжалостен и забираю все, что можно забрать) и выстраивать инфраструктуру заново.

https://t.me/spydell_finance

34 Комментария
  • Вася Пражкин
    08 мая 2022, 10:46
    но массив данных оказался сверхбольшим – свыше 800 Мб для группы компаний из 500 имен и по ограниченному списку индикаторов – лишь треть от необходимых
    800 МБ — сверхбольшой? 
    • Brassiere
      08 мая 2022, 11:05
      Вася Пражкин, эксель уже не потянет)
  • Сам такой
    08 мая 2022, 11:17
    Вся прелесть свободы информации в деле. 
  • Ухо спекулянта
    08 мая 2022, 11:29
    всех парсеров в БАН!!! много вас понаплодилось кровососов
  • Alexander
    08 мая 2022, 11:45
    Привыкайте, пользуйтесь официальными источниками ММВБ и ЦБ РФ. 
  • Леонид
    08 мая 2022, 12:01
    Кто ещё про демократию и свободу слова «тама» хочет порассуждать? Может, было бы неплохо у нас по такому же принципу шорох навести на гостелевидении, блогеров пошерстить… только вот работать будет почти некому… большая часть из них прошла курсы «как нужно любить Запад в десяти частях». В первой части написано как нужно ненавидеть Россию.
  • GOLD
    08 мая 2022, 12:08
    Для получения кошерного IP можно арендовать виртуальную машину на территории, контролируемой еврейскими банкирами — США, Евросоюз.

    Я так и делаю. С доступом во все дыры нет никаких проблем.
    • Григорий
      08 мая 2022, 12:57
      $100, идея неплоха.
    • Сергей В
      08 мая 2022, 14:24
      $100, он же пишет что смотрят по изначальному IP регистрации, теперь только если заново регаться из под машин новых или впн
  • Алексей
    08 мая 2022, 12:13
    DOS Атаки это звучит))) примерно как блюпуп с фрэшкой)) 
  • Григорий
    08 мая 2022, 12:56
    Крутой чел, нечего сказать
  • Capasian
    08 мая 2022, 13:39
    А из EDGAR Комиссии по ценным бумагам выгрузку нельзя сделать? Вроде как в машиночитаемом виде там все отчёты есть
  • b@e
    08 мая 2022, 14:53
    ТС с нами с 5 мая и такой пафосный текст!
    • jaśnie wielmożny pan Szczur
      08 мая 2022, 15:58
      b@e, это с нами с 5мая, а так-то Паша лет 15 уже тарахтит, если не больше))
    • Среднеброд
      09 мая 2022, 15:19
      b@e, уже давно читаю в других местах.
  • Виталий
    08 мая 2022, 16:38
    Следим за вашими армагеддон постами.
    Продолжайте
  • Раиль
    08 мая 2022, 17:43
    Зачем заниматься ерундой! Выгружаете массивы данных с лживых вражеских источников. 
    Выгружайте с проверенных: ВестиРу, СоловьевЛайв, Царьград — там вам все объяснят без всяких выгрузок.
    Государство вас вырастило, выкормило, а у вас никакой благодарности, все лезете не туда. Сталина на вас нет, он бы вас только за одно желание выгружать отправил на лес валить как врага народа
  • Roman Resner
    08 мая 2022, 19:48
    Че когда Армагеддон?
  • От чего такая бавовна? Прям сразу мрази. Там люди, их можно понять. Тоже читали, верили и ждали апокалипсис, но поняли с кем имеют дело и «привязали к спинкам коек».
  • Игорь К
    09 мая 2022, 04:18
    у меня yahoo!finance работает и есть не просит. Специально пошёл проверил, потому что я в основном виджетом их приложения пользуюсь и он не отваливался (только зелёный цвет давно не показывал)
  • Cat_in_heaven
    09 мая 2022, 07:50
    У большого дядьки халява кончилась — об этом страх и ненависть в Лас-вегасе?
  • Stanis
    09 мая 2022, 09:39
    Да, действительно.
    Бавовна пришла и сюда…
  • gambler09
    09 мая 2022, 11:25
    и поделом забанили! этот профессиональный манипулятор сам всех моментально банит за любую критику. Да даже у Мартынова тут нет аргументов в спорах.
  • xSVPx
    09 мая 2022, 20:34
    Вы что-то не так делаете.
    Сливать надо сырые данные, обрабатывать потом самостоятельно.
    А что чем сложнее запросы тем медленнее — это норма.
    Если доступ относительно открыт, то сливайте используя сотни или тысячи аккаунтов и ip. Делов то…
  • xSVPx
    09 мая 2022, 20:37
    Ps. 800мб — это не данные — это слёзы.
    Сверхбольших это даже не 800тб...
    Собирал куда как более простые вещи и там получались терабайты данных. А до обезжиривания десятки терабайт.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн