Блог им. IvanSmart

Подскажите где взять данные для разработки алгоритма?

Хочу написать робота для торговле на Фондовом рынке (акции, хотя это не важно). Вопрос уткнулся в получение исторических данных, на которых можно выполнять тестирование  алгоритма.

Конечно, я хочу получить максимально детальные данные: тиковые данные + если получится L1 и лог заявок.

Кто- то может посоветовать обратиться к серверу Finam, но я сравнивал его данные с информацией от биржи ММВБ (у меня куплены все данные ММВБ с 2000 до 2012 года включительно), так они различаются между собой.

Насколько я понял выгрузки из терминалов позволяют получить информацию только за последний день (или чуть больше). Так что тоже не вариант.

Может есть какие- то места, где можно поменяться историческими данными?

Есть какие- то способы получения детальных исторических данных?
41 комментарий
реальные только с квика
avatar
Чужой, может у кого- то как и у меня есть данные с самой биржи. Уж там реальней некуда: все остальные брокеры являются потребителями этих данных.
avatar
www.finam.ru/profile/moex-akcii/gazprom/export/
качаешь потом склеиваешь в обычном вордпаде на компе
cntrl-a выделить все
avatar
ves2010, у Финама данные специально подменены. Например, я взял самую большую сделку по акции ALRS за 12 лет (по данным биржи ММВБ) и посмотрел ее же значения у Финама. У последних количество было занижено в 10 раз (а остальные параметры- номер транзакции, дата, время и цена совпадали)! Это не случайный глюк Финама, поскольку операция была уникальна (самая крупная сделка по акции за 12 лет).
avatar
Иван Смарт, занижение в 10 раз — это объем в лотах, а не штуках

avatar
ves2010, тогда почему все остальные сделки не отличаются по количеству в 10 раз? :)
avatar
Иван Смарт, значит сделка была проведена на внебирже и ее потом добавили к объему
avatar
ves2010, данные по переговорным сделкам на тот момент были представлены в отдельном файле. И раз эта сделка не попала в файл с переговорными сделками, значит она была обычной.
avatar
Иван Смарт, дату скажи посмотрю
avatar
ves2010, привожу данные «как есть»  из обоих текстовых файлов. Данные биржи ММВБ были скачаны у них по- месячно, а данные Финам загружены подневно с помощью S# Data (тикер и дата задаются с помощью названия каталога и файла):
ММВБ (№ транзации, дата, время, тикер, цена, количество, сумма, тип, инициатор сделки): 1929706081;06.12.2012;16:42:10;ALRS;EQBR;25,95;15200000;394440000;;B
ФИНАМ (время, сдвижка времени, № транзакции, цена, количество): 124210000;+04:00;1929706081;25.95;1520000;;;
avatar
Иван Смарт, я посмотрел терминале айтикепитал… у нет там никакого рекордного объема… 1 500 000 за день
avatar
ves2010, ну, у Финама данные легко загружаются с их сайта (можно даже никакую S#Data не устанавливать): алроса. Объем получается 15.815.900 за день. А по данным биржи ММВБ еще в 10 раз больше.
avatar
ves2010, а можно узнать с какой периодичностью вы посмотрели? Ведь брокеры не хранят старые данные детально, поэтому это была информация агрегировання подневно?
avatar
Иван Смарт, я на дневках смотрел… у своего брокера… у которгого не квик и у которого свои данные
имхо биржа накосячила
avatar
ves2010, 2 раза по одной сделке накосячила? Сначала свои файлы неверно сформировала, а потом еще передала неверную (причем другую!) инфу Финаму (который сохранил ее у себя)?
В файлах ММВБ указана сумма, которая подтверждает их количество: если бы это была случайная ошибка, то по сумме и цене получалось бы другое количество.
avatar
а что, разве ММВБ больше не продает? или слишком дорого?
avatar
alexKa, я смотрел пару лет назад новые расценки биржи ММВБ (может за это время что- то изменилось), так за каждый месяц надо было платить порядка 5 т.р. Т.е. за 9 недостающих лет надо отдать примерно 500 тыр.
avatar
alexKa, нашел у них на сайте текущие расценки: www.moex.com/ru/orders?historicaldata Только сделки по 1 инструменту за год будут стоить 15 тыр, а за 9 лет- 135 тыр.
avatar
Иван Смарт, Должен сказать, что раньше у биржи РТС был бесплатный ftp сервер, где лежали данные торгов, они там каждый день обновлялись. Потом ртс как то под влияние ммвб перешел, и этот сервер прикрыли. Можете на всякий случай проверить, может быть там еще есть какие то данные.
avatar
alexKa, на бирже ММВБ в те времена были маленькие объемы. Думаю на РТС было тоже самое. Так что данные если и есть, то очень «разреженные».
avatar
не тратьте свое время на этой этой якобы значимой для вас задаче — поиске качественных биржевых данных, сосредоточьтесь на другой. фишка не в качестве данных, а в качестве алгоритма. 
avatar
Alex Maroudas, в биг.дата давно всеми признан один тезис: мусор на входе- мусор на выходе. Если вы возьмете кривые данные, то с их помощью просто не сможете ничего предсказать.
В ваших словах есть зерно истины (надо исходить из того, что есть), но я все же лелею надежду, что найдутся люди, которые захотят поменяться качественными данными между собой.
avatar
Иван Смарт, давайте меняться? С моей стороны тузла которая тянет с фтп архивы, распаковывает их и конвертирует в человеческий формат..
А нужен календарь срочного рынка по всем тикерам которые там есть. Дата начала торгов — дата окончания торгов. В любом виде, можно в *txt
avatar
Andrew Morozov, спасибо за предложение. Скажите, пожалуйста, какого качества ваши данные (т.е. что за ftp- сервер использует ваша утилита)?
avatar
Иван Смарт, фтп цериха. Данные plaza2.
avatar
Andrew Morozov, спасибо за ответ. Я ниже уже описал свое отношение к данным от Цериха: это данные по фьючерсам за последние 120 дней торгов. Поэтому сейчас эти данные мне неинтересы.
avatar
ftp.zerich.com года три есть ордер логи и тики. Больше ничего в с свободном доступе не найти. Геморно распаковывать, но данные достойного качества.
avatar
Andrew Morozov, спасибо, но там данные по фьючерсам (и только за последний 120- дневный период). Пока я думаю, что проще разобраться с обычными инструментами и только потом переходить к производным. Хотя, если не будет качественной информации, то возможно придется сразу разбираться с логикой производных инструментов.
avatar
Иван Смарт, давно туда сам не заглядывал, раньше было больше… Есть ещё один сайт, который эту информацию предоставляют, там точно есть акции, но данные дырявые, записаны с апи смартсом. Это соединение иногда рвётся.
avatar
Andrew Morozov, можете дать ссылку на сайт с «дырявыми» данными?
avatar
Иван Смарт, ну как бы вы не правы. Зашёл на фтп цериха, архивы лежат с 2014 года до января 2021.
Как то так.
avatar
Andrew Morozov, под словами «за последний 120- дневный период» я подразумевал, что представлены только те фьючерсы, у которых до даты экспирации (так насколько помню это называется) остатеся не более 120 дней.
Другими словами, данные действительно за несколько лет, но их состав «жиденький».
avatar
Иван Смарт, во всех квартальных фьючах дальше 120 до экспирации тьма, туман и волки воютъ. Если вы не собираетесь торговать календарные спреды, то фьюч нужен только последний на текущий момент.
avatar
Ордер логи (до 2021) : https://ftp.zerich.com/pub/Terminals/QScalp/History/ 
Тиковые данные, OI, стаканы: http://erinrv.qscalp.ru/
Минутки: Финам и его рукожопые пограммисты.

По поводу Финама: не надо использовать их склейки фьючей. Там и сама поклейка косая и бывают странные баги далеко от экспирации. Качаете отдельные фьючи и клеите сами. На bash можно основную рутину автоматизировать, без особого программизма. Заполнение пустых баров ни в коем случае не использовать с Финама — оно вперед заглядывает.

Если сравнивать erinrv.qscalp и Финам/фьючи/M1 — у Финама данные полнее, на qscalp случаются выпадения по полдня, причем как правило по всем тикерам (сервер навернулся, гы :)

По поводу акции vs деривативы: фьюч можно рассматривать как копию базового актива, только накладные расходы меньше. Для шорта — эпически меньше. Из всех хитромудростей достаточно помнить про экспирацию, остальное — необязательные детали.
avatar
Кирилл Гудков, гы. Видел моменты, когда там сервер часов в 11 утра уже лёг спать. erinrv. qscalp имею в виду.
avatar
Andrew Morozov, вот например крупные пропуски (минутные бары, больше 10 мин за день), на примере фьюча SBRF (по остальным примерно так же будет):

SBRF-18\03 2018\01\19 66
SBRF-18\03 2018\02\08 782
SBRF-18\06 2018\05\16 171
SBRF-18\06 2018\06\08 765
SBRF-18\09 2018\08\15 327
SBRF-18\09 2018\09\12 10
SBRF-18\12 2018\09\26 11
SBRF-18\12 2018\10\05 24
SBRF-18\12 2018\11\06 13
SBRF-18\12 2018\11\21 587
SBRF-18\12 2018\11\29 709
SBRF-19\09 2019\07\31 230
SBRF-19\09 2019\09\11 279
SBRF-19\12 2019\10\30 96
SBRF-19\12 2019\11\06 526
SBRF-19\12 2019\11\26 787
SBRF-20\03 2019\12\25 70
SBRF-20\03 2020\01\13 746
SBRF-20\06 2020\05\18 444
SBRF-20\06 2020\06\15 172
SBRF-20\06 2020\06\16 739
SBRF-20\09 2020\07\08 793
SBRF-20\09 2020\07\09 651
SBRF-20\09 2020\07\10 809
SBRF-20\09 2020\09\15 266
SBRF-20\09 2020\09\16 218
SBRF-20\12 2020\10\07 47
SBRF-20\12 2020\10\20 745
SBRF-20\12 2020\10\21 784
SBRF-20\12 2020\11\05 799
SBRF-20\12 2020\11\09 146
SBRF-20\12 2020\12\15 15
SBRF-21\03 2021\02\26 295
SBRF-21\03 2021\03\01 168
SBRF-21\03 2021\03\02 174
SBRF-21\03 2021\03\03 175
SBRF-21\03 2021\03\04 174
SBRF-21\03 2021\03\05 175
SBRF-21\03 2021\03\10 404
SBRF-21\06 2021\04\12 476
SBRF-21\06 2021\04\14 483
SBRF-21\06 2021\05\17 188
SBRF-21\09 2021\06\24 375
SBRF-21\09 2021\06\30 168
SBRF-21\09 2021\07\06 214
SBRF-21\09 2021\08\16 92
SBRF-21\09 2021\09\13 27
SBRF-21\12 2021\09\27 11

avatar
Кирилл Гудков, согласен что тики лучше у Финами, но стаканов кроме как на erinrv.qscalp.ru я нигде не нашел. Стаканы, кстати случаются кривые или неполные, но редко.
avatar
Andrew Morozov, с 08 по 18 октября вообще все данные пропустили ((( Я написал письмо Морошкину, он сказал что к сайту erinrv.qscalp.ru отношения не имеет, но владельцу передаст.
avatar
Ни Морошкин, ни Ерин, оба ни при чём. Кривой смартсом. Хотя если бы Ерин постоянно мониторил соединение, все было в порядке, по крайней мере с тиками. Но я думаю что оно ему сильно не надо, уделять столько времени на поддержку базы данных, доступной на халяву всем желающим.
avatar
Особенно сильно смартком виноват за то, что сплитнутый GMKN забыли перенастроить. Уж скоро год как на erinrv нет фьюча Норникеля.
avatar
Кирилл Гудков, ну, этим же занимается надо.)) Особенно жаль на этом фоне, что церих прекратил
обновлять свою базу. Там я пропусков в данных не видел. Хотя спасибо, что их фтп опять доступен.
avatar

теги блога Иван Смарт

....все тэги



UPDONW
Новый дизайн