Решил покопаться в парсинге и сантиментах. То бишь пишем код, который цепляется к какому то сайту, выкачивает оттуда новости, а затем на ее основе делаем сантимент анализ и строим какие то прогнозы. Полистал иностранную литературу (на русском ничего не нашел, если у кого есть ссылки — кидайте), и нашел 2 схемы оценки сантиментов для фондовых рынков. Первое это
Natural Language Processing, которые на основе ЛИНГВИСТИЧЕСКОГО анализа оценивают текст — позитивный он, негативный, или нейтральный. Вторая схема — когда ты читаешь новости и вручную ставишь лейблы — позитивные это новости для фондового (или какой то конкретной бумажки) или негативные. А затем векторизация и уже на новых новостях железный болван ставит лейблы сам. Из прочитанного мною, нигде в заключении вроде не писали о каких то позитивных результатах, но чтобы не стоять на месте и узнать что, то новое, разобрать эту тему все равно будет полезно.
Все что я пишу очень сыро и пишу в том числе чтобы самому структурировать для себя эту новую тему и получить отклик от людей которые этим занимались.
Какие вижу траблы — во первых все найденные коды для анализа новостей на английском, а торгую я на отечественной бирже. А заниматься хочется именно чем то прикладным, хотя бы гипотетически полезным. Есть на пайтоне библиотека dostoevsky, работающая с русским языком, но поставить мне ее не получилось. Во вторых — откуда скачивать финансовые новости? Я принципиально не читаю новости, так как не хочу вносить хаос в свой уютный внутренний мир алготрейдера сопли, хейт, балобольство внешнего мира. Поэтому так сразу и не скажу откуда можно выкачать какой то длинный архив новостей касающийся отечественных компаний. Если кто в курсе — подсказывайте.
100% работает!
все думают одинаково и логично, а потом большинство сливает
если бы все были в плюсе, значит аналитики не врут
Мне кажется, задача неподъемная для одного человека. Собрать нормальный датасет будет сложно.
Положительный выхлоп под большим вопросом. Видел пару соревнований, где была макетдата и новости — выйгрышные решения новости не использовали. Новости сильно отстают по времени, даже для супер специальных источников. А вы скорее сможете использовать что-то страшно казуальное, так как не потянете подписку на платные фиды с оперативными новостными потоками.
Наиболее известная библиотека для русского NLP deep pavlov.
В 2020 году Тесла сделала капитализацию х7 за год.
Аналогичная фигня с Джеком Ма и со Стивом Джобсом. Между экстазом в новостных лентах и стабильными иксами в год по капитализации — проходили годы.
Это просто для общего понимания горизонтов инвестирования по новостному фону.
Второй вопрос, окупает ли это добавочное велью затраты на сбор данных и построение NLP модели для извлечение этого велью.
Добавочное велью в направленных моделях, если и есть всегда очень невелико. Издержки построения модели для крупного фонда наверное незначительны, так как он и так имеет все необходимые фиды с нвостями. Для физика они на мой взгляд совершенно неподъемны.
Скриптов не сохранилось. Осталось только вышеозначенное мнение.
При этом у меня большое сомнение, что сентимент который что-то формирует на долго не будет виден в маркет дате — динамике цен, объемов, открытых интересов в производных инструментах и т.д.
Маркет дату для физика получать не сложно. Даже достаточно сложные DL модели на маркет дате можно вертеть на достаточно простом компе.
Получить хорошие данные для NLP моделей непросто даже в нефинансовой сфере, где люди часто объединяются всем миром и создают специальные общественные датасеты.
Нормальные NLP модели очень тяжелые, для них нужны специальные компьютеры.
С учетом этого имхо, для физика это все не сильно доступно с прикладной точки зрения извлечения дополнительного дохода. Для интеллектуального развлечения — почему бы и нет.
Еще есть варинт попроще, но наверное с вашим брокером не прокатит, у ИБ все мелкие новости имеют уже уровень сентимента или рейтинг, не знаю как они его считают, вот можно на нем попробовать, а уж русские или не русские компании брать, мне кажется это дело 10е )