Марат
Марат личный блог
19 января 2021, 09:08

NLP, сантименты, фондовый рынок.

Решил покопаться в парсинге и сантиментах. То бишь пишем код, который цепляется к какому то сайту, выкачивает оттуда новости, а затем на ее основе делаем сантимент анализ и строим какие то прогнозы. Полистал иностранную литературу (на русском ничего не нашел, если у кого есть ссылки — кидайте), и нашел 2 схемы оценки сантиментов для фондовых рынков. Первое это Natural Language Processing, которые на основе ЛИНГВИСТИЧЕСКОГО анализа оценивают текст — позитивный он, негативный, или нейтральный.  Вторая схема — когда ты читаешь новости и вручную ставишь лейблы — позитивные это новости для фондового (или какой то конкретной бумажки) или негативные. А затем векторизация и уже на новых новостях железный болван ставит лейблы сам. Из прочитанного мною, нигде в заключении вроде не писали о каких то позитивных результатах, но чтобы не стоять на месте и узнать что, то новое, разобрать эту тему все равно будет полезно.
Все что я пишу очень сыро и пишу в том числе чтобы самому структурировать для себя эту новую тему и получить отклик от людей которые этим занимались.
Какие вижу траблы — во первых все найденные коды для анализа новостей на английском, а торгую я на отечественной бирже. А заниматься хочется именно чем то прикладным, хотя бы гипотетически полезным. Есть на пайтоне библиотека dostoevsky, работающая с русским языком, но поставить мне ее не получилось. Во вторых — откуда скачивать финансовые новости? Я принципиально не читаю новости, так как не хочу вносить хаос в свой уютный внутренний мир алготрейдера сопли, хейт, балобольство внешнего мира. Поэтому так сразу и не скажу откуда можно выкачать какой то длинный архив новостей касающийся отечественных компаний. Если кто в курсе — подсказывайте. 
 
27 Комментариев
  • Pringles
    19 января 2021, 09:11
    посмотреть рекомендации аналитиков и сделать наоборот )))
      • Pringles
        19 января 2021, 09:51
        Марат, 
        100% работает!
        все думают одинаково и логично, а потом большинство сливает
        если бы все были в плюсе, значит аналитики не врут 
  • Тимофей Мартынов
    19 января 2021, 09:14
    Не самый быстрый способ обогащения на рынке ты выбрал
    • Андрей К
      19 января 2021, 09:43
      Тимофей Мартынов, а ты знаком с таким опытом? пришел и сразу зарубил тему. А было интересно
      • Тимофей Мартынов
        19 января 2021, 10:28
        Андрей К, ну почему сразу зарубил то)
  • Михаил
    19 января 2021, 09:24

    Мне кажется, задача неподъемная для одного человека. Собрать нормальный датасет будет сложно.

    Положительный выхлоп под большим вопросом. Видел пару соревнований, где была макетдата и новости — выйгрышные решения новости не использовали. Новости сильно отстают по времени, даже для супер специальных источников. А вы скорее сможете использовать что-то страшно казуальное, так как не потянете подписку на платные фиды с оперативными новостными потоками. 

    Наиболее известная библиотека для русского NLP deep pavlov.

    • Андрей К
      19 января 2021, 09:45
      Михаил, так слово сантимент вроде как говорит о том, что тут скорость не нужна. То что отстают, не так страшно
      • Михаил
        19 января 2021, 09:50
        Андрей К, реакция на информацию обычно очень быстрая. Если вы данные о новостях получаете с сильной задержкой, то вся информация уже будет в ценах. Цены анализировать гораздо проще, чем построить нормальную NLP модель. 
        • Kolya Marketolog
          19 января 2021, 10:14
          Михаил, «торговля на фундаменте» — это не скальпинг памп-энд-дампов, это долгосрочные стратегии, на годы, не менее. Когда Илон вошел в рынок с Теслой, первая волна новостей была весьма скептической. По мере входа в рынок Родстера и заявления планов на новые модели, общий фон комментариев «теплел», а когда Илон заявил свои амбиции войти в список крупнейших мировых производителей — новостные ленты бились в экстазе. Это было в начале 2016 года, на анонсе Модел3.
          В 2020 году Тесла сделала капитализацию х7 за год.
          Аналогичная фигня с Джеком Ма и со Стивом Джобсом. Между экстазом в новостных лентах и стабильными иксами в год по капитализации — проходили годы.

          Это просто для общего понимания горизонтов инвестирования по новостному фону.
          • Михаил
            19 января 2021, 10:30
            Kolya Marketolog, ключевой вопрос — добавляет ли новостной фон какое-нибудь велью по сравнению просто с наблюдением за котировками, объемами сделок, открытым интересом по опционами и фьючерсами и другой маркет датой. У меня большое сомнение, что новости могут чего-то предсказать на много лет вперед, что не будет видно в маркет дате. 

            Второй вопрос, окупает ли это добавочное велью затраты на сбор данных и построение NLP модели для извлечение этого велью. 

            Добавочное велью в направленных моделях, если и есть всегда очень невелико. Издержки построения модели для крупного фонда наверное незначительны, так как он и так имеет все необходимые фиды с нвостями. Для физика они на мой взгляд совершенно неподъемны. 

              • Андрей К
                19 января 2021, 11:35
                Марат, в эшелонах обычно новости держат до последнего (кроме как вход нового крупного акционера, здесь утаить нельзя по закону), так как там сложно войти. Входят долго и муторно на внебиржевом рынке. Потом вбрасывается новость, когда уже входить поздно
              • Sergey_B
                19 января 2021, 15:00
                Марат,  тоже пытался смотреть в этом направлении. Пришел к выводу, что, в паре инфошум и цена, цена первична. Объем информационного шума сильно коррелирует с волатильностью.
                  • Sergey_B
                    21 января 2021, 13:38
                    Марат, в 2007-м это было. Пытался смотреть ленту аналитики и комментариев Финама. Считал встречаемость упоминания компаний. 
                    Скриптов не сохранилось. Осталось только вышеозначенное мнение.
        • Андрей К
          19 января 2021, 10:24
          Михаил, в топике речь про сантимент, который формируется не одну торговую сессию
        • Replikant_mih
          19 января 2021, 10:29
          Михаил, Нуу, разные же подходы возможны. Можно в духе hft пытаться быстрее всех понять, что за новость и отыграть. Т.е. быстро сообразить, что щас будет делать толпа, которая «руками» новость читает. И сделать это первым — да, там важна технологическая гонка и нужна команда, ресурсы и все прочее такое, вероятно. Но это слишком в лоб, можно процессить новостной фон и, извлекать из него разные фичи, которые уже потом в обычный бустинг, например заряжать. Если раздвинуть горизонт, вполне, уверен, можно для медленных алгоритмов использовать.
          • Kolya Marketolog
            19 января 2021, 10:58
            Replikant_mih, Скальпить на новостях — путь в никуда.
    • Replikant_mih
      19 января 2021, 10:29
      Михаил, ещё natasha есть), легче, быстрее, чуть слабее.
      • Михаил
        19 января 2021, 10:37
        Дорогие товарищи, напишу всем сразу. Я не против любых экспериментов, если они приносят деньги или интеллектуальное удовлетворение. 

        При этом у меня большое сомнение, что сентимент который что-то формирует на долго не будет виден в маркет дате — динамике цен, объемов, открытых интересов в производных инструментах и т.д.

        Маркет дату для физика получать не сложно. Даже достаточно сложные DL модели на маркет дате можно вертеть на достаточно простом компе. 

        Получить хорошие данные для NLP моделей непросто даже в нефинансовой сфере, где люди часто объединяются всем миром и создают специальные общественные датасеты. 

        Нормальные NLP модели очень тяжелые, для них нужны специальные компьютеры. 

        С учетом этого имхо, для физика это все не сильно доступно с прикладной точки зрения извлечения дополнительного дохода. Для интеллектуального развлечения — почему бы и нет.
  • CloseToAlgoTrading
    19 января 2021, 11:18
    Когда то уже упоминалось, на кагле был челендж от 2sigma, как раз что бы по новостям выбирать нужные бумаги в портфель. Однако, или же задача поставлена была не верно или же людям не удалось все это как то применить, так как информация о цене несла куда больше информации. 

    Еще есть варинт попроще, но наверное с вашим брокером не прокатит, у ИБ все мелкие новости имеют уже уровень сентимента или рейтинг, не знаю как они его считают, вот можно на нем попробовать, а уж русские или не русские компании брать, мне кажется это дело 10е )
    • Replikant_mih
      19 января 2021, 11:24
      CloseToAlgoTrading, Да, торгуют люди, даже если институционалы или роботы, за ними все равно люди, информационный фон закладывается, отыгрывается. Ну как минимум можно искать расхождения, фон есть, а движа нет? — спред, вероятно, скорее схлопнется, чем нет. Или есть движ, а фона нет — аналогично схлопнется.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн