Блог им. afecn19

Сантименты на американском рынке. Продолжение.

Делюсь результатами. Напомню что я создал базу американских фишек входящих в SP500, выкачал для них отчеты 10-К с 2010 года, из которых достал 7 пункт «managements discussion and analysis of financial condition and results of operation». По идее должен был получить около 5000 текстов, но в парсинге 7 пункта и заключалась самая большая заковыка. В общем на финишную прямую вырулилось только около 2000 отчетов. 
Для каждого отчета я получил оценку сантиментов, по 10 эмоциям и по каждой из них, разбил свои 2000 отчетов на три ровных группы — с максимальными значениями, минимальными и средними. И для каждой из этой группы глянул на сколько изменилась цена акции через 250 торговых дней, после опубликования отчета. 
Вот корреляционна матрица между эмоциями (+ длина отчета).
Сантименты на американском рынке. Продолжение.


Как видим между позитивными и негативными эмоциями корреляция +0,4. Что может показаться странным, если предположить что они противостоят друг другу. Однако, тут видимо другая логика — есть отчеты где составившие их буквально сыпят эмоциями, и отчеты выдержанные в более строгом стиле. Даже предположу как это получается. Вот допустим много негативного в отчете, что обьекетивно — компания не на высоте, или рыночная ситуация аховая, понятно что по законам маркетинга такое никто не купит, поэтому в лучшем стиле манипулирования, негатив обильно разбавляется позитивными словечками и на выходе потенциальный инвестор получает некую сбалансированную баланду.  Вот вам и положительная корреляция долей позитивных и негативных слов в тексте. 
А вот тут мы видим доходность по каждой эмоции с разбивкой:
Сантименты на американском рынке. Продолжение.

Сантименты на американском рынке. Продолжение.
Сантименты на американском рынке. Продолжение.



Как видим чем меньше доли negative, fear, sadness, disgust, anger, тем на больший процент вырастает компания за год. И наоборот чем больше доли trust joy тем доходность выше. А вот с positive четкой картинки не получилось. Нейтральные термины как surprise, antisipation имеют такое же нейтральное значение. В общем все логичненько.
Но самое четкое разделение с точки зрения доходности получилось если разбить размер текста на длинные, короткие и средние:
Сантименты на американском рынке. Продолжение.
Как видим компании сподобившиеся на отчеты с 50К+- количеством символов, вырастают в среднем на 20%, а вот те что 165К+-, на 14%.    
Можно заняться комбинаторикой на коленкой и взять какое то сочетание. Ну например размер текста и trust, первого поменьше, второго побольше и получить такое разбиение
Сантименты на американском рынке. Продолжение.
Тут разрывчик еще больше. 
Для меня важно чтобы тенденция была стабильна по годам, берем trust и смотрим: 

Сантименты на американском рынке. Продолжение.


Видим что по годам довольно стабильненько, только в 2016 году из 9 других, зависимость была обратной, причем тенденция сильней выраженна именно в последние годы.
И по другим эмоциям прослеживается такая стабильность. 
Как я писал самое четкое разделение получается когда мы берем не эмоцию, а размер отчета. Как это обьяснить?! Кто торгует может предположить что это связанно с тем что отчеты меньше у более мелких компаний, а мелкие компании более волатильны, а так как рынок в основном рос, то волатильные росли больше, «а вот наступит обвальный рынок и мелкие компании посыпят сильней». Логично, такое вполне может быть. Но вот взял я разбивку по  длине текста для 2015 года, когда рынок падал и:
Сантименты на американском рынке. Продолжение.
Как видим и тут лучше. Да и трудно предположить что в SP500 есть какие то мелкие компании, которые сдают мелкие отчеты только потому что в их бухгалтерии мало народа. 
Представляет ли это какой то интерес для трейдинга?! Ну такое… Но приятно сознавать что при всей сырости подхода, в отчете удалось обнаружить лингвистические конструкции, которые могут давать дополнительную информацию о будущей динамике, которая стабильно прослеживалась на протяжении последних 10 лет. То есть как бы не пытались пудрить голову составители отчетов, но получается им не удается скрыть всю истину, какие то ушки все так же торчат. Так что, если кто то вдруг захочет купить на год в американские фишки на основе 7 радела отчета 10-К, то рекомендации следующие:
1. Ищите отчеты поменьше.
2. Ищите отчеты где доля эмоциональных словечек поменьше (позитивных, негативных — без разницы)
3. Где побольше доля словечек из разряда trust
4. Поменьше неприятных слов из разряда negative, fear, sadness итп.
И соответственно для шорта нужны отчеты многословные, эмоциональные, не уверенные.

5 комментариев
Спасибо, очень интересно. 

Вопрос. Вы учитывали только те компании, которые сейчас входят в S&P500? Или отчеты скачивались для тех компаний, которые были в S&P500 на момент выхода отчета? Иными словами, это вопрос про ошибку выжившего. 
avatar
anatolyutkin, https://en.wikipedia.org/wiki/List_of_S%26P_500_companies , брал отсюда
avatar
Марат, Спасибо, очень интересно.

А аналогичные исследования на английском языке не пробовали найти?
avatar
anatolyutkin, с этого и начинал. например: https://medium.com/@tomyuz/a-sentiment-analysis-approach-to-predicting-stock-returns-d5ca8b75a42
avatar

теги блога Марат

....все тэги



UPDONW
Новый дизайн