Чтобы преуспеть на финансовых рынках, нужно качественно анализировать информацию. Чтобы качественно анализировать информацию, нужен хороший инструмент. Если вы хотите узнать про один из таких инструментов, то прочитайте эту статью. В ней мы рассказали о data science — прикладной научной дисциплине, которую активно применяют в ведущих инвестиционных домах.
Оглавление
Как анализируют финансовые рынки
Как работает data science
Почему data science эффективен
Что нужно, чтобы применять data science
Станет ли data science панацеей для инвесторов
Постскриптум
Как анализируют финансовые рынки
Перед тем как приступить к Data Science, давайте разберемся с философией анализа финансовых рынков. Для этого мы ответим на три принципиальных вопроса:
1. Зачем анализировать финансовый рынок?
2. На чем основаны методы анализа финансового рынка?
3. Почему не существует идеального метода анализа?
Первый ответ очевидный. Мы анализируем финансовый рынок, чтобы затем его предсказать. Например, сегодня акции Apple котируются по $400, но анализ показывает, что через месяц цена достигнет $500. Мы легко превратим эту информацию в деньги. Купим Apple сейчас, продадим через месяц и заработаем 25% на вложенный капитал. Двенадцать таких операций в год и можно приобрести небольшой остров в Карибском архипелаге.
Естественно, в реальной жизни ситуация заметно сложнее. Идеального аналитического метода не существует. Точных предсказаний — тоже. Поэтому приходится оперировать вероятностями и мириться с тем, что прогнозы сбываются не все и не всегда.
За последние полтора века инвесторы придумали сотни подходов, чтобы предсказывать рынок. Одни методы имеют твердую научную базу, другие похожи на эзотерику. Но все они делятся на две большие группы:
1. Методы, которые прогнозируют рынок на основе исторических данных.
2. Методы, которые пытаются заглянуть в будущее.
Коротко пройдемся по каждой категории. Начнем с исторических данных:
“
Мы имеем инвестиционный актив А и набор обстоятельств Б. За последнее десятилетие было 15 аналогичных сценариев. В каждом сценарии цена актива А двигалась строго определенным образом — она росла. Поэтому мы предполагаем, что в этот раз история повториться, и ставим на повышение.
— Логика прогнозирования на основе исторических данных
Например, акции Apple в среднем росли на 10% после положительных квартальных отчетов. Сегодня, до открытия рынка вышел новый хороший отчет, и акции растут на 3%. Соответственно, мы купим их сейчас и продадим, когда рост достигнет 10%.
Конечно, не факт, что Apple продолжит следовать сценарию. Конкретно в этом случае, все может получиться иначе, и мы потеряем деньги. Но если история повторилась 15 раз подряд (или хотя бы 10 раз из 15), то лучше придерживаться тенденции. Это логично и, теоретически, повышает вероятность успеха.
Теперь посмотрим на логику заглядывания в будущее:
“
Мы имеем инвестиционный актив А и набор обстоятельств Б. Что было раньше — не важно. Рынок учел прошлую информацию, и она не имеет практической ценности. Поэтому мы воспользуемся только базовыми закономерностями. Остальное возьмем из набора обстоятельств Б и сделаем прогноз с помощью логики и здравого смысла.
— Попытка заглянуть в будущее
Например, в прошлые кризисы акции Apple падали и восстанавливались вместе с рынком. Однако, в прошлые кризисы не было нулевых ставок и бесконечного вливания денег в экономику. Теперь они есть, поэтому анализировать акции нужно с чистого листа.
Такой подход имеет основания (история действительно не всегда повторяется), но его трудно применить на практике. Во-первых, отсутствуют четкие ориентиры. Будущее вариативно, и его не получится загнать в здравый смысл или другую эфемерную модель. Слишком много слепых зон и неизвестных факторов. Пробуя их угадать, мы начнем тыкать пальцем в небо в надежде показать на звезду.
Во-вторых, даже если мы угадаем нужное направление, то не сможем оценить результат. Точнее не поймем — это мы умные или рынок благоприятный? Положиться на мозги еще можно, а вот на хороший рынок — очень не хочется. По крайней мере до тех пор, пока мы не научились заранее отличать хороший рынок от плохого.
Методы, основанные на исторических данных, такой проблемы не имеют. Есть прошлые результаты, есть конкретные цифры, есть возможность посчитать вероятности. Если на реальном рынке фактические цифры совпадают с ожидаемыми, значит метод работает. Если не совпадают — метод нужно менять или дорабатывать.
Таким образом, исторические данные придется анализировать в любом случае. Они дадут прочный фундамент и возможность оценить стратегию. Однако, анализировать историю можно по-разному. Например, плохой способ — это изучать графики и вручную искать закономерности. Лучше, но не идеально — придумать алгоритм и прогнать историю на компьютере. Самый передовой вариант — использовать data science.
Об этом поговорим дальше.
Как работает data science
Data Science — это прикладная наука о данных. Она состоит из нескольких дисциплин, которые пришли из математики, статистики и информатики. Общий процесс исследования с применением data science выглядит так:
1. Собираем данные
2. Обрабатываем данные
3. Проверяем данные
4. Ищем взаимосвязи с помощью статистических методов
5. Ищем взаимосвязи с помощью машинного обучения
6. Строим прогнозную модель
7. Проверяем прогнозную модель на исторических данных
То есть конечный результат нашей работы — это компьютерный алгоритм, который принимает данные и предсказывает будущее. Чтобы было понятнее, мы разберем условный финансовый пример.
Задача:
Научиться предсказывать цену акций из индекса S&P 500.
Доступные данные:
1. Тикеры акций S&P 500
2. История котировок
3. История финансовой отчетности
4. История аналитических рекомендаций
Мы хотим получить волшебную машину, которая примет четыре типа данных на входе и предскажет цену акций на выходе.
Давайте сделаем схему, чтобы наглядно изобразить процесс.
Сначала мы собираем и обрабатываем данные. Это важный шаг, с которого начинается data science. Затем мы скармливаем обработанные данные в математическую модель и используем статистические методы, чтобы найти взаимосвязи. Если взаимосвязи между данными сложные, то мы подключаем искусственный интеллект и анализируем их на более глубоком уровне.
Например, мы анализируем, как финансовые результаты влияют на котировки акций из индекса S&P 500. Тоже самое делаем с аналитическими рекомендациями. Затем смешиваем отчеты с рекомендациями и повторяем процедуру. Таким образом мы находим статистически значимые закономерности.
Далее на основе закономерностей мы создаем предиктивную модель. В нее мы скармливаем новые финансовые отчеты и аналитические рекомендации, а в ответ получаем прогноз ценовой динамики. Этот прогноз мы применяем на практике. То есть в торговле на бирже.
Исторические котировки, финансовая отчетность и ожидания аналитиков — не единственная информация, которую используют при создании прогнозных моделей. Существует много вариантов входных данных. Они начинаются с привычных финансовых метрик и заканчиваются Google-запросами или Twitter-комментариями.
Фактически, в качестве почвы для анализа можно использовать любые достоверные данные. Если внутри данных есть статистически важные закономерности, то методы машинного обучения их выявят. Если закономерности отсутствуют, то мы тоже это узнаем. После чего перейдем к следующему датасету или к следующей гипотезе.
Почему data science эффективен
Данные анализируют давно и различными способами. Поэтому основные методы аналитики (затейливые словосочетания, которые вы прочли на предыдущей картинке) придуманы несколько десятилетий назад. Штука в том, что они не работали на практике до недавнего времени. Эти методы хорошо справлялись с теоретическими задачами, но упирались в сложность расчетов в реальных условиях.
Проблему решил технический прогресс. Появились новые компьютеры, и они осилили сложные вычисления. Затем появился data science — он стал продуктом технологических изменений. Data science воспользовался увеличением вычислительной мощности, впитал несколько математических областей и автоматизировал сложные процессы. В результате мы получили аналитический завод, который обрабатывает больше данных, ищет больше взаимосвязей и делает работу быстрее.
Эффективность data science держится на трех китах:
1. Большие данные.
Data science обрабатывает терабайты разнообразных данных, чья скорость поступления постоянно растет. Часто это бессистемная информация, которую нужно чистить, обрабатывать и структурировать. Ввиду большого объема данных, с этим не справляются методы привычной аналитики, но справляются методы data science.
2. Использование математических методов.
Все методы data science пришли из прикладной математики и естественных наук. Когда мы анализируем финансовый рынок с помощью data science, мы используем те же методы, что и физики, исследующие ядерные реакции, или конструкторы, проектирующие самолеты.
3. Компьютерный анализ данных и машинное обучение.
Современные компьютеры обрабатывают миллионы строк данных и делают это в автоматическом режиме. Это позволяет применить машинное обучение и кратно ускорить вычислительные процессы. Кроме того, машинное обучение решает задачи, которые не решаются стандартными аналитическими методами.
Таким образом, data science решает старую задачу анализа данных. Но делает это на принципиально новом технологическом уровне. Если сказать метафорично, то с помощью data science мы пересели с лошади на машину.
Что это значит в применении к финансовым рынкам? А то, что раньше мы придумывали торговые стратегии и неделями тестировали исторические данные. Сегодня мы ускоряем процесс в несколько раз. Одновременно с этим мы повышаем его эффективность.
Что нужно, чтобы применять data science
Чтобы эффективно применять data science на практике, требуются три ключевых ингредиента:
1. Данные, которые не имеют ошибок и мусора.
Чтобы предиктивные модели работали, их нужно строить на достоверной информации. Качество сырья в data science играет решающую роль. Поэтому сбор и обработка данных занимает 50%-80% рабочего процесса.
2. Человек, который создает аналитическую модель.
Для этого нужно знание и понимание математики. В частности таких дисциплин, как математический анализ, линейная алгебра, теория вероятностей и математическая статистика. Также потребуется использовать Python в качестве основного языка программирования.
3. Компьютер, который обрабатывает информацию.
Многие данные содержат терабайты информации. На домашнем ПК такое не проанализировать — не хватит памяти. Соответственно, нужны специализированные сервера, которые справятся с задачей и не расплавятся в процессе.
Если мы говорим про финансовые рынки, то также пригодятся знания в финансах. Как минимум общее понимание темы, как максимум — знание корпоративных финансов, количественных финансов, теории управления портфелем, деривативов.
Естественно, один человек такой объем дисциплин не осилит. Поэтому лучше сформировать команду, где каждый отвечает за свое направление. Например, финансист помогает собрать и обработать информацию, а data science-аналитик анализирует данные и строит прогнозную модель.
Станет ли data science панацеей для инвесторов
Data science позволяет построить предиктивную модель на основе прошлых данных. Хорошая новость в том, что data science — это лучший способ изучить историю, причем с серьезным запасом. Плохая новость в том, что история остается историей. Если мир изменился, а мы не обновили датасет, то прогнозы сломаются. Если исторические данные неполные или неверные, то прогнозы тоже будут неполными или неверными.
Поэтому называть data science панацеей — перебор. Методы data science не превратят свинец в золото и не создадут непогрешимый хрустальный шар. Однако, они помогут качественно проанализировать информацию и принять математически взвешенное решение.
Постскриптум
Если вам понравилась статья и вы хотите применить data science на практике, то предлагаем начать с IPO. Почему с IPO? Потому что мы делаем большое исследование, к которому вы можете присоединиться. Для этого вам не нужно знать математику или уметь программировать. Достаточно пройти по ссылке, изучить информацию и поддержать нас, если подход и идея вам нравятся.
P. S. Не хватает практических примеров и прикладных результатов, полученных в ходе подобных исследований.
Боюсь, с хардкором бы точно улетела в анналы истории… Хотя у меня есть одна мысль, как написать понятно, но с деталями. Если получится, то опубликую
А как ентот датасаенс решает проблему переобучения (подгонки)?
А именно возможность с достаточной степенью достоверность утверждать это и показывает пользу DS в применяемой сфере.
DS работает хорошо (например) в медицине, где на 100 снимков легкого с каверной 97 результатов туберкулез. Это ИИ хорошо распознает и хорошо обучается.
Хоссподи… какая чушь))
Главное — инсайд. Все остальное — полная фигня.
И, если я правильно понял, мало кому понятно и малоприменимо впринцпе))
P.S. зато хайпово)