Взяли в руки блокнотики?))
Грааль в ML для трейдинга состоит из нескольких компонентов. По сути грааль, это «правильные» ответы на вопросы:
- Что используется в качестве объектов, на которых мы обучаемся. Что за срез. Что? – Свеча, день, тик, трейдер, стакан, паттерн? Очень важный компонент.
- Признаковое описание этих объектов. Супер-важная тема. Пространство для креатива.
- Таргет – важная тема, но скорее производная от «что является объектом». После выбора объекта, с таргетом становится ± понятно.
- Тип модели. Эта штука, на самом деле не так и важна, как кажется.
- Параметры модели (гиперпараметры и вот это вот всё). Из одних гиперпараметров кашу не сваришь, их нужно использовать скорее чтобы «не испортить блюдо».
- Процесс. Обучения, отбора, валидации модели. Супер-важная тема тоже.
Пожалуй, можно составить ТОП покороче:
- Что является объектом.
- Признаковое описание.
- Процесс отбора данных, обучения, отбора, валидации моделей.
Да, этот ТОП3 хорошо отражает мой опыт использования ML в трейдинге.
А при использовании того что ты описал — получишь прокачанную версию линейной регресии, что наверно неплохо, но врядли то что тебе надо.
Beach Bunny, Я не получу, я уже получил, и я могу оценить это то, что мне надо или не то, если то, то в какой степени, а по итогам оценки двигаться дальше в сторону большего соответствия того, что я имею относительно того, что мне надо)).
Это может выглядеть как что-то абстрактное, но я просто абсолютно конкретные вещи перевел на высокий логический абстрактный уровень «чтоб никто не догадался»)).
Добрый день!
Если потратить 10% усилий на математику и физику вместо ML — все станет проще и понятней.
DV_13, «все станет проще и понятней» — предельно общая фраза, смысл остался где-то в глубокой глубине.
Что конкретно всё? — Трейдинг, ML, жизнь?
Что значит понятней? — В чем это выражается? Что мне это даст?
Что значит проще? — В чем это выражается? Кто сказал, что оно станет проще? Почему конкретно мы должны им верить?)
Не секрет, сто chatGPT откровенно слаб в решении математических задач. Он выдаёт пургу в задачах, имеющих точное решение. То, что он выдаёт, даже нельзя назвать приблизительным решением.
А если вспомнить личное прошлое, то в 90-е мой приятель на физфаке МГУ занимался распознаванием образов. То есть строго в рамках научного подхода.
Честно говоря, мне вообще фиолетово, как конкретно называется то, чем я занимаюсь, как оно будет называться и т.д. — математика ли, трейдинг ли, ML ли. Это не влияет ровным счетом ни на что.
Есть разные типы развития — гуманитарные (типа литература, языки, ...),
а есть 'суровые науки'. где есть причинно-следственнаяся связь.
Я думаю, что ML — ближе к гуманитарным. Результат получается за счет анализа большого перебора комбинаций. Что, в общем, тоже не плохо, вычислительные мощности растут.
Далее следует важнейший этап — векторизация. В результате получаем эмбеддинги — векторное представление данных, которое при удаче отражает смысл происходящего. Надо четко понимать, что без этого этапа никакой ИИ невозможен.
Далее практически все уже стандартизовано и конвейеры налажены. Тип сети, гиперпараметры, обучение. валидация — все уже предельно разжевано и большая часть кода уже написана. Надо только подобрать подходящий вариант.
Synthetic, Не со всем согласен).
Векторизация — как раз это для меня выглядит формальностью и просто техническим моментом, хотя я не знаю, что в данном конкретном случае подразумевается под векторизацией. Если выбор и генерация фичей — тогда да.
Написаны отдельные кубики процесса, есть конкретные пайплайны из кубиков, да. Но стандартные штуки обычно не подходят (пайплайны) для трейдинга. Трейдинг это не кошек от собак по картинкам отличать. Да, кубики я реже пишу кастомные, чем кастомные пайплайны (где кубики не важно какие, а пайплайн кастомный). Пайплайны всегда у меня кастомные, кубики иногда.
Приведу избитый пример правильной векторизации (типа той, какую делает, например Word2Vec.)
Каждому слову или последовательности слов сопоставляется вектор одинаковой длины (длиной 1000+-500).
Возьмем четыре слова:
король
королева
мужчина
женщина
Соответственно получим четыре вектора.
Произведем простейшую математическую операцию над векторами(они все одинаковой длины).
Вектор_искомый=вектор_король — вектор_мужчина + вектор_женщина.
Полученный вектор сравним ( операция называется — вычисление косинусной близости)с вектором королева. Оказывается это почти одно и тоже. Т.е. мы еще не начинали собственно обучения, а в эмбеддингах уже полно смысла!
Если вместо «правильной» векторизации использовать что попроще — например «мешок слов» — ничего хорошего не выйдет. И никакая супер-пупер нейронная сеть этого уже не исправит.
Задаются метрики качества выше которых модель берется в оборот. Одной метрикой не справится, идут несколько. PF>3 KR>30 W>0.5 Средний трейд и к-во трейдов — по обстоятельствам.
Выжившие попадают к господину Шарпу. Или Сортино, если трейдов много.
Из кастомных. Коэффициэнт деградации подхода.Пример: Пеформанс последнего года/ Перворманс предпоследнего.
Это IS/OOS?
Интересно. Интересно… что используете кастомное что-то), сама метрика — не знаю, без контекста сложно оценить, наверно, в контексте что-то даёт).Vladimir Iastrebov, Го в чат про ML в трейдинге (если ещё не) — t.me/+hV1etW5V6hw4MzRi
Правда, там все никак критическая масса для самоподдержания активности все никак не наберется).