К предыдущему посту с тоже конкретным ML вопросом получил отличный фидбек от толковых комментаторов, превзошло мои ожидания, очень круто, ещё раз всем спасибо!
Уверен, что и по этому вопросу людям будет что сказать.
В общем использую ML для нахождения закономерностей в осмысленных признаках — так можно кратко описать мой подход). Так вот часто наблюдаю такие эффекты и не сформировал пока четкой позиции по их интерпретации, возможно, кто-то в эту сторону уже копал и как-то дальше продвинуться, буду рад почитать какие-то инсайты или просто рассуждения на эту тему. Добро пожаловать в комментарии опять.
Суть явления: всегда оцениваю зависимость между метрикой качества сигналов и вероятностью, выдаваемой моделью по сигналу. Хорошие признаки хорошая модель построит монотонно растущую зависимость. Может быть хаос вместо монотонного роста — значит модель не вывезла — или модель не алё, либо признаковое описание не але, либо слишком много признаков для такого кол-ва данных и т.д. Но часто даже если видно, что модель нащупала смысл в данных, начиная с какой-то вероятности наблюдаются разные явления.
А именно:
1. Начиная с некоторой вероятности, метрику качества начинает колбасить из-за того что кол-во случаев падает значительно. Тут все понятно, выборка становится нерепрезентативной, колебания объяснимы — вопросов нет.
2. Закономерность явная, монотонность четкая, но на самых высоких значениях вероятности график зависимости начинает по непонятным причинам загибаться вниз, в отличии от (1) репрезентативность там нормальная, т.е. это не похоже на загиб связанный с нерепрезентативностью. Думал-думал, придумал возможное объяснения — такие ситуации на рынке выглядят для участников как верняковый верняк — все карты сходятся, вероятно или манипуляторы используют эту повышенную «верняковость» для развода толпы, либо — если без теорий заговора — эта же избыточная верняковость сама за счет естественных каких-то механик играет наоборот.
Но, возможно, эти объяснения ни о чем и есть причины совсем другой природы. Что думаете?
3. Каким бы ни было «пустым» признаковое пространство, каким бы эффективным не был рынок, на котором тестишь, почти всегда сначала (на графике зависимости целевой метрики от вероятности, выдаваемой моделью, напомню) видно, что модель что-то нащупала и график начинает монотонно расти, но в какой-то момент опять начинается хаос. Этот не сильный, но рост графика выглядит закономерным — слишком часто это вижу и слишком явно это выглядит, но потом начинается хаос (опять таки на нормальных выборках, не про нерепрезентативность). Отличие от (2) — то что это более мимолетная схваченная связь и довольно быстро она пропадает. Тут я вообще теряюсь в догадках и не придумал, как интерпретировать.
Зачем этот вопрос и зачем исследовать эту зависимость в принципе — это ответ на вопросы:
— Сравнение моделей/стратегий между собой, сравнение разных таргетов, признаковых описаний, гипер-параметров модели и т.д.
— Оценка робастности.
— Оценка качества закономерности в целом.
— Наверняка, если понимать, причины поведения графика зависимости метрики от вероятности, можно осмысленно задействовать какие-то рычаги для улучшения модели!
В общем если есть что сказать по теме — добро пожаловать в комментарии!
P.S. Зависимость эту строю всегда на OOS.
wrmngr, Не знаю, что имеется в виду. Я, если честно, не очень люблю классификации и сам найденные закономерности не классифицирую, тем более через призму каких-то общепринятых классификаций.
По сути тут ML просто автоматизация + чуть больше гибкости, а на вход я подаю осмысленные признаки, из которых я б и так классическими способами извлек закономерность, которую бы торговал в форме обычных rule-based алго-стратегий.
Если pattern и найдена, то the author она unlikely будет distribute всем free.
Ты наверняка про дисперсию забыл. Всегда есть две чиселки — матожидание и дисперсия, ты смотришь только на оценку матожидания и радуешься что она у тебя выросла условно в 4 раза, а оценка дисперсии (и дисперсия оценки) в то же самое время могла вырасти тоже условно в 40 раз.
Но все-таки это позволит более точно описать, что происходит. Но остается открытым вопрос: почему) — я про описанные эффекты. И думаю, в ответе на него хранится много полезной информации.
Replikant_mih, да какой ты трейдер, не смеши )
Прежде чем строить на основе модели ТС, тебе надо убедиться что твоя модель вообще работает, чисто с математической точки зрения. Для этого считают всякие показатели ошибок, статистические тесты смотрят, статистическую значимость, вот это вот всё. Потому что если у тебя сама модель не работает, то ТС на её основе будет торговать случайно.
Все элементы ТС из которых она состоит должны быть работоспособны и проверены по отдельности ещё до того как их собирать всех вместе и смотреть что получается, иначе можно бесконечно этим заниматься, то вроде работает, то ой хаос. Ну такое.
Всё работает, и будет работать ещё лучше, для этого и развиваюсь, исследую и интересуюсь.