на Kaggle недавно завершилось соревнование под названием «two sigma financial modeling»
www.kaggle.com/c/two-sigma-financial-modeling/kernels
Задача представляла из себя классическую проблему предсказания цены актива
Какой то нью йоркский хэдж-фанд слил кучу features, причем обезличенных, и даже не говоря при этом, с каким шагом по времени (хотя участники соревнования вроде быстро раскусили и название features, и шаг по времени), и надо было предсказать следующую цену актива
Предсказания в Kaggle обычно делаются посредством искусственного интеллекта (сейчас это обычно supervised классификаторы на основе XGboost, плюс (всё больше и больше) нейронные сети, плюс иногда unsupervised learning, плюс bagging и обычно на закуску stacking разных моделей)
По правилам соревнования, код победителей принадлежит его организаторам, поэтому, увы, там почерпнуть ничего не удасться (выигравшие Kernels публиковаться не будут)
Но участники в соревнованиях на Kaggle —
реально круты, и некоторые из них в процессе соревнования делятся идеями (в разделе «Discussion») и кодом (в разделе «Kernels»)
Я в этом соревновании не участвовал, так как вляпался
в другое соревнование от той же конторы, и эпично там тупил 2 месяца (хотя и научился очень многим приемам и перешел из разряда полного баклана в начинающего чайника)
Собственно, по этой причине я и заморозил на время
свой проект с машинным обучением — потому что пришел на Kaggle, и понял, как мало я знаю :-)
Я абсолютно уверен, что, покопавшись в вышеупомянутых кучах навоза соревнования от two sigma, можно найти много жемчужных зерен для построения своих роботов
Ни у кого нет желания ко мне присоединиться и покопаться в этом продукте, и потом поделиться мнениями?
Что с точки зрения чистого машинного обучения наверное не страшно, хотя feature engineering пошел бы намного лучше, если бы знать что есть что
У меня вся умственная и нервная энертия ушла на другое соревнование, в котором я таки участвовал (я даже на покупку игрового ноутбука потратился, чтобы нейронные сети на nvidia гонять… два дня на настройку драйверов убил, хоть заработало все, и то слава богу… хотя со сходимостью нейронных сетей я так и не разобрался, они давали стабильно худшие результаты, чем старый добрый xgboost)
Я как-то раз попробовал в соревновании поучаствовать ради опыта, но быстро бросил, а так, в плане обучения это очень круто — многое узнаёшь.
я научился там матом ругаца тому, чему не учат не на каких на курсах
Но готовят его по разному.
И еще интересная вещь, тему низкого отношения сигнала к помехе в ценовых данных вообще никто со мной обсуждать не хочет. Имхо, именно в этом отношении причина, почему стандартный многопараметрический леннинг не удается хорошо приспособить к реальной торговле.
интервьюировали мы одного из топ3 — чел абсолютный профан в понимании что есть статистическое обучение и как работать с фичами
В виду того, что Вы явно в теме — очень хотелось бы услышать про «галимых подгонщиков» и как это в принципе можно сделать на Kaggle, притом что они 70% что ли тестового набора никому не показывают и меряют окончательный результат с учетом этой части