Блог им. Eugene777 |Самообучающиеся системы в R. Random Forest vs Nearest Neighbor.

Все больше и больше нравится использовать R для поиска идей и анализа. 
Сегодня я хочу рассказать о небольшом исследовании и сравнении системы прогнозирования на основе алгоритма случайного леса и  алгоритма ближайшего соседа. 

Вопросы, которые я себе ставил были следующими:
— на сколько алгоритм Random Fores (RF) продуктивнее чем Nearest Neighbor (NN) или наоборот;
— каково влияние параметров количества случайных соседей на работу алгоритма и на сколько оно может оказаться простой подгонкой данных;
— получится ли эффективно сочетать результаты NN для маленькой и большой выборки, избавляясь тем самым от ошибки переоптимизации;
— как оценить надежность обучения;
— какой метод работает лучше, регрессионный или с формализованными ответами;
— когда проводить переобучение;

Данное исследование помогло мне ответить на некоторые вопросы. 

В качестве предикторов были использованы некоторые внутридневные метрики (10 штук) акции AAPL за один год, результатом я считал изменение цены акции от Close первой пятиминутной свечи до конца дня. Сразу скажу, предикторы мне показались неэффективными, но суть исследования, все же, была в оценке методов прогнозирования прежде всего. Я надеялся, что алгоритмы смогут выявить определенные паттерны внутри многомерного пространства и использовать их. 

( Читать дальше )

....все тэги
UPDONW
Новый дизайн