Блог им. Eugene777 |Немного извратов с Random Forest в R

Продолжая тему, затронутую в  предыдущей публикации хочу поделиться некоторыми наблюдениями.

И так, возьмем 1000 дней AAPL, 20 внутридневных метрик и попробуем обучить алгоритмы случайного леса и ближайших соседей и прогнать его на последних 120 днях. 

Результат для числовых значений результата:
Немного извратов с Random Forest в R 

( Читать дальше )

Блог им. Eugene777 |Самообучающиеся системы в R. Random Forest vs Nearest Neighbor.

Все больше и больше нравится использовать R для поиска идей и анализа. 
Сегодня я хочу рассказать о небольшом исследовании и сравнении системы прогнозирования на основе алгоритма случайного леса и  алгоритма ближайшего соседа. 

Вопросы, которые я себе ставил были следующими:
— на сколько алгоритм Random Fores (RF) продуктивнее чем Nearest Neighbor (NN) или наоборот;
— каково влияние параметров количества случайных соседей на работу алгоритма и на сколько оно может оказаться простой подгонкой данных;
— получится ли эффективно сочетать результаты NN для маленькой и большой выборки, избавляясь тем самым от ошибки переоптимизации;
— как оценить надежность обучения;
— какой метод работает лучше, регрессионный или с формализованными ответами;
— когда проводить переобучение;

Данное исследование помогло мне ответить на некоторые вопросы. 

В качестве предикторов были использованы некоторые внутридневные метрики (10 штук) акции AAPL за один год, результатом я считал изменение цены акции от Close первой пятиминутной свечи до конца дня. Сразу скажу, предикторы мне показались неэффективными, но суть исследования, все же, была в оценке методов прогнозирования прежде всего. Я надеялся, что алгоритмы смогут выявить определенные паттерны внутри многомерного пространства и использовать их. 

( Читать дальше )

....все тэги
UPDONW
Новый дизайн