Ivan FXS
Ivan FXS личный блог
07 марта 2023, 10:17

Ликбез по независимым переменным, степеням свободы и переобученности модели

Пусть есть некоторый поток эмпирических данных. И есть некоторая модель, нацеленная на максимизацию некоторого критерия на этих данных. И в этой модели 100500 параметров (коэффициентов), но значения всех этих параметров получаются («порождаются») в результате вычисления некоторой линейной регрессии, построенной на (работающей с) этих эмпирических данных, то есть эти параметры суть коэффициенты регрессии, а не «ручки, которые мы крутим, настраивая модель».

Вопрос: можно ли в этом случае говорить, что эти 100500 параметров (коэффициентов) являются независимыми переменным и «степеням свободы» модели? И, соответственно, опасаться, что модель «переобучится» — из-за того, что в ней слишком много параметров?
27 Комментариев
  • Большой Брат
    07 марта 2023, 10:30
    Это степени не свободы, а несвободы.
  • Пафос Респектыч
    07 марта 2023, 10:42
    «Переобучить» можно даже модель с одним-единственным параметром. Тут всё довольно сильно зависит от того, как устроена модель и по какому алгоритму она обучается.
  • svgr
    07 марта 2023, 11:03
    Какими 'независимыми переменными'??
    Они у Вас на схеме 'нейронными связями' соединены. Наглядно зависимости изображены.
    Во временном ряде цен есть внутренняя характеристика, показывающая, можно ли на данном участке каким-либо простым алгоритмом забрать больше, чем отдать, или нет. И все модели со связями лишь помогают точно или не очень получить значение этой характеристики. 
    Характеристика — усреднённая по интервалу наблюдений. Переобученность будет означать, что Вы не усреднённую уже считаете, а чуть ли не на каждой свече своё значение. Что не имеет практического применения для торговли на следующих свечах.
    Нужно из общих принципов понимать какое значение характеристики будет в случае белого шума на данном интервале, а какое уже покажет некий неслучайный эффект.
      • svgr
        07 марта 2023, 12:44
        Ivan FXS, это фантазии. С такими последовательными ценами рядов нет.
          • svgr
            07 марта 2023, 13:02
            Ivan FXS, до школьного уровня рассуждений скатываться не стоит. Все понимают контекст: подразумевается, что найденный на тестируемых данных эффект имеет достаточные проявленность и инерцию, чтобы что-то от него осталось на новом участке данных. Статистически это почти всегда так (попали не на конец действия эффекта), однако позитивная величина его меньше комиссий.
              • svgr
                07 марта 2023, 13:45
                Ivan FXS, на зафиксированных данных, т.е. задним числом вычислить такую характеристику могу. Она показывает насколько движение цен в инструменте отличается от случайного блуждания. Когда отличие значительно — можно зарабатывать. При этом конкретный алгоритм может быть не один. Когда отличие в коридоре — не более среднестатистического за всю историю значения +- комиссия — все алгоритмы будут проигрывать.
                Бумаги относительно такой характеристики есть хорошие (ао Сбербанк, к примеру), а есть тугие. Хорошие — когда интервалов с подходящими значениями характеристики на истории много. Характеристика фактически неким образом подсчитываемая локальная волатильность. Понятно, что можно много чего придумать и применить, когда она достаточно высока.
  • SergeyJu
    07 марта 2023, 11:47
    А сколько параметров у линейной регрессии? 
      • SergeyJu
        07 марта 2023, 14:46
        Ivan FXS, линейная регрессия по сути скалярное произведение набора данных длины Х с набором коэффициентов длины Х плюс константа. 
        Итого вопрос. Вы Х+1 к-т регрессии получили с Божьей помощью, или их можно считать степенями свободы Вашей системы? 
          • SergeyJu
            07 марта 2023, 16:50
            Ivan FXS, что за задача линейной регрессии. Как она  связана с данными. Вы бы сначала четко объяснили, что к чему и откуда берется, а потом бы и вопросы задавали. 
              • SergeyJu
                08 марта 2023, 10:22
                Ivan FXS, лошади кушают овес и сено.
                Вы так и не поняли, что Вас спросили о том, откуда Вы взяли А или откуда Вы взяли в? 
                Если у Вас А прямоугольная матрица из сдвинутых данных, а в — столбец сдвинутых на 1 вперед данных же (классическое построение в духе учебников), то у Вас проблема не в числе степеней свободы, в а соотношении сигнала и шума. Работает эта штука, если грубо, когда сигнал когерентен, а шум — нет. Это скорее всего не наш случай. Но в любом случае неплохо применить SVD разложение к А и для начала поискать хоть какой-то смысл в наборе максимальных собственных чисел и векторов. 
                Да, и  с этой формулой не все так уж гладко. Изучите тему регуляризации.
                  • SergeyJu
                    08 марта 2023, 10:25
                    Ivan FXS, я знаю сотню способов, как можно употребить поток эмпирических данных. 

  • bozon
    07 марта 2023, 11:49
    Чем меньше степеней свободы (или чем устойчивее «свободные» параметры) модели, тем точнее расчитана некоторая рыночная характеристика, эксплуатируемая МТС для извлечения прибыли.
  • Replikant_mih
    07 марта 2023, 13:37
    Можно ли в этом случае говорить, что эти 100500 параметров (коэффициентов) являются независимыми переменным и «степеням свободы» модели? И, соответственно, опасаться, что модель «переобучится» — из-за того, что в ней слишком много параметров?


    Надо переводить вопрос в практическую плоскость).

     

    Если так сделать, то окажется, что:

    — Модель модели рознь, какие-то более устойчивы к переобучению, какие-то менее, в рамках типа модели есть рычаги влияния на переобучение.

    — В общем случае модель переобучается не из-за числа параметров, да это фактор, но там все сложнее. Опять-таки если отталкиваться от практической плоскости, то ты просто А. Отслеживаешь переобученность, Б. Влияешь на её степень.

    — В посте было про максимизацию — да, максимизация, только обычно пытаются максимизировать ну что, например, прибыль, точность, winrate, PF, а надо максимизировать… вычленение закономерности от шума.

     

      • Replikant_mih
        07 марта 2023, 14:47

        Ivan FXS, 

        Да, на OOS не работает как на IS — ты либо переподогнался, либо OOS и IS пришлись на разные, критичные для модели, фазы рынка, или закономерность рассосалась/ушла.

        Для каждого из вариантов есть свои инструменты и приемы, как это понят, отследить и забороть / взять под некоторый контроль. 

        Риск переобучения есть у всего и всегда — где есть два куска данных и есть модель хотя бы с 1 параметром. Дальше думаем головой и пытаемся добиться максимального приближения IS и OOS результатов. И, кстати, часто такое приближение будет выглядеть как опускание задранных IS планок. 

  • Мальчик buybuy
    07 марта 2023, 17:32
    100%, что не могут

    Т.к. эти переменные явно связаны между собой, как решение некоей СЛАУ.

    Может ли часть этих переменных быть свободными? (не все конечно)
    Тоже не могут
    Если выписать оптимальные переменные явно — получим рациональные функции от приращений цен
    Для них можно посмотреть на (выборочное) совместное распределение и увидеть, что все они жестко попарно коррелированы, ну т.е. точно зависимы

    Можно ли часть из них декоррелировать и получить нечто вроде базиса?
    Возможно, но это надо делать аналитически. В смысле явно перестроить переменные в новый, некоррелированный базис.
    Вот только смысл этих новых переменных будет смешной — вместо исходных переменных должен получиться массив невязок — ошибок линейного прогноза с использованием Ваших переменных. Ну, будут они некоррелированы (и не факт, что независимы) — что Вам с того?

    С уважением

    P.S. Неустойчивость этих переменных (причина невозможности успешного продолжения в будущее оптимизированного на интервале решения) проста на самом деле. При любом критерии оптимизации итоговый результат будет содержать умножение на (примерно) матрицу, обратную к автокорреляционной. Поскольку выборочные АКФ на ценовых рядах сходятся очень плохо, эту матрицу будет дико кидать. Ну т.е. сама процедура получения переменных неустойчивая. Путем отдельных танцев с бубном и усреднении на интервале хотя бы в 500000 баров можно научиться получать стабильные решения. Но это уже совсем другая история.
      • Мальчик buybuy
        08 марта 2023, 13:36
        Ivan FXS, я, увы, не разбираюсь в нейронных сетях (и не планирую)

        Зато я абсолютно точно (аналитически) знаю, как выглядят Ваши переменные при заданных ценах
        И могу проанализировать это решение

        С уважением

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн