Не все RL алго одинаково полезны

30 апреля 2020, 22:23
|
ipsnow

Интересный тред на ycombinator — обсуждение пейпера Using Reinforcement Learning in the Algorithmic Trading Problem. Понятное дело, к пейперу много претензий — вероятный оверфит, малый ProfitPerTrade, нереалистичные условия бэктеста и т.д. Если бы все это было учтено, статьи бы мы не увидели.
Кроме дельных замечаний от бывших квантов, узнал из комментов про фатальный недостаток A3C — теоретическую малоприменимость в состязательных средах:

An additional problem with this is that they use A3C here for trading. A3C is known to not be suitable for adversarial environments (e.g. board games, like Chess). I wrote a paper that demonstrated that A3C is as exploitable as a uniform random strategy in board games (specifically, some poker variants): arxiv.org/abs/2004.09677

It’s mostly an issue that A2C isn’t designed for adversarial environments. It also doesn’t have any notion of hidden information, while other algorithms (eg CFR) explicitly handle this. There’s a well-known phenomena of cycling, where agent A will beat agent B which beats agent C which beats agent A; A2C can exhibit this. Think of rock/paper/scissors- AlwaysRock beats AlwaysScissors which beats AlwaysPaper. To avoid this, you typically need to do some sort of averaging.
link

Понятно, что многие алго из описанных в интернете можно доработать и построить на их основе рабочую стратегию. Так что не принимаем это близко к сердцу и продолжаем экспериментировать.

Ключевые слова:
RL

★2

1 комментарий

Материал ничего себе. Безусловно проблемы есть, но большей частью они надуманны, скорее потому, что авторы (топика и комментов) не знают как их обойти.

3Qu

01 мая 2020, 00:17
Ответить

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Не все RL алго одинаково полезны

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога ipsnow

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Не все RL алго одинаково полезны

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога ipsnow