Статистическая значимость. Или не фигней ли вы занимаетесь?

Тема не только для алго трейдеров, и я пытаюсь описать все с помощью 3х математических действий, так что у вас получится дочитать ее до конца и узнать о своем трейдинге больше. Чуть-чуть.

(Картинка, для привлечения внимания и вывода на главную страницу)

Мне показалось удивительным, но ни в фин словаре Смартлаба, ни в поиске по Смартлабу, ни даже в поиске на русском языке по тредерским ресурсам, я, практически, не вижу упоминаниий способов определить статистическую значимость результатов торговой системы или готовых результатов трейдинга.

Вчера, я даже создал тему: https://smart-lab.ru/blog/540321.php для затравки. Народ нарисовал красивые картинки(спойлер: сиськи!). Но ничего не заметил. Люди тестируют торговые системы в экселе, и набирают кучу плюсов на главной. Юлия Князева сливает 40%, и только лишь потом ищет торговую систему. Но… что потом? Вот вы нашли торговую систему. Или вы Вася О., Илья К., и давно и много торгуете, и у вас есть статистика. Возможно в тетрадочке, возможно у брокера.

Вы задавались вопросом – а не случайны ли результаты вашей ситсемы? Отличимы ли от случайного результаты вашего трейдинга? А не фигню ли вы делаете ?

Несмотря на то, что мало кто об этом пишет, есть люди, которые задавались этим вопросом. Есть много страшных слов: Chi squared, p-value, Z-score(ves2010 – привет!), statistical significance, Monte Carlo (а вы смотрите Формулу 1 ?), null hypothesis итд. Не буду вас грузить деталями, и множеством оговорок, а перейду к сути:

Один из простейших способов проверить статистическую значимость ваших результатов – Chi Squared. Он же Хи Квадрат. Главное, зачем он нужен – отвергнуть так называемую нулевую гипотезу. Гипотезу — что вы – мясо. Ну, т.е вы – сливаете. Вернее даже не сливаете, а случайно блуждаете вокруг нуля. А сливают, за вас, плечи (когда их слишком много и вы не с той стороны распределения), комиссии, проскальзывания, инфляция, и… просто время (опционщики – привет!).

Итак, нулевая гипотеза гласит, что как вы не торгуйте, вы — лишь подмножетсво нормального распределения. Ну т.е. блуждаете как Ёжик в тумане. И для того, что бы доказать свою значимость, вернее значимость результатов – нужно протестироваться и отвергнуть нулевую гипотезу! Умные дяди и тети навернули кучу теории вокруг этой задачи: в общем случае у вас есть куча степеней свободы, у каждой степени свободы возможны положительные и отрицательные исходы, и каждый со своей вероятностью.

Но давайте не забывать зачем мы здесь, ок? Мы – (произностится гордо) – торгуем! И какие уж у нас исходы? Только + или -, так? Если по-простому. Причем, если мы сравниваем себя со случайным распределением, то эти + и – одинаково вероятны (ах, вы знаете про логнормальность распределения цен на рынке? Ах вы молодец! Помолчите пока). А для этого случая, критерий Хи Квадрат до безобразия прост:

Χ2 = (|a-b| — 1)^2 / (a+ b)

(здесь все должны открыть ссылку из начала статьи и пустить слезу умиления).

a – положительные исходы

b – негативные исходы.

Вот и 3 обещанных математических действия. Упс, я забыл про модуль! Вы же проходили в школе модуль ?

Еще умные дяди уже подсчитали для вас, каков должен быть этот самый Хи Квадрат, что бы быть статистически значимым. В разной степени

Выше 10.83, уровень достоверности(значимости) 99.9%
Выше 6.64, уровень достоверности(значимости) 99%
Выше 3.84, уровень достоверности(значимости) 95%

Ну, т.е ниже 95% — вы — просто мясо на рынке. Выше 99% — неплохо. 99.9% — у вас есть шансы. Есть 0.1% что вы заблуждаетесь.

Обычно, нормальному человеческому мозгу хочется примеров. Их есть у меня:

Допустим вы торговали целый год и сделали 100 трейдов. Торговали одинаковой суммой, с одинаковым тейком и стопом. 53 раза в + и 47 в минус. Ну, т.е. вы превзошли в этом году 95% тех, кто сливает на рынке. Вы — молодец. Так? Или вы делали фигню? Считаем

X2 = (53-47-1)^2/(53+47) = 5^2/100=25/100=1/4=0.25

Сравниваем с табличкой выше и… 0.25 точно меньше 3.84! Вы — блуждали!

Еще раз: 100 трейдов 70 в плюс, 30 в минус:

X2 = (70-30-1)^2/(70+30)=39^2/100 = 1521/100 = 15,21. Вы сильно выше 99.9%!

(тут пытливый ум скажет: ну ежу же ясно – прибыльных сделок намного больше, значит я – король!)

В то же время, какие типичные показатели для трендовой системы среднего пошиба? Как раз наоборот: 30 прибыльных и 70 убыточных. И на смартлабе куча примеров, что они заратывают. Как? (не знаю! где они берут такие нервы?) Ну конечно за счет больших прибыльных сделок и маленьких убыточных. Но, может они одурачены случайностью? может они случайно блуждают ?

X2 = (|30-70|-1)^2/(30+70)=39^2/100=15,21 Отнюдь!

Ну, и так далее. Пытливый ум может захотеть сказать: единица все портит. Я хфт и делаю 53000 положительных и 47000 отрицательных сделок! Что же получится? Пытливый ум может прикинуть сам, и, немного приуныть за хфт

Последняя напоминалочка: Хи Квадрат быстрый и удобный способ прикинуть значимость, но значения из таблички выше рассчитаны на то, что будет хотя бы 30 попыток (у нас это трейды, ага). Если меньше – результаты недостоверны. Но выход есть – если вы чувствуете, что ваш подход с 15 трейдами в 10 лет – это верняк (не ржите, я держу несколько таких систем!), то у вас есть несколько способов – поискать таблички в интернете, для таких бедолаг. Там есть волшебные, посчитанные значения, для случаев “менее 30 попыток”. Либо, вы можете посмотреть в сторону других инструментов, и проверить ваш верняк на них. Если он работает там, то можно попробовать суммировать попытки из разных инструментов. Но, аккуратно Проверяйте уж тогда на всех, а то вы на пути к переоптимизации Я вас не буду учить плохому!

Ну, и конечно, ваш случай может быть случаем убыточным. Но, если убедиться, что ваша убыточность статистически значима, то вы можете подумать о своем трейдинге с другой стороны: что бы иметь то, что никогда не имели, надо делать то, чего никогда не делали

А что же бедолага хфт? Тот, с 53к\47к. Или, что же бедолага имеющий 53/47 сделок, но (новое? Ключевое условие!) не одинаковых? Одурачены ли они случайностью ?

Для ответа на эти вопросы, очевидно, не достаточно знать распределение положительных и отрицательных сделок! Они что-то знают! Но это уже другая тема, НЕ про Хи Квадрат

статистика алготрейдинг

dip

1 693

с 17 февраля 2011

43 Комментария

Тихий омут
24 мая 2019, 07:12
да на, получи ты уже свой плюсик…
+1
Вестников (Витковский)
24 мая 2019, 07:18
А смысл проверять статистическую значимость результатов нашего трейдинга?
Чтобы расстроиться, потерять уверенность, впасть в ступор или начать тильтовать?

Рынок сам-то имеет статистически значимые ценовые закономерности?
Если нет, то наша торговля вполне адекватна рынку. Придёт другая фаза рынка — будут другие результаты и нашего трейдинга.

Но за топик — спасибо.
Ибо, надеюсь, он напугает и оттолкнёт ещё какое-то число яйцеголовых математиков от трейдинга и от наших денежек.
+9
- MS
  24 мая 2019, 12:46
  Вестников (Витковский), мне представляется, что по критерию не пройдёт ни одна заработавшая система. Иначе это был бы математически доказанный Грааль. Все систематические заработки только у рулящих рынком.
  +2
Wallstep
24 мая 2019, 07:24
webmarketstat.ru/

— в помощь ))

p.s. как Вы предлагаете оцифровать эмоции? Это, собственно, и есть 95% успеха.. .

+1
- G7 (Gone of seven)
  24 мая 2019, 07:32
  Wallstep, а точнее- их отсутствие! (эмоции).
  +1
G7 (Gone of seven)
24 мая 2019, 07:37
Трендовики ведь не 1 к 1 торгуют, как влияет если торгуешь 1 к 10?
0
Пафос Респектыч
24 мая 2019, 08:09
Сделок слишком мало, если ты не хфт. Ничего толком не посчитаешь. Вот тут когда-то писал как я считаю, особо ничего не изменилось: https://smart-lab.ru/blog/251938.php

То есть условно говоря каждую минуту что мы в сделке считаем «микро-сделкой», тогда нормально.
+1
Roman Ivanov
24 мая 2019, 08:19
Во-первых, соотношение положительных и отрицательных исходов не говорит является ли матожидание прибыли положительным. Можно случайно делать сделки с коротким тейкпрофитом и большим стоплоссом. При нулевом матожидание прибыли получим много положительных сделлк
+4
Roman Ivanov
24 мая 2019, 08:22
Во вторых, если стратегия использует выходы не только по TP и SL, то все становится ещё сложнее
+2
Roman Ivanov
24 мая 2019, 08:23
Ну и самое главное — это эффект подгонки, который делает применение каких либо оценок качества мало полезным
+1
cangaroo
24 мая 2019, 08:49
Позволю себе дополнить автора:
Прежде чем начинать серьёзное и трудное дело, очень полезно провести секретный индейский ритуал «Hахуа».
Он заключается в том, что индеец со всей серьезностью спрашивает себя: «Является ли данное занятие выражением глубинных устремлений моего сердца? Действительно ли я хочу именно этого? Буду ли я счастлив, когда буду делать задуманное? Испытаю ли я счастье, когда выполню всё, что задумал? Оправдаются ли мои надежды? Стоит ли эта цель средств, которые придется потратить?»
Практикуйте «Нахуа», и трудных и бесполезных дел в вашей жизни станет гораздо меньше.
https://www.inpearls.ru/

+3
А. Г.
24 мая 2019, 08:55
Пишете грамотный пост про статанализ, а совершаете ошибку новичка: берете статистику сделок. Анализ надо проводить на временном ряде эквити, причём строить его с частотой в 2-3 раза чаще, чем среднее время в позиции, но не реже дневок. И сравнивать по соотношению «доходность-риск» надо отдельно лонги с b&h, а шорты с s&h. Кроме того, для защиты от переоптимизации не помешают критерии относительной (относительно параметров рынка) устойчивости некоторых параметров изучаемого временного ряда для разных временных интервалов.

А чем Excel то не угодил? Там при помощи VBA можно реализовать любой метод статанализа, тем более в интернете куча уже готовых и бесплатных макросов под него. Его единственный недостаток — громоздкость с т. з. загрузки компа.
+11
- KostinTim
  24 мая 2019, 10:19
  А. Г., старичок, что же ты не отвечаешь за свое вранье ..??
  
  вернись в топик
  
  smart-lab.ru/blog/540481.php
  smart-lab.ru/blog/540490.php
  0
  - А. Г.
    24 мая 2019, 10:27
    KostinTim,
    
    https://smart-lab.ru/blog/540519.php#comment9750582
    
    0
    - KostinTim
      24 мая 2019, 10:35
      А. Г., тупо слился Грчаков... отказался свое вранье доказывать про своего любовника КРЫСА
      -1
- Леха Майтрейд
  24 мая 2019, 19:23
  А. Г., я далёк от таких умных слов и математики, поэтому мало что понял из вашего комментария)) вы не могли бы объяснить что б было понятно и домохозяйке, зачем всё это, если можно просто посмотреть на «Profit per trade»… т.е. среднюю прибыль на сделку. И если она покрывает комиссию, проскальзывания и т.д. и еще что-то остаётся — значит система статистически значима и является плюсовой. Разве может быть иначе?
  0
  - А. Г.
    24 мая 2019, 19:33
    Леха Мартьянов (my-trade), качество торговли определяется не только точками смены позиции, но и точками, когда принималось решение о ее неизменности. А последние можно анализировать только по статистике эквити, которую я описал выше. Статистика же сделок отражает только точки смены позиций и потому не дает полной информации о качественности метода торговли. К тому же в статистике сделок легче допустить переоптимизацию.
    
    А конечно для определения допустимого проскальзывания и, соответственно, емкости торговли достаточно статистики сделок.
    +2
ICWiener
24 мая 2019, 08:58
Мда, какая чушь
0
П М
24 мая 2019, 09:54
насколько я понял, бегло ознакомившись с критерием пирсона, формула вообще неверно истолковывается тут.
в оригинале a - частота [сделки с результатом Ra] в реальной выборке
и b — частота [сделки с тем же результатом] в теоретической выборке.
т.е. или и а и б — профиты, или и а и б — лоси. а ставить в одну формулу лоси и профиты не верно.

соответственно, надо как-то моделировать эталонные случайные сделки по случайному закону, то есть нормальное распределение наиболее близкое к наблюдаемому. брать частоты и сравнивать с теми что нагенерила торговая система.

но есть ли в этом хоть какой-то смысл, если мы совершенно точно знаем, что частота лосей будет сильно больше нормальной, а пик = μ — мат ожидание, должен быть в плюсовой зоне?

что-то я лично ничего в этом красивом гуманитарном фантике не вижу.
+2
- SergeyJu
  24 мая 2019, 11:37
  ПBМ, вопрос о статистической значимости положительного сдвига в эквити имеет глубокий смысл. Но критерий не вполне удачный.
  +4
  - Oerlikonium
    24 мая 2019, 11:40
    SergeyJu, отрицательного тоже )
    +2
    - SergeyJu
      24 мая 2019, 11:41
      oerlikon, критерий слома системы.
      +1
  - ch5oh
    24 мая 2019, 11:47
    SergeyJu, это будет следующая статья, видимо.
    0
  - flextrader
    24 мая 2019, 23:45
    SergeyJu, мля, да просто нерелевантный. зато какая отличная перепись в плюсах экспертов матстата.
    критерий вообще надо использовать в одном единственном случае — при известной ген.дисперсии и проверке H0(либо для её -дисп- оценки при заданном CL). но оригинальность метода видимо состоит в том, чтобы проверить им H0 именно относительно mean)))), не считая моментов вообще и даже не считая, че-нить типа (a+b-1)ab/(a+b)^2
    0
    - SergeyJu
      25 мая 2019, 10:57
      flextrader, у меня есть вот такая хорошая книжка:
      http://alleng.org/d/math/math369.htm
      масса критериев проверки всяческих гипотез. На самом деле, есть критерии для оценивания смещения, свободные от распределения, непараметрические и так далее. Критериев напридумывать можно всяких. Например, можно взять отношение суммы сделок к сумме их же модулей. А пороговые значения для такой статистики оценить по Монте-карло.
      +3
      - Пафос Респектыч
        25 мая 2019, 11:01
        SergeyJu, вот это ближе к трейдингу чем многое из раздела про книжки )
        +1
        SergeyJu
        25 мая 2019, 11:07
        Пафос Респектыч, обычно применяют не те статистистики, которые соответствуют проблеме, а те, которые в институте изучали. Иногда впопад, иногда невпопад.
        +1
  - П М
    25 мая 2019, 12:46
    SergeyJu, а если построить normal distribution по известным из реальных сделок mean и deviation (кодю я на английском), то можно ли сравнивать?
    
    допустим у меня ООС получается пси^2 = 11 (а то и 15, если постараться), значит «я неплох»? ведь всё равно надо проверять реальностью.
    
    цифры частот к примеру такие
    
    E O 20.45 0 67 67 149.93 161 67 25 20.45 50 4.12 31 0.53 8 0.04 0 0 3
    вообще похоже на чит, но нету даже всплеска на уровне обрезанных лосей (67)
    возможно всплеска нету потому что корзины достаточно толстые 5%
    0
    - SergeyJu
      25 мая 2019, 12:53
      ПBМ, Ваши цифры мне непонятны. При применении нормальной модели (как и любой другой) возникает проблема соответствия модели данным. Если не лень, можно применить к данным критерий нормальности. Можно забить на отклонения от нормальности. Новиков так делает и читатели счастливы (не все, правда). Но я предпочитаю методы, свободные от предположений о виде распределения. В нормальном случае они слабее, зато робастны.
      +2
    - Пафос Респектыч
      25 мая 2019, 12:55
      ПBМ, по одним только сделкам никаких выводов сделать нельзя, потому что надо сравнивать с рынком на котором торговля. Если рынок сам по себе рос, а вы торговали случайно, то сделки будут всё равно в плюс. Если падал, но вы потеряли меньше чем B&H — то это может быть всё равно очень и очень круто
      +2
Olaf Caldmeer
24 мая 2019, 12:21
Абсолютно похеру на хи квадрат и на мю овал, если годовой итог трейда с учётом налогов, комиссий и прочего обгоняет инфляцию хотя бы на 3%.
+1
- Oerlikonium
  24 мая 2019, 12:49
  Olaf Caldmeer, изначальный посыл в том, чтобы определить, является ли этот годовой итог результатом случайной торговли, или нет. А то один год будет похеру, а другой нет, а потом снова )
  0
MS
24 мая 2019, 12:27
Допустим вы торговали целый год и сделали 100 трейдов. Торговали одинаковой суммой, с одинаковым тейком и стопом. 53 раза в + и 47 в минус. Ну, т.е. вы превзошли в этом году 95% тех, кто сливает на рынке. Вы — молодец.

Молодец, но тоже — сливала.
С учётом комиссии в описанных условиях безубыток 55/45.
0
MS
24 мая 2019, 12:39
В то же время, какие типичные показатели для трендовой системы среднего пошиба? Как раз наоборот: 30 прибыльных и 70 убыточных. И на смартлабе куча примеров, что они заратывают. Как? (не знаю! где они берут такие нервы?) Ну конечно за счет больших прибыльных сделок и маленьких убыточных. Но, может они одурачены случайностью? может они случайно блуждают ?
X2 = (|30-70|-1)^2/(30+70)=39^2/100=15,21 Отнюдь!

Ошибочное применение формулы. В условиях неравных тейков и стопов a и b приобретают иной смысл. Это уже не количества положительных и отрицательных исходов, а произведения их на соответствующий вес. Примерно говоря, (при популярных 3:1 частоты будут 1:3) 0,3*3/(0,3*3+0,7*1) =0,56 и 0,7*1/(0,3*3+0,7*1) = 0,44.
Вот 0,56 и 0,44 подставляйте.
0
alewmt
24 мая 2019, 15:12
То что результат статистически не значим, еще не говорит о том, что он случаен, вообще то
0
Kot_Begemot
24 мая 2019, 15:51
Что-то вы совсем не правильно делаете.

В критерии должно быть отличие одного распределения от другого, «нулевого», а не разница в "+" и "-". И, соответственно, обязано учитываться EV, а у вас этого нет — только "+" и "-", безотносительно их величины.

А потом, что такое хи квадрат (никогда им не пользуюсь) — это статистика сравнения распределений(!), а не интегральных результатов. Пример — у вас есть система которая играет в околоплюс по экспоненциальному закону — вы её сравниваете с нулевым гауссом и получаете… что распределения разные! Из чего отвергаете вывод о том, что ваша система бесполезна, не смотря на то, что она действительно бесполезна.

Здесь нужно не статикой Пирсона пользоваться, а другими оценками.
+4
- Oerlikonium
  24 мая 2019, 17:40
  Kot_Begemot, +100500 ))
  +1
- П М
  24 мая 2019, 23:33
  Kot_Begemot, а, да, так это же интегралы. Те всего две корзинки частот у автора, для положительных и отрицательных сделок, ну так понятнее. Завтра накидаю прогу потестить.
  0
  - П М
    25 мая 2019, 07:15
    ПBМ,
    В статистике принято считать, что общее количество наблюдений (сумма частот) должна быть не менее 50 и ожидаемая частота в каждой градации должна быть не менее 5. Только в этом случае величина, показанная выше, будет иметь стандартное нормальное распределение.
    
    т.е две корзины — мало. да и всё равно что-то не сходится
    откуда в знаменателе второй раз +b..
    сравниваю по этой статье
    https://statanaliz.info/statistica/proverka-gipotez/kriterij-soglasiya-pirsona-khi-kvadrat/
    0
РНЕ
24 мая 2019, 16:53
ти точно фигню делаешь
0
Dachnik
24 мая 2019, 23:17
Есть сезонность, есть циклы, есть просто выжидание 10 лет под дивы)
0
Valeriy Sokolov
25 мая 2019, 15:07
Допустим вы торговали целый год и сделали 100 трейдов. Торговали одинаковой суммой, с одинаковым тейком и стопом. 53 раза в + и 47 в минус. Ну, т.е. вы превзошли в этом году 95% тех, кто сливает на рынке. Вы — молодец. Так? Или вы делали фигню? Считаем
X2 = (53-47-1)^2/(53+47) = 5^2/100=25/100=1/4=0.25

Не знаю случайно или намеренно, в качестве примера автор взял распределение от рулетки )) Там как раз перевес в 2,7% в пользу казино.
Получатся казино — рыночное мясо.
0