Блог им. AlexeyPetrushin

Мера подобия, минус Колмогорова Смирнова

Сравним 3 распределения вероятностей (ps), описывающие изменениe цены акции (xs)

xs: [x0.1, x0.5, х1.0, х2.0, x10 ] изменение цены

ps: [0.01, 0.05, 0.88, 0.05, 0.01] настоящее
ps: [0.00, 0.06, 0.88, 0.06, 0.00] кандидат 'a', мера КС = 0.01
ps: [0.01, 0.06, 0.86, 0.06, 0.01] кандидат 'b', мера КС = 0.02
Колмогоров Смирнов выберет 'а'. И можно представить какие это даст последствия — например прибыль по OTM опционам.

Альтернативы:

— Андерсон Дарлинг, но оно нестабильно и использовать его для эмпирических данных не получится.
— Макс относительная ошибка частот по квантилям. Стабильна, но менее точная.
— Макс относительняя ошибка частот по PMS/Histogram. Дискретная версия Андерсон Дарлинг, стабильность чуть ниже чем у квантилей, но точность чуть выше.
11 комментариев
Проблема не в Смирнове, а в том как вы будете принимать решение по не точным оценкам распределений. Мне лень считать, но есть подозрение, что эти два варианта не различаются статистически значимо, как варианты с гораздо большем отклонением от реального варианта
avatar
Михаил, не понял, распределение 'a' и так сильно отличается от 'настоящего'. Оно показывает 0 вероятность движения х10, в то время как она 1% — отличие сильное.
avatar
Alex Craft, вопрос не про силу (что это такое?), а про статистическую значимость
avatar
Михаил, «статистическая значимость» это некая условная абстракция. Нам интересна прибыль, и меряем мы (в том числе ошибки) в прибыли.

Расчет кол опциона со страйком 2: по 'распределению а' даст 0, по 'настоящему' 0.08. Это сильное отличие. Критерий КС выбрал распределение дающее большую ошибку в деньгах.
avatar
Alex Craft, это не абстракция, а вполне конкретная штука, которая говорит насколько на самом деле вы имеете точное представление о ваших параметрах. Если у вас критерий различается, но не стат значимо, то может быть любой из этих вариантов, а реально и еще куча других. Ну и соответсвенно вы можете оценить, на основе этого разброс интересующего вас параметра (например цену опциона), и на реальных данных это почти всегда будет очень большой диапазон. И вам давно нужно уходить от точечных оценок к диапазонам — доверительным интервалам, если вы хотите принимать достаточно взвешенные решения в условиях неопределенности
avatar
Михаил, про преимущества интервалов перед точечными оценками согласен. Мне ближе байесовский вариант с распределениями для параметров (значения параметра попадает в 95% область распределения). «Статистическая значимость» хотя похоже, но как то меньше нравится...

Но, конкретно в этом случае — может я что то упускаю, но мне видится использование АндерсонДарлинг как радикально лучше.
avatar
Alex Craft, не очень понятно, что это за случай — в реальной жизни у Вас нет реального распределения и вы можете сравнивать только две оценки, но вы этого сравнения не делаете
avatar
Статистика Колмогорова-Смирнова отвечает только на вопрос совпадения частот значений, встречающихся на выборке не меньше N^1/2 раз и слабо отличающихся по значениям на остальных редких. И она только отвечает на вопрос «совпадают» или «не совпадают», а не «лучше» или «хуже». 
avatar
А. Г., «The Kolmogorov–Smirnov statistic quantifies a distance between the empirical distribution function of the sample and the cumulative distribution function of the reference distribution» — т.е. это именно мера совпадения, а не бинарный вывод совпадает/нет
avatar
Alex Craft, критерий Колмогорова- Смирнова работает только для выборок из одинаковых распределений:

«Всё меняется при проверке сложных гипотез, когда по анализируемой выборке оцениваются параметры теоретического закона, согласие с которым проверяется. При проверке сложных гипотез свобода от распределения теряется. При проверке сложных гипотез и справедливости проверяемой гипотезы распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров. Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни в коем случае нельзя

Если у Вас нестационарные либо средние, либо дисперсии в выборках, но ничего, кроме различия, этот критерий не покажет.
avatar
А. Г., да, спасибо за замечание, я упустил условие N^0.5. В принципе, этим все сказано. Получается, в самом критерии КолмогороваСмирнова сказано что его нельзя применять в финансах :). Потому что нам интересны в том числе расхождения в событиях встречающиеся меньше N^0.5
avatar

теги блога Alex Craft

....все тэги



UPDONW
Новый дизайн