Для грамотных математиков любящих графики случайного блуждания, распределения приращений и кибернетикам с априорными гипотезами без доказательств.
Сжатие данных - алгоритмическое преобразование данных, производимое с целью уменьшения занимаемого ими объёма, за счет устранения
избыточности, содержащейся в исходных данных — повторяющихся последовательностей и значений.
Случайные сигналы, процессы, последовательности, белый шум не обладают свойством избыточности. Сжатие данных принципиально
невозможно без потерь.
Гипотеза — если колебания цен есть случайный процесс то сжатие данных последовательности приращений не возможно и коэффициент сжатия не должен превышать 1.
Условия испытаний.
— Взяты часовые приращения за
2015-2016г.г.
— На каждое приращение выделено
2 байта для минимизации исходных данных и
чистоты эксперимента.
— Для каждого инструмента сформирован файл размером
2 байта х кол-во приращений.
- что бы не изобретать велосипед файлы были
заархивированы программой WINRAR.
Результат испытаний.
Все последовательности были успешно сжаты.
ВЫВОД — ГИПОТЕЗА НЕВЕРНА. Колебания цен НЕСЛУЧАЙНЫ, а имеют закономерности, повторяющиеся последовательности и тенденции.
Соответственно изменения цен могут быть прогнозируемыми с помощью технического анализа.
Конец.
Но если алгоритм сжатия должен действовать для всех вариантов, то например (101010101010) или (1001 1001 1001)то минимально требуемый размер под хранение информации будет уже больше.
3бита кол-во серий 4бита длина серии 4бита серия и получаем на выходе 11 бит. и сжатия уже нет.
Различная энтропия последовательностей газпрома и usdeur ну никак не означает что данные последовательности формируются неслучайными процессами.
Одна и та же функция генерирующая случайную последовательность может сформировать как ряд с высокой энтропией так и низкоэнтропийный ряд с равной вероятностью.
Я прям охренел от такого нестандартного подхода!
прикольно получилось
причем я думаю, реально вывод относительно EURUSD получился в точку!
"Коэффициент сжатия — основная характеристика алгоритма сжатия. Она определяется как отношение объёма исходных несжатых данных к объёму сжатых, то есть:, где k — коэффициент сжатия, So — объём исходных данных, а Sc — объём сжатых. Таким образом, чем выше коэффициент сжатия, тем алгоритм эффективнее. Следует отметить:
PS: для тех, кто не понял — поясню, в данных могут присутствовать биты/байты, которые не несут информации, и поэтому будут сжиматься в десятки раз.
Определение случайности по Колмогорову и Мартин-Лефу: чтобы строка была признана случайной, она должна:
Новых мыслей относительно того, что мы изучаем в рынке и какими средствами — не заметил, может пропустил. Правда, сегодня увидел маленький-маленький намек, но он остался без развития. Можно даже было бы сделать генератор вариантов для таких дискуссий, загрузить его чем-то, к устройству рынка отношения не имеющего и запустить.
— Почему вы ищете потерянные ключи под фонарем?
— Потому, что здесь светлее.
Есть такая математическая дисциплина — теория хаоса, ее можно применять к рынку. Один из постулатов — малые изменения в начальных данных могут привести к большим последствиям (многие слышали про «эффект бабочки»). Этот постулат можно попробовать перенести на методологию — немного не то исследуем, немного не тем инструментарием — и на выходе получаем что-то сомнительное. Даже при всей аккуратности в выкладках. Про неаккуратность (математическую) уже не говорю.
Недавно ТС публиковал пост про фрактальную размерность.
Дал известное определение через предел (ПРЕДЕЛ!), а потом привел программу, которая считает эту фрактальную размерность по нескольким свечкам. В чем ошибся тогда ТС?
В том, что связал фрактальную размерность с трендом, в количестве свечек, забыв, что такое предел, в том что не ответил на вопрос про 64 свечки или в том, что не заметил, как Старченко осторожно высказывался относительно своего алгоритма?
Ну, да, есть сомнения. Ну, неаккуратность, сводящая пост в 0.
Но главное было не в этом.
А есть ли смысл применять фрактальную размерность к рынку?
Вопрос на понимание.
Найдите хотя бы 3 причины, делающие такое применение бессмысленным, бесполезным.
P.S. ТС горы бы свернул, определись он точнее с предметом, инструментарием и методологией. А так он просто тратит свое время и фантазию.
С уважением к ТС.
Соответственно ТС старается переложить предварительную работу по отсеву идей на «коллектив». При этом ТС иногда на 90% не согласен с идеями которые описывает, но Ведь «ТС может ошибаться», поэтому ТС занимается провокацией через «неаккуратность»
ТС ищет что нибудь нестандартное (на его взгляд) и «кидает камушки в озеро понаблюдать за рябью».
по поводу 64 — старая привычка втыкать везде 2^n, мне так проще считать и запоминать.
А если пожать сиплого что получится? Да, и втб интересно посмотреть ))
Но, проблема в том что, вывод не правильный. Приращения сами по себе могут оставаться случайными, при этом модули их — отнудь не случайные величины. Они несут в себе закономерности сохранения волатильности, как суточной так и общей. Именно эту закономерность эксплуатирует винрар, когда хорошо сжимает Газпром (где волатильность легко предсказуема) и тяжело сжимает евродоллар, где волатильность ровная.
Грамотный математик, подставил отсутствующую запятую.
2.Для вычисления верхней границы Показателя колмогоровской сложности применяется любой метод компрессии для исследуемой последовательности.
1. Практического применения нет.
2. Что понимать под случайностью. Представим модель: двумерное распределение приращений. Направление — биномиальное, размер — Пуассон. Есть подозрение, что коэффициент сжатия будет всегда больше 1, если p<>1/2 в биномиальном. А обе размерности при этом случайны.
На практике это модель для направленного тренда за 10 лет. Нет ответа насколько он случаен.
3. Эта модель с p =1/2 и детеминированной функцией размеров приращений тоже невозможно торговать. А сжатие у неё будет близко к 2.
Итак, пусть знаки приращений распределены биномиально с p=1/2, размеры приращений — константа.
Алгоритм упаковки: записываем длины серий положительных и отрицательных последовательных приращений.
Пусть n — количество приращений. Тогда с вероятностью 1-2^(-n) упакованное слово будет короче исходного. Матожидание же коэффициента сжатия — e.
Если p > 1/2, то это матожидание ещё возрастает.
«О! Мы взяли какой-то алгоритм сжатия, какие-то данные и всегда получаем коэффициент сжатия >1. Данные неслучайны! По Колмогорову!»
«О! Мы взяли биноминальное распределение, но распределяем знаки, и получили равномерное дискретное распределение — конечное число значений с равными вероятностями — дискретный белый шум/подкидывание монеты»
«О! мы забыли что, при сжатии в архив добавляется информация для восстановления»
Так если Вашу последовательность сжимать по Вашему алгоритму, то:
1. на признак серия/не серия выделяется 1 бит, то коэффициент сжатия = 1/(1+доля несерийных значений) — всегда меньше 1
2. на признак серия/не серия 2 бита — чтобы коэффициент сжатия был не меньше 1, кол-во несерийных значений должно быть меньше 1/3 от всей последовательности, при условии что все серии будут равны по длине четырём, иначе, что никак не соответствует равномерному дискретному распределению.
3. дальше только хуже.
Ну при p=1 это же тоже случайный процесс по Вашему ;)
«О! Мы пукнули мозгом! Так красиво и высокомерно пошутили!»
Вот пример результата предложенного алгоритма.
Последовательность приращений: +d+d+d-d+d-d-d-d-d-d-d+d
Сжатая строка: +31161
(+31161) =(+ (1) 3 (011) 1(001) 1 (001) 6(110) 1 (001) получаем (1011001001110001) 16 бит
Сжали с приращением на 4 бита — оригинально!
Понятно, что будет небольшой перекос из-за того, что нулевые приращения нужно приравнять либо к 0, либо к 1. Чтобы уменьшить его влияние, я взял часовые цены закрытия с 2010-го года для сбера и газа и с 2013-го для EURUSD.
Дополнительно сформировал псевдослучайную выборку такой же длины, как и данные сбера/газпрома.
Результаты:
газпром - 1.2598
сбер - 1.2602
eurusd - 1.1964
рандом - 1.2595
Может у тебя именно псевдо-рандомы? многие реализации языков программирования грешат некачественной реализацией ГПСЧ
сбер - 0.9647
газпром - 0.9647
eurusd - 0.9386
псевдо-рандом (длина сбера) — 0.9648
псевдо-рандом (длина евро) - 0.9404
А вот если брать рандом с нормальным распределением то ...
В любом случае спасибо за конструктивные идеи.
Я, кстати, выдал знаки приращений в байтовый поток, используя три состояния (0, +1, -1), чтобы не было биаса от нулевых приращений. Так вот, коэффициент сжатия получился около 5. Почувствуйте разницу относительно битового потока. Но газпром и сбер сжался даже чуть хуже, чем псевдо-случайная последовательность :)
эффектный и эффективный пример сжатия бесконечного ряда — фракталы — красивая картинка с множеством мандельброта размером 64000х64000 пикселей будет весить ~ 4 гигабайт, а в виде программного кода не более 50 килобайт.