Вам дали 10000 числовых рядов формата (календарная дата; число) и предложили рассортировать их пополам на «похожие на (цены) американские акции» и непохожие. Или, скажем, «более похожие» и «менее похожие». Как вы будете это делать?
1. Нужно выработать меру похожести.
2. Вычислить меру похожести для каждого из рядов.
3. Рассортировать.
Самое сложное/интересное, конечно, в первом пункте. Тут вся загвоздка: «похожесть» это абстракция, кто как её формализовал, тот так и понимает. Так что тот кто «заказывает» сортировку тот и должен предоставить формализацию ну или хотя бы что больше конкретики про понятие «похожие».
Replikant_mih, Естественно, речь о «мере похожести», только задачка в том и состоит, чтобы вы её сформулировали. Если бы она была предоставлена «заказчиком», то вообще никакой задачки бы не было: вычислить и рассортировать это вообще не задачка.
Ivan FXS, Ну, например, я возьму российские акции, посчитаю среднюю цену по ним в среднем по рядам, сделаю то же по американским. Например, американская средняя будет ниже, я посчитаю мерой похожести близость средней цены ряда к нулю. И буду прав для этого критерия похожести. Но вас же такой вариант не устроит. Но я же не знаю, что у вас за «похожесть» в голове. Ну или не знаю, как вы эту похожесть планируете использовать, тогда бы меру похожести я бы вырабатывал под критерий целей дальнейшего использования — тоже совсем другое дело.
Replikant_mih, «возьму… акции, посчитаю среднюю цену по ним в среднем по рядам» — получите для каждой акции некое число, все числа будут разными… и что это дает?
«как вы эту похожесть планируете использовать» — хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
Вот, идея-то здравая! Были у меня у самого подобные мысли. Я так чисто сначала докопался, сорри). Ну как по мне не хватило условий в задаче для её решения). Терь хватает).
Если теперь по существу: Ну тут много нюансов. Дальше что-то типа мозгового штурма:
Думаю, «нормально» может быть не одно. Думаю, возможно несколько точек притяжения и, думаю, так правильнее будет делать. Можно придумать какие-то метрики, характеризующие ценовой ряд (причем не за всю историю, а на некотом участке, т.е. по факту это акция в некотором состоянии, которое можно разложить на «характер» акции + примесь каких-то внешних факторов), дальше можно попробовать кластеризовать с помощью ML. Если модель сможет вычленить точки притяжения (кластеры), дальше уже будет и мера похожести — по факту расстояние до центра кластера. Дальше надо смотреть, экспериментировать. Смотреть как меняется в динамике эта мера, может там какие-то паттерны в этом. Дальше можно разные типы стратегий для разных кластеров смотреть — где какая лучше ложится. И т.д., дальше сложнее фантазировать, потому что всё туманней становится, дальше нужно фантзировать уже по ходу исследований).
Портфель ВДО (16,9% за 12 мес) и портфель Акции / Деньги (7,4% за 12 мес). Большая встряска и настрой покупать, когда рынок нервничает
Сегодня сразу о двух наших публичных портфелях.PRObonds Акции ...
Metzger, для начала скажите, в насколько глубокой заднице окажутся США без китайских ТНП и РЗМ, каким образом они компенсируют снижение поступлений импортных пошлин и налогов от своих компаний по в...
2. Вычислить меру похожести для каждого из рядов.
3. Рассортировать.
Самое сложное/интересное, конечно, в первом пункте. Тут вся загвоздка: «похожесть» это абстракция, кто как её формализовал, тот так и понимает. Так что тот кто «заказывает» сортировку тот и должен предоставить формализацию ну или хотя бы что больше конкретики про понятие «похожие».
«как вы эту похожесть планируете использовать» — хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
Вот, идея-то здравая! Были у меня у самого подобные мысли. Я так чисто сначала докопался, сорри). Ну как по мне не хватило условий в задаче для её решения). Терь хватает).
Если теперь по существу: Ну тут много нюансов. Дальше что-то типа мозгового штурма:
Думаю, «нормально» может быть не одно. Думаю, возможно несколько точек притяжения и, думаю, так правильнее будет делать. Можно придумать какие-то метрики, характеризующие ценовой ряд (причем не за всю историю, а на некотом участке, т.е. по факту это акция в некотором состоянии, которое можно разложить на «характер» акции + примесь каких-то внешних факторов), дальше можно попробовать кластеризовать с помощью ML. Если модель сможет вычленить точки притяжения (кластеры), дальше уже будет и мера похожести — по факту расстояние до центра кластера. Дальше надо смотреть, экспериментировать. Смотреть как меняется в динамике эта мера, может там какие-то паттерны в этом. Дальше можно разные типы стратегий для разных кластеров смотреть — где какая лучше ложится. И т.д., дальше сложнее фантазировать, потому что всё туманней становится, дальше нужно фантзировать уже по ходу исследований).