Введение
В трейдинге каждая секунда может иметь значение. Но стандартные инструменты часто не позволяют работать с данными высокого разрешения. В этой статье я поделюсь опытом создания кастомного решения для TSLab, которое сохраняет 1-секундные свечи с расширенными метриками (открытый интерес, количество продавцов/покупателей, лента сделок, лучшие бид/аск и др.). Покажу, как забрать эти данные из TSLab, передать их в Python для ML – анализа и т.д.
Задача
Трейдеры часто сталкиваются с ограничениями стандартных платформ: нельзя сохранить сверхмалые таймфреймы, добавить кастомные метрики или быстро переложить данные в Python для ML.
**Цель проекта** — создать инструмент, который:
— Сохраняет 1-секундные свечи с расширенными данными (открытый интерес, лента сделок…).
— Автоматически генерирует CSV-файлы для анализа.
— Позволяет строить интерактивные графики и обучать ML-модели.
**Главный герой** — ИИ-ассистент DeepSeek, который ускорил разработку в несколько раз и решил ключевые технические проблемы.
LLM — новая реальность. Да, осталось много кто про них ещё не особо знает, кто «не верит» и т.д., но им всё сложнее не верить и не замечать.
Я заметил много параллелей между работой LLM и человеческим мозгом. Осознание некоторых параллелей очень порождает многие внутренние рассуждения и инсайты.
Какие параллели и инсайты я вижу:
— Модели очень разные, есть например, рассуждающие модели, а есть не рассуждающие — так же и люди, есть те, кто шустро, быстро что-то делают и хороши в этом, а есть те, кто много думают и хороши в этом. Первые хороши где надо по-быстрому подсуетиться, вторые — где качественно подумать. И «применять» таких людей нужно в релевантных этой составляющей задачах… как и нейросети. Нужен просто фактологический ответ — спроси «быструю», нужно обдумать — спроси «умную».
— У нейросети есть системные промпты. Это и те которые ты прописываешь и те, которые разработчики зашили. О, это отличный аналог всему тому, что у человека на уровне подсознания — это и ценности, убеждения, какие-то яркие предыдущие прожженные в мозгу опыты и т.д.
В новой роли СТО группы Фролов будет отвечать за разработку и реализацию технологической стратегии холдинга, создание и масштабирование IT-решений для всех продуктов VK.
При этом Фролов продолжит заниматься развитием искусственного интеллекта, облачной платформой, рекламными, поисковыми и рекомендательными технологиями, а также курировать развитие ЦОДов для бесперебойной работы сервисов.
Антон Фролов с 2014 года развивал «Яндекс.Переводчик» и «Поиск» «Яндекса». В 2018 году присоединился к команде «Дзена» и за три года прошел путь от СТО до СЕО. В 2023 году Фролов был назначен вице-президентом по AI, контентным и рекомендательным сервисам VK.
www.interfax.ru/business/1017171
Он отметил, что в 2021 году ИИ использовали только 29% компаний сектора. В 2022-2023 годах прирост составил 11% пунктов, в 2023-2024 гг. — 17% пунктов. При этом в Минэнерго прогнозируют увеличение доли до 70% к 2027 году.
«В критических операциях окончательное решение остается за человеком. Мы отвечаем не только за производственный процесс, но и за жизни людей. Для опасных производственных объектов важно четкое разграничение ответственности при использовании ИИ. Параллельно мы ведем работу по стандартизации данных — сегодня их разрозненность остается серьезным барьером для развития технологии», — сказал Шереметцев.
Сектор ТЭК обладает достаточным объемом производственных данных, что способствует развитию ИИ. В 2024 году, по информации Минэнерго, более половины энергетических компаний, внедривших такие технологии, отметили значительный эффект от их использования. Это на 30% больше, чем в 2023 году.
Шереметцев пояснил, что сейчас около 30% руководителей и специалистов ТЭК обладают необходимыми цифровыми компетенциями. Минэнерго работает над расширением программ стажировок и сотрудничеством с компаниями в подготовке ИИ-специалистов. В министерстве подчеркнули, что все программные и аппаратные средства в ТЭК должны быть российского производства.
Мне кажется, что есть две плоскости, в которых надо ждать чего-то интересного.
1️⃣ Первая – это агрегация разных источников данных.
Мы сейчас имеем достаточно разнородную картину. Одни ребята строят что-то на основе телеграм-каналов, другие делают систему на основе свечных данных, третьи – на основе отчетности компаний и т.д., все сфокусированы на чем-то конкретном. Но на самом деле, чем больше у нас источников, тем больше признаков мы можем загрузить в нашу модель и тем больше закономерностей найти.
Я считаю, что телеграм-каналы — это очень интересный и недооцененный источник данных для машинного обучения и одна из больших точек роста всей индустрии в принципе. Стефан Янсен в своей книге «Машинное обучения для алгоритмической торговли на финансовых рынках» описывает, что сейчас компании находятся в поиске новых источников данных. Например, компании покупают спутниковые снимки для того, чтобы по ним оценивать урожайность кофе и торговать фьючерс на кофе. Так же по снимкам из космоса оценивается загруженность портовых терминалов (потому что к ним причаливают танкеры с нефтью), чтобы оценить нефтяные запасы до публикации информации.