Перед тем как вы погрузитесь в изучение статьи, обратите внимание на тот факт что всё упомянутое в ней не является финансовой рекомендацией для принятие более взвешенного решения просьба провести свое собственное исследование.
Было очень много информации про DeepSeek r1 для переваривания. Кругом слухи, интервью, юзкейсы, восхищения и подозрения. Сейчас, мне кажется, уже можно разобраться в некоторых утверждениях. Поехали:
Не совсем так. DeepSeek потратили эти деньги только на финальный запуск обучения, из которого получилась сама модель, которой мы пользуемся. То есть в эту сумму не входят все предыдущие эксперименты (а их точно было много), а также косты на людей, данные, видеокарты. Более того, r1 это модель поверх другой базовой модели — DeepSeek-V3. Очевидно, она тоже возникла не из воздуха и не бесплатно. Ну и еще вопрос: откуда данные для обучения? Понятно, что часть они собрали сами. Но похоже еще часть насинтезировали с других моделей — как минимум это модели OpenAI, Anthropic и, внезапно, Yandex. Такой вывод можно сделать из того, что r1 нет-нет, да и представится чужим именем. Ну а насинтезировать данные — это тоже небесплатно, само собой.
Перед тем как вы погрузитесь в изучение статьи, обратите внимание на тот факт что всё упомянутое в ней не является финансовой рекомендацией для принятие более взвешенного решения просьба провести свое собственное исследование.
DeepSeek-V3 — это умная, эффективная и потенциально революционная архитектура языковых моделей. Она делает те же задачи, что и GPT, но за меньшие ресурсы. Вот ключевые моменты с примерами из жизни:
DeepSeek сжимает Key/Value вектора, уменьшая их размер, но сохраняя смысл. Это похоже на архивирование данных: ты экономишь место, но при распаковке получаешь тот же файл.
Пример:
Почему это важно?
MLA позволяет обрабатывать длинные тексты без перегрузки памяти. Например, если нужно обработать 10 страниц текста, DeepSeek справится быстрее и с меньшими затратами.