Завьялов Илья Николаевич
Завьялов Илья Николаевич личный блог
Вчера в 13:56

Завьялов Илья Николаевич опять про DeepSeek.

Перед тем как вы погрузитесь в изучение статьи, обратите внимание на тот факт что всё упомянутое в ней не является финансовой рекомендацией для принятие более взвешенного решения просьба провести свое собственное исследование.


Было очень много информации про DeepSeek r1 для переваривания. Кругом слухи, интервью, юзкейсы, восхищения и подозрения. Сейчас, мне кажется, уже можно разобраться в некоторых утверждениях. Поехали:

DeepSeek потратили $6 миллионов на обучение модели ❌

Не совсем так. DeepSeek потратили эти деньги только на финальный запуск обучения, из которого получилась сама модель, которой мы пользуемся. То есть в эту сумму не входят все предыдущие эксперименты (а их точно было много), а также косты на людей, данные, видеокарты. Более того, r1 это модель поверх другой базовой модели — DeepSeek-V3. Очевидно, она тоже возникла не из воздуха и не бесплатно. Ну и еще вопрос: откуда данные для обучения? Понятно, что часть они собрали сами. Но похоже еще часть насинтезировали с других моделей — как минимум это модели OpenAI, Anthropic и, внезапно, Yandex. Такой вывод можно сделать из того, что r1 нет-нет, да и представится чужим именем. Ну а насинтезировать данные — это тоже небесплатно, само собой.

DeepSeek r1 — это сторонний проект (side project). ❌ 

Тоже сомнительно. Это подается под соусом «чуваки по фану сделали модель уровня о1 на коленке и за плошку риса». Разлетелся этот тейк после твита Han Xiao, хотя он к deep seek особого отношения не имеет. Между тем, DeepSeek финансируется исключительно китайским хедж-фондом High-Flyer. Хедж-фонд — это такой инвестиционный фонд для богатых, который использует сложные и рискованные стратегии, чтобы заработать больше денег. Так вот этот High-Flyer вертит активами на $7 миллиардов, а его основатель — Лианг Венфенг — является и основателем DeepSeek. То есть это буквально один и тот же человек. Согласно Reuters, в марте 2023 года High-Flyer написал в WeChat (китайская соцсеть), что они выходят за рамки трейдинга и концентрируют ресурсы на создании «новой и независимой исследовательской группы для изучения сущности AGI». Ну и позже в этом же году появилась компания DeepSeek. Уже не звучит, как сторонний проект, не так ли?

DeepSeek обошлись небольшим количеством видеокарт. 

Кажется, что это отчасти так. Но только отчасти. Они репортят, что для базовой модели V3 они использовали 2048 штук H800. Утверждается, что DeepSeek не использовали видеокарты H100 из-за санкций США, которые сделали их труднодоступными. Вместо этого они оптимизировали свою модель и процесс обучения для работы с H800, у которых ниже пропускная способность памяти, но которые можно легально купить. Для преодоления ограничений H800 они пошли на разные хитрости вроде программирования на уровне PTX (низкоуровневый язык для GPU), чтобы эффективно управлять коммуникацией между видеокартами, и использование вычислений в FP8, прогнозирование сразу нескольких токенов, использование Mixture of Experts. В общем, голь на выдумку хитра и это очень впечатляет, слов нет. Но и здесь стоит учесть две вещи. Во-первых, 2048 штук H800 — это порядка $50 миллионов (side project, ага). Во-вторых, CEO Scale AI Александр Ванг утверждает, что у DeepSeek есть 50.000 штук H100 (то есть они их купили в обход санкций). Это слух, который невозможно подтвердить или опровергнуть. Илон Маск на эту инфу написал «Obviously», но он тот ещё актер одного театра. Есть мнение, что этот слух пошел от другого твита, где утверждается, что у DeepSeek 50 тысяч видеокарт Hopper, без уточнения каких конкретно (то есть возможно и H800). Так или иначе, источник этих слухов «trust me bro», но я нисколько не удивлюсь, если это окажется правдой.

DeepSeek r1 крутая модель, которая встряхнула больших игроков вроде OpenAI и заставила их напрячься. ✅ 

Да, и да. Модель и правда классная, да еще и открытая. Читать цепочку ее рассуждения очень интересно и залипательно, а в веб версии к ней прикрутили еще и поисковик и ее можно использовать, как Google Deep Research. И все это бесплатно в веб версии. При этом модель открыта и потенциально я могу запустить ее у себя на работе на 8 x H100. Более крутых открытых альтернатив, мне кажется, нет. А при этом по API она стоит копейки, в сравнении с o1. Кажется, что именно из-за r1 Сэм Альтман решил дать доступ к o3-mini аж бесплатно. А Google начали хвалиться тем, что их последняя думающая модель Gemini доступна бесплатно, обладает большим контекстным окном и к ней скоро прикрутят поиск. Тем не менее, независимые бенчмарки и оценки которые я видел говорят о том, что r1 уступает o1. По моим личным ощущениям и тестам это тоже так. 

Есть 6 версий DeepSeek r1 разного размера. 

Это не так, r1 на самом деле один и он MoE на 671 миллиард параметров. Все остальное, это файн-тюны Qwen и Llama. Самое важное здесь понимать, что в них нет Reinforcement Learning этапа обучения, который и делает всю магию r1. Если вы видите новость о том, что кто-то запустил r1 на телефоне — это туфта.  

Из-за deepseek упали фондовые рынки.

Откровенно говоря, я не знаю. Может оно и повлияло, но лично мне это кажется сомнительным. Хотя определенная логика тут, конечно, есть: опасения по конкурентоспособности американских бигтехов и сомнения в необходимости больших затрат в инфраструктуру ИИ. Но кажется, что в мире есть факторы и посильнее. 

Ну и пара моих личных спекуляций (вообще не претендую на истину)

DeepSeek дали нам классную модель и подвинули Meta на фронте опенсорса — а это ничего себе. Лично мне кажется, у них есть уже и другие модели (скажем r2) и скоро мы о них услышим. В то же время, я думаю дешевые цены на r1 долго не продержаться, мне кажется тут китайцы демпингуют. 

0 Комментариев

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн