Блог им. Ballu90
Китайский стартап DeepSeek 20 января открыл доступ к своей новейшей модели ИИ под названием DeepSeek-R1, которая, по словам разработчиков, превосходит с лучшие мировые аналоги по качеству анализа или как минимум сопоставима с ними. При этом новый продукт в десятки раз дешевле. Модель имеет открытый код, как семейство Llama от Meta Platforms* (META), поэтому желающие могут использовать и ее саму, и ее ноу-хау. Новость о появлении нейросети DeepSeek-R1 мировое инвестиционное сообщество заметило лишь к концу прошлой недели, а 27 января на фоне сенсации прошли панические распродажи в акциях технологических компаний, торгуемых в США.
*Деятельность Meta Platforms Inc. по реализации продуктов Facebook и Instagram на территории Российской Федерации запрещена по основаниям осуществления экстремистской деятельности.
Возможные последствия для рынка и отдельных компаний
В краткосрочной перспективе прогнозируем продолжение коррекции в акциях большинства американских технологических компаний, связанных с индустрией искусственного интеллекта. На наш взгляд, глобальные инвестиционные программы в этой сфере кардинальному пересмотру на подвергнутся, борьба за лидерство продолжится, а крупные бигтехи смогут извлечь для себя пользу из китайских разработок. Для компаний, не связанных с производственной цепочкой для ИИ-чипов и дата-центров, существенных фундаментальных рисков не просматривается, скорее открываются новые возможности. Протекционистская политика США не позволит американским компаниям и заинтересованным в сотрудничестве со Штатами странам использовать ПО на базе китайского ИИ по соображениям национальной безопасности. Тем не менее сильный эффект на рынок будут оказывать комментарии руководителей крупнейших компаний и государственных деятелей. Так, Дональд Трамп уже высказался о прорыве китайского стартапа и назвал это хорошей новостью для США из-за возможности работать с ИИ дешевле, но также призвал американских технологических гигантов проснуться.
Вокруг ситуации с DeepSeek остается еще много неопределенности, компанию обвиняют в использовании запрещенных для китайского рынка чипов Nvidia и занижении реальных расходов, а также в несоответствующем лицензии OpenAI использовании их модели для обучения своей собственной. «Царь ИИ и крипто» Дэвид О. Сакс называет это кражей данных интеллектуальной собственности OpenAI.
Уже во вторник очередной удар американским амбициям в сфере ИИ нанесла Alibaba, которая представила семейство моделей Qwen2,5-VL, способных управлять ПК и смартфоном, как это делает виртуальный помощник OpenAI Operator. Самая мощная модель в семействе Qwen2,5-VL превзошла лучшие западные, в том числе GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic в ряде тестов.
▪ Ноу-хау DeepSeek будут интегрироваться в модели MSFT, AMZN, GOOGL, META, AAPL, CRM, NOW, WDAY, ADBE и многих других компаний. Это послужит улучшению качества и эффективности их моделей нейросетей, приведет к снижению цен на их обучение и использование, в результате к росту доходов бизнеса.
Провайдеры облачной инфраструктуры, такие как AMZN, MSFT и GOOGL Для данных компаний стоит ожидать три основных эффекта на бизнес. Во-первых, потенциальное снижение стоимости обучения новых моделей (training cost) и снижение потребности в CAPEX для целей обучения, а свободные мощности смогут быть использованы для обработки запросов клиентов (inference). Во-вторых, снижение себестоимости обработки запросов моделей ИИ — т.е. снижение inference cost и затрат провайдеров инфраструктуры на оказание услуг своим клиентам. В-третьих, снижение стоимости обработки запросов языковых моделей на всем рынке будет оказывать ценовое давление на услуги провайдеров облачной инфраструктуры, которые они предоставляют своим клиентам. В то же время кратно более низкая стоимость услуг открывает возможности для коммерциализации новых способов применения ИИ и росту выделяемых на него бюджетов во всей экономике, что существенно увеличивает объем потребления. В экономической теории это получило название парадокс Джевонса — ситуация, когда технологический прогресс, повышающий эффективность использования ресурса, приводит к увеличению его потребления. В результате, с учетом снижения цены и роста объема мы все же ожидаем чистый позитивный эффект для темпов роста ИИ-выручки технологических гигантов.
▪ Компании, специализирующиеся на ИИ-чипах для дата-центров и серверов (NVDA, AMD, AVGO, MRVL, TSM-US, ASML, AMAT, KLAC, LRCX, ANET, MU, DELL, SMCI, HPE, VRT), испытают наибольшее давление в краткосрочной перспективе, так как самый быстрорастущий и большой сегмент рынка чипов может пострадать. На данный момент мы не ожидаем сильного сокращения инвестиций в ИИ-инфраструктуру по следующим причинам. Во-первых, менеджмент крупных технологических компаний не будет менять свою стратегию капитальных инвестиций непосредственно перед публикацией отчета, так как для переоценки ситуации требуется время, но может заявить о возможной оптимизации затрат. Во-вторых, технологическая «гонка вооружений» с Китаем ускоряется и США будут использовать все возможности для сохранения превосходства, не исключая мощность дата-центров. В-третьих, потребность в вычислительной инфраструктуре продолжает расти во всех регионах. Если ИИ как таковой будет дешеветь, это сделает его коммерческое применение возможным в большем количестве областей и повысит его потребление, как мы уже описывали выше. Мы ожидаем, что доля инфраструктуры для целей inference будет расти быстрее, чем ожидалось ранее, а гиперскейлеры будут быстрее переходить на собственные относительно дешевые и эффективные чипы для этой задачи. В результате, в плюсе окажутся AVGO и MRVL, которые на горизонте 2–3 лет станут главной угрозой для роста бизнеса NVDA. В-четвертых, у многих участников рынка есть сомнения относительно того, во сколько в действительности обошлось обучение DeepSeek, не исключается, что раскрытые данные ограничиваются затратами на работу ЦОД. Тем не менее даже если этот скепсис оправдан, разница в цене остается очень высокой.
▪ Влияние трансформации рынка ощутит на себе производственная цепочка, связанная с ИИ-чипами для потребительской электроники, транспорта, робототехники и интернета вещей, в которую входят в первую очередь QCOM и NVDA. Более эффективные алгоритмы ИИ приближают момент переноса вычислений на чипы на конечных устройствах. Главными технологическими лидерами в этой сфере являются QCOM и NVDA.
Кто сотворил это чудо?
DeepSeek была основана в мае 2023 года специалистом по теории ИИ, миллиардером Ляном Веньфеном (Liang Wenfeng). В 2016 году Лян вместе с однокурсниками основали количественный хедж-фонд High-Flyer, который опирался на математические модели при принятии инвестиционных решений. Сейчас активы под управлением фонда превышают $8 млрд, он является единственным инвестором стартапа DeepSeek. В 2021 году Лян закупил тысячи микропроцессоров NVIDIA A100, а после экспортных ограничений США в сфере технологий продолжил приобретение чипов NVIDIA, адаптированных для китайского рынка. Впервые нейросеть DeepSeek заявила о себе в июле 2024 года, когда представила модель DeepSeek-V2, которая тоже стала своеобразным прорывом и заставила всех китайских разработчиков ИИ существенно снизить цены на свои модели. Текущий релиз DeepSeek не станет исключением. Стоит отметить, что при формировании штата Лян отдавал предпочтение кандидатам с лучшими техническими навыками, уделяя меньше внимания известным именам в резюме, и по факту вырастил с нуля одну из лучших команд в мире.
В чем заключается прорыв новой модели китайского DeepSeek?
Модель DeepSeek-R1, которая позиционируется как «модель размышлений», в независимых тестах существенно превосходит большинство существующих аналогов по производительности. К тому же она в десятки раз дешевле. По качеству анализа ее суммарный балл лишь немного уступает самой современной GPT-o1 от OpenAI, но в некоторых тестах на количественный анализ Quantitative Reasoning (MATH-500) и написание кода Coding (HumanEval) превосходит даже американскую модель.
Обучение модели заняло всего 60 дней и проводилось на урезанных чипах NVIDIA H800 для китайского рынка и возможно более старых A100 и A800. Компании понадобилось в 20–30 раз меньше вычислительных мощностей, чем OpenAI, чтобы обучить свою модель. Затраты на обучение DeepSeek-R1 составили $5,5 млн, а на обучение GPT-4 было потрачено около $80 млн. При этом неизвестно, какие данные использовала DeepSeek для тренировок своей модели и где она эти данные брала.
Как нейросеть DeepSeek добилась прорыва?
Кто-то пытается преуменьшить заслуги DeepSeek, среди них глава OpenAI Сэм Альтман, но мы не согласны с такой позицией. Как выразился глава ИИ-стартапа Perplexity Аравинд Шринивас, говоря про достижения китайских ученых и разработчиков, «необходимость — мать изобретений». В условиях жестких ограничений со стороны США и их союзников на доступ Китая к технологиям, локальным компаниям ни оставалась ничего другого, как искать собственный путь развития. На этом фоне особенно интересно вспомнить риторику вокруг запрета экспорта передовых технологий в Китай: главы крупнейших американских компаний тогда пытались убедить правительство, что такие ограничения лишь придадут стимул собственным инновациям КНР.
DeepSeek действительно использовала публичные наработки других компаний, к примеру предыдущие версии моделей GPT или Llama, что является обычной практикой. Но то, как команда DeepSeek переосмыслила ключевые моменты вычислительного и мыслительного процесса, по меньшей мере заслуживает признания. Среди основных улучшений стоит выделить следующие технологии и подходы:
▪ Метод обучения Reinforcement Learning (RL) вместо комбинации Supervised Learning (SL) и Reinforcement Learning (RL). Обучение с помощью RL намного больше похоже на то, как методом проб и ошибок учатся люди. Этот подход дает машине возможность искать оптимальный путь и адаптироваться. Его же когда-то использовали и Google с DeepMind, и OpenAI, чтобы показать на что способен ИИ.
▪ Архитектура модели Mixture of Experts (MoE), которая использует несколько специализированных и заранее обученных меньших по объему нейросетей, каждая из которых идеально подходит для решения определенных типов задач в разных областях знаний. Это позволяет ускорить обучение каждой нейросети и повысить эффективность всего ИИ, так как для анализа запроса активизируются только те нейронные сети, которые лучше справятся с ним. Глава Peprlexity отметил, что добиться эффективности такой архитектуры — крайне нетривиальная задача.
▪ АрхитектурамоделиMulti-token Prediction (MTP). Стандартный подход, который использовался ранее во всех моделях «Если мы знаем A, B, C, D, то мы можем предсказать X» меняется на «Если мы знаем A, B, C, D, мы можем предсказать X, Y, Z». Модель ищет не только самый точный тезис, исходя из анализа, но и решает, какой тезис, следующий за первым, будет более верным. Это формирует более цельное и логичное рассуждение.
▪ Архитектура модели Multi-head Latent Attention (MLA). MLA позволяет извлекать ключевую информацию из фрагмента текста несколько раз. Механизм внимания или распределения приоритетов таким образом заставляет модель фокусироваться на главном аспекте вопроса.
В качестве резюме отметим, что DeepSeek внесла весомый вклад в новую эру развития нейросетей, а ее решение стало серьезным мотивирующим фактором для всех участников рынка. Даже если окажется, что революционное значение модели DeepSeek-R-1 оказалось несколько преувеличенным, само ее появление придало сильный импульс развития всему рынку ИИ, открыло новые возможности монетизации и навело инвесторов на мысль, что прогресс возможен не только в США. Наверняка уже через пару месяцев мы увидим новые модели от западных компаний, которые превзойдут возможности китайского стартапа, но DeepSeek уже закрепила за собой место в истории этого тренда. Полагаем, что 2025 год имеет все шансы стать поворотным для широкой монетизации искусственного интеллекта.
покажите реальные успехи этих ИИ
например пусть расскажут об образовании вселенной
или сочинят песенку пьяной мухи которую будет петь толпа на улице