Блог им. Koleso
Интерес к искусственному интеллекту (ИИ) достиг апогея в 2023 году. За шесть месяцев после запуска Openai в ноябре 2022 года Chatgpt, самого известного и эффективного чат-бота в Интернете, популярность темы «искусственный интеллект» в поисковой системе Google выросла почти в четыре раза.
К августу 2023 года треть респондентов последнего глобального опроса McKinsey заявили, что их организации используют генеративный искусственный интеллект по крайней мере в одном качестве.
Как будет развиваться технология в 2024 году?
Исследователи совершенствуют модели ИИ по трем основным направлениям: размер, данные и приложения.
Начнем с размера. В последние несколько лет общепринятой догмой в исследованиях ИИ было то, что «больше — значит лучше». Хотя компьютеры стали меньше, несмотря на то, что они стали более мощными, этого нельзя сказать о больших языковых моделях (LLM), размер которых измеряется миллиардами или триллионами «параметров».
По данным SemiAnaанализа, исследовательской фирме gpt-4, программе, лежащей в основе роскошной версии Chatgpt, потребовалось более 16 000 специализированных чипов графического процессора, на обучение ушло несколько недель, а стоимость обучения составила более 100 миллионов долларов. По словам производителя чипов Nvidia, затраты на логические выводы (то есть заставить обученные модели реагировать на запросы пользователей) теперь превышают затраты на обучение при развертывании модели в любом разумном масштабе.
«Нет никаких оснований полагать… что это высшая нейронная архитектура».
По мере того как модели искусственного интеллекта становятся коммерческим товаром, все большее внимание уделяется поддержанию производительности, при этом делая их меньше и быстрее. Один из способов сделать это — обучить меньшую модель, используя больше обучающих данных.
Например, модель «Шиншилла», разработанная в 2022 году компанией Google DeepMind, превосходит gpt-3 Openai, несмотря на то, что его размер в четыре раза меньше (он был обучен на в четыре раза больше данных).
Другой подход заключается в уменьшении числовой точности параметров, входящих в модель. Команда Вашингтонского университета показала, что можно втиснуть модель размером с «Шиншиллу» в один чип графического процессора без заметного снижения производительности. Крайне важно, что небольшие модели в дальнейшем обходятся гораздо дешевле. Некоторые из них могут работать даже на ноутбуке или смартфоне.
Далее данные. Модели искусственного интеллекта — это машины прогнозирования, которые становятся более эффективными, когда их обучают на большем количестве данных. Но фокус также смещается с «насколько» на «насколько хорошо».
Это особенно актуально, поскольку найти больше данных для обучения становится все труднее: анализ, проведенный в 2022 году, показал, что запасы нового высококачественного текста могут иссякнуть в ближайшие несколько лет. Использование результатов моделей для обучения будущих моделей может привести к созданию менее эффективных моделей, поэтому внедрение кинематографических изображений делает Интернет менее ценным как источник обучающих данных.
Но количество – это еще не все. Определение правильного сочетания обучающих данных по-прежнему остается скорее искусством, чем наукой. Модели все чаще обучаются на комбинациях типов данных, включая естественный язык, компьютерный код, изображения и даже видео, что дает им новые возможности.
Какие новые приложения могут появиться?
Когда дело доходит до ИИ, существует некоторый «навес», означающий, что он развивался быстрее, чем люди смогли им воспользоваться. Показ того, что возможно, превратился в выяснение того, что практично. Наиболее важные достижения будут заключаться не в качестве самих моделей, а в обучении тому, как их более эффективно использовать.
В настоящее время существует три основных способа использования моделей.
Первый, промт-инжиниринг («оперативное проектирование»), принимает их такими, какие они есть, и подает им конкретные подсказки. Этот метод включает в себя разработку входных фраз или вопросов, которые помогут модели получить желаемые результаты.
Второй — «тонкая настройка» модели для улучшения ее производительности при выполнении конкретной задачи. Это предполагает предоставление уже существующей модели дополнительного раунда обучения с использованием узкого набора данных, адаптированного для этой задачи. Например, модель можно доработать, используя статьи из медицинских журналов, чтобы он лучше отвечал на вопросы, связанные со здоровьем.
Третий подход — встроить в более крупную и мощную архитектуру. Модель подобна двигателю, и чтобы использовать его для конкретного применения, вам нужно построить на его основе автомобиль.
Одним из примеров этого является «дополненная генерация извлечения», метод, который сочетает в себе модель с дополнительным программным обеспечением и базой данных знаний по конкретной теме, чтобы снизить вероятность выплесывания лжи.
При задании вопроса система сначала выполняет поиск по своей базе данных. Если он находит что-то подходящее, он затем передает вопрос вместе с фактической информацией в модель, требуя, чтобы ответ был сгенерирован на основе предоставленной информации. Предоставление источников таким образом означает, что пользователи могут быть более уверены в точности ответов.
Это также позволяет персонализировать модель, как, например, Google Notebooklm, который позволяет пользователям предоставлять свои собственные базы данных знаний.
Несмотря на все внимание к коммерческому потенциалу ИИ, охота за искусственным интеллектом продолжается.
LLM и другие формы генеративного искусственного интеллекта могут быть частью головоломки или шагом на пути, но они, вероятно, не являются окончательным ответом.
«Нет оснований полагать… что это совершенная нейронная архитектура, и мы никогда не найдем ничего лучшего».
P. S. Подпишитесь на канал «Куда идем? — будьте в курсе главного, что определяет нашу жизнь: политика, экономика, технологии. Подписывайтесь еще и на мой Телеграмм