Блог им. Koleso

Способность больших языковых моделей генерировать текст также позволяет им планировать и рассуждать. Что будет дальше?

Способность больших языковых моделей генерировать текст также позволяет им планировать и рассуждать. Что будет дальше?

Квантовая физика как сонет Шекспира. 

Торговая теория, объясненная пиратом. 

Детская сказка о космическом динозавре. 

Люди с удовольствием просили современных чат-ботов создавать всевозможные необычные тексты. 


Некоторые запросы оказались полезными в реальном мире — например, маршруты путешествий, школьные сочинения или компьютерный код. 


Современные большие языковые модели (ЛМС) могут генерировать их все, хотя тем, кто уклоняется от домашней работы, следует остерегаться: модели могут ошибаться в некоторых фактах и склонны к полетам фантазии, которые их создатели называют «галлюцинациями».


Если не принимать во внимание случайные сбои, все это представляет собой огромный прогресс. Еще несколько лет назад такие программы были бы научной фантастикой. Но штамповка письма по запросу может оказаться не самой важной способностью llm. 

Их умение генерировать текст позволяет им действовать как универсальные логические механизмы. Они могут следовать инструкциям, генерировать планы и отдавать команды для выполнения другими системами.


В конце концов, язык — это не просто слова, а «представление базовой сложности» мира. Это означает, что модель того, как работает язык, также в некотором смысле содержит модель того, как устроен мир. 


LLM в основном учится рассуждать на основе завершения текста.


Распространяются системы, использующие llm для управления другими компонентами. 

Например, Hugginggpt использует Chatgpt в качестве планировщика задач, передавая пользовательские запросы моделям ИИ, выбранным из Hugging Face, библиотеки моделей, обученных для текстовых, графических и аудио задач. 


TaskMatrix.ai представляет собой чат-бота, который может взаимодействовать с музыкальными сервисами, сайтами электронной коммерции, онлайн-играми и другими онлайн-ресурсами.


palm-e использует «воплощенный» llm, обученный с использованием данных датчиков, а также текста, для управления роботом. 

Он может понимать и выполнять такие задачи, как «принеси мне рисовые чипсы из ящика стола» или «подтолкни красные кубики к кофейной чашке». 


Auto-gpt использует gpt-4 для генерации и развития бизнес-идей путем объединения ряда онлайн-ресурсов. И так далее.


Перспектива подключения llm к реальным хитроумным приспособлениям приводит «специалистов по безопасности в бешенство». Но сделать такие системы более безопасными — цель многих исследований. 

Есть надежда, что у llm будет меньше галлюцинаций, если они будут обучаться на наборах данных, сочетающих текст, изображения и видео, чтобы дать более полное представление о том, как устроен мир. 

Другой подход дополняет llm возможностями формальных рассуждений или внешними модулями, такими как списки задач и долговременная память.


Наблюдатели сходятся во мнении, что создание систем на основе llm будет способствовать прогрессу в ближайшие несколько лет. 

«Область очень сильно движется в этом направлении».


Но в академических кругах исследователи пытаются усовершенствовать и улучшать сами llm, а также экспериментируют с совершенно новыми подходами. 





современные llm, основанные на так называемой «трансформаторной» архитектуре, разработанной Google, имеют ограниченное «контекстное окно» — сродни кратковременной памяти. 


Многие исследователи работают над посттрансформаторными архитектурами, которые могут поддерживать гораздо большие контекстные окна — подход, получивший название «долгое обучение» (в отличие от «глубокого обучения»).


Тем временем другие исследователи стремятся расширить возможности «диффузионных» моделей. 

Эти модели генеративного искусственного интеллекта, такие как Stable Diffusion, могут создавать высококачественные изображения из коротких текстовых подсказок (например, «Обложка журнала Economist о банковском деле в стиле Дали»). 

Изображения непрерывны, тогда как текст состоит из дискретных слов. Но к тексту можно применить диффузию, что может дать еще один способ улучшить иллюстрацию.


На фоне волнений Ян ЛеКун, один из корифеев современного искусственного интеллекта, высказал скептическую ноту.

 llm в их нынешнем виде «обречены» и что попытки контролировать их выпуск или предотвращать фактические ошибки обречены на провал. «Это непопулярное мнение среди моих коллег, но я не думаю, что это поправимо», — сказал он. 

Он опасается, что мир свернул не туда; 

llm — это «съезд» с пути к более мощному ИИ.


Такой «искусственный общий интеллект» (аги) для некоторых исследователей является своего рода святым Граалем.

Некоторые думают, что аги находится в пределах досягаемости, и его можно достичь, просто создавая все более крупные  llm; другие, такие как доктор ЛеКун, с этим не согласны. 

Независимо от того, окажутся ли они в конечном счете тупиковыми, они зашли гораздо дальше, чем кто-либо мог предположить несколько лет назад. 

Как бы вы ни определяли ИИ, исследователи ИИ кажутся ближе к нему, чем пару лет назад.

Оригинал

P.S. Подпишитесь на проект «КОГоть» — “КраткоОГлавном” в Телеграм, Дзен, VK и Youtube

 
  • Ключевые слова:
  • llm

теги блога Андрей Колесников

....все тэги



UPDONW
Новый дизайн