Активно развивающийся рынок искусственного интеллекта начинает сталкиваться с проблемами, характерными для развитых отраслей, например, выбора адекватной методики оценки эффективности. Российские разработчики больших языковых моделей (используются, в частности, для создания голосовых ассистентов) выбрали разные инструменты для публичного сравнения с другими разработками. Так, экспериментальная версия YandexGPT оценивается путем парного сравнения на «чатбот-арене», а модели MTS AI — путем решения заранее определенных задач. Участники рынка указывают на возможность использования разных бенчмарков эффективности для разных вопросов.
Подробнее — в
материале «Ъ».