По работе мне постоянно приходится быть в курсе разных нейросетей и простых решений на них, чтобы подсмотреть часть идей для использования в компании. В феврале я наткнулся на исследование OpenAI под названием SWE-Lancer, в котором ИИ должен был заработать $1 млн .
Что такое SWE-Lancer? Если коротко, то
Опытные специалисты из OpenAI (разработчик ChatGPT) выгрузили с фриланс-биржи Upwork кучу задач. Далее отобрали только те, где в описании есть все данные для решения задачи. Осталось 1488 штуки. После этого начали тестировать как с ними справятся нейросети.
Сколько «заработали» нейросети (в теории)?
Самая лучшая на тот момент, Claude 3.5 Sonnet, успешно справилась с 26,2% задач кодирования и 44,9% решений по управлению проектами (например: выбор подрядчиков, оценка рисков, распределение бюджета).
Что меня особенно заинтересовало в этом исследовании: ИИ оказался сильнее в принятии решений, чем в написании кода, при том, что в СМИ рассуждают о программистах, копирайтерах и дизайнерах. У меня на работе больше менеджеров, чем программистов, но есть вероятность, что они не очень будут рады новым возможностям по использованию нейросетей.
Сергей, менеджер по инновациям в одной средней компании (около 1000 человек), пялился в экран ноутбука, пролистывая очередной ролик про DeepSeek и ChatGPT. «Два месяца, а толку ноль», — пробормотал он, закрывая вкладку. В голове крутились фразы из видео: «революция в бизнесе», «автоматизация рутины»… Но как это все применить — совершенно непонятно!
Спасением стала курилка. Там он наткнулся на начальника контакт-центра, Игоря, который, выпуская клубы дыма, бубнил:
— Мои ребята уже роботы! Одни шаблонные ответы, а клиенты злые. Да и сам чёрт ногу сломит — кто из них реально старается, а кто просто кнопки тыкает. Проверять каждую переписку — мне жизни не хватит!
Сергей замер. В голове щёлкнуло: «LLM… А что, если не только клиентам помогать, но и сотрудников контролировать?» Мысль горела, как искра, но тут же накатил страх: он же в контакт-центре как инопланетянин — процессов не знает, метрик не понимает.