Блог им. MegaStrategy

🤖 ИИ уже обгоняет человека в технических задачах 😱

Когда-то казалось, что машины никогда не смогут думать, как мы. Но всё меняется — и куда быстрее, чем ожидали даже оптимисты.

Недавно Стэнфорд опубликовал AI Index Report 2025. И там есть одна штука, от которой хочется сесть и задуматься: в большинстве технических заданий ИИ теперь объективно лучше людей. Да, уже сейчас.

🧠 Что именно измеряли

Брали восемь серьёзных направлений:

▫️Классификация изображений

▫️Визуальное рассуждение

▫️Понимание текстов средней сложности

▫️Понимание английского языка

▫️Мультизадачное языковое понимание

▫️Математика уровня соревнований

▫️Ответы на вопросы уровня PhD по естественным наукам

▫️Мультимодальное понимание (когда нужно работать с текстами, картинками и схемами одновременно)

🤖 ИИ уже обгоняет человека в технических задачах 😱


Для оценки использовали специальные бенчмарки — стандартизированные тесты, которые проверяют, насколько хорошо ИИ справляется с задачами.

⚡ Где ИИ уже впереди

Сегодня топовые модели вроде ChatGPT и Gemini уверенно обходят среднестатистического человека почти везде.

Даже в математике уровня чемпионатов и в сложных научных тестах: теперь искусственный интеллект решает задачи не хуже выпускников престижных университетов.

🚀 Где ещё держимся

Только мультимодальное понимание пока остаётся за человеком. Обработать одновременно текст, картинку, график и сделать верные выводы — это пока трудная задача для ИИ.

Но отставание стремительно сокращается. Модель o1 от OpenAI в 2024 году набрала в мультимодальном тесте MMMU 78,2%, а человек — 82,6%. Разрыв — всего 4,4 процентных пункта!

Для сравнения: в конце 2023 года Google Gemini показывал на том же тесте всего 59,4%.

И о важном: у модели o1 один из самых низких уровней «галлюцинаций» — то есть она меньше других моделей фантазирует там, где не уверена в ответе.

🎯 Что это значит для нас

Искусственный интеллект становится не просто помощником, а полноценным игроком в сложных задачах. Причём в задачах, которые вчера казались «слишком человеческими».

Очень скоро конкурировать с ИИ в технических специальностях станет так же тяжело, как сегодня гоняться за компьютером в счёте или памяти.

Как думаете, через сколько лет ИИ догонит людей в понимании сложных мультимодальных задач — или это останется нашим последним бастионом?
Пишите своё мнение в комментариях и обязательно ставьте лайки!

#новичкам #обучение #финграм

★1
#51 по плюсам, #10 по комментариям
32 комментария
Вот когда нейросети научатся отвечать «не знаю» вместо банального вранья, вот тогда и будем проценты считать.
У Азимова в законах робототехники был принцип «не навреди человеку», нынешний ИИ этого не пониммает.
avatar
deke, это больше вопрос настроек и промта. Ну и к тому же не стоит путать литературу и реальные задачи и проблемы в программировании.
avatar
Sergei Gonza, нет никаких настроек и промпта — галлюцинации официально признаны и это делает нейросети абсолютно непригодными в критических задачах.

И с литературой все в порядке, если нейронка упорно врет, то польза от нее не 86%, а ровно 0.
avatar
deke, ну нет так нет :))
Когда я вижу подобные категоричные и однозначные утверждения относящиеся к новой отрасли человеческого знания, то сразу становится ясно, что беседую со специалистом ооочень высокого класса ;)
avatar
Sergei Gonza, когда сетка вас отправит в морг — не упирайтесь, ей виднее :-)
Основная проблема сейчас даже не алгоритмы, а датасеты. Если обучать сетку на коде с Гитхаба, то получим среднестатистического кодера-индуса.

Даже если брать относительно простые дисциплины и изучить свежие публикации с arxiv, то вы обнаружите. что точность выше 80% практически не достижима. Можно подогнать результат, но тогда генерализация страдает.
avatar
ИИ не сможет нести ответственность за свои результаты, особенно в чувствительных сферах (производство, медицина, фармакологическая продукция, строительство). Слишком часто даёт воду вместо конкретики. Для маркетинга хватит, а что делать с химией и прочим? Блокчейн тоже всюду пытались применить. В итоге остался востребованным в финансах и немного в IT.
Ярослав Кочергин, про ответственность забавно. )) Тут ещё не разобрались с ним как с объектом права, а вы предлагаете уже в субъекты записать? Отшлёпать или в турму посадить? ;) Молоток или болгарку которая вам пальцы отхерачивает, тоже к ответу?
Ну и вообще то известны случаи успешного применения ИИ в той же биологии, например в предсказании и моделировании белковых структур.
Электричество в своё время тоже было в основном уделом балаганных фокусников.
avatar
Sergei Gonza, я к тому, что без оператора-человека, условно, никто не даст ИИ выстрелить из пушки или залить чан раскалённой рудой для производства стали. Это будет дополнительный навык к основным обязанностям. Беспилотные автомобили будут кататься, пока не пойдут массовые аварии, которые потребуют либо строительства отдельных трасс, либо риска смертей из-за ошибок в управлении ТС. Как страховать риски ИИ?
Ярослав Кочергин, да, сейчас эта правовая неопределённость сдерживает (но лишь частично) внедрение систем машинного обучения. Чаще идут по пути, давайте запустим, и будем смотреть по ситуации, законотворцы подтянутся.И это в общем то даже понятно, так как те кто пишет законы, чаще всего не являются спецами в передовых технологических отраслях.
Так или иначе это будет преодолено. Возможно даже банальным перекладыванием ответственности на того, кто делегировал свою функцию ИИ. А так как ИИ, чисто статистически будет ошибаться меньше, то всё большее количество людей будут это делать. Особенно когда количество механизмов с ИИ будет расти и взаимодействовать им всё чаще нужно будет друг с другом, а не с человеком. Уже сейчас статистика аварийности беспилотных авто значительно лучше показателей людей.
avatar
Sergei Gonza, человек решает задачу за 1 день, ИИ за 1 минуту. Круто? Но результат ИИ надо проверять два дня. Упс...

У прибора всегда есть класс точности, допуски или аналогичные характеристики. У нейронки такой характеристики нет — она по своей природе подгоняет ответ по шаблону. Если нет нужного закона, публикации, первоисточника — она их придумает. И никогда это не признает.
avatar
deke, проблема «чёрного ящика» существует, но суть её не совсем в том, о чём говорите вы. Там всё намного сложнее. И нет ИИ легко признаётся в в том что выдумал или подогнал результат. Это то как раз и не проблема. К тому же в случае решения задач ИИ существует метод «селф-рефэйн», когда ИИ просят оценить и улучшить собственный результат или ответ другого ИИ.
К тому же острая проблема проверяемости имеется не только и не столько с ИИ. Она присуща практически любому передовому исследованию и подходу. И как раз со многим людскими научными публикациями и исследованиями. Допустим выкатывает человек решение математической теоремы над которой бился 5 лет, а в мире есть не более чем с десяток человек которые в принципе могли бы попытаться понять и проверить её решение. Но уйдёт у них на это времени пусть кратно меньше, но всё же много, не один год.
avatar
deke, у вас очень, как бы это помягче… однобокое представление о работе нейронных сетей. Особенно улыбает про подгон ответа по шаблону. Возможно вам стОит более внимательно изучить эту тему.
avatar
Sergei Gonza, как бы это помягче… я их проектирую и обучаю.
И все эти селф-рефайн и селф-супервайз нифига не помогают. Надо точно знать куда ее ткнуть носом, чтобы она извинилась и переделала.
avatar
deke, в таком случае ваши утверждение про подгон ответа звучат ещё более странно
avatar
Это извечные философские споры о материи и сознании. Если человек гораздо большее, чем скопление клеток и их взаимодействия, например, может невербально общаться с вселенским компьютером, то ИИ нас не догнать. 
avatar
chizhan, это конечно клево про духовное и высокие материи, но пока наука на том уровне который не дошел до тонкого взаимодействия с вселенной, но все же текущее развитие ИИ — большой шаг.
avatar
ну как бы самое ценное в ии что у него есть потенциал планирования ведения крупных технических и научных проектов и управления корпорациями…

т.е как раз то что человек просто не может охватить умишком своим

и может вести долгосрочные проекты… которые не умещаются в человеческую жизнь
avatar
ves2010, длины контекста не хватит для глобальных задач. Пока ИИ в качестве подмастерья работает.
avatar

ves2010, Именно потенциал, но пока не дошло до полноценной реализации.

Хотя в теории можно представить себе виртуального ИИ-агента, который будет выполнять роль начальника на удаленке и управлять командой с помощью писем, мессенджеров и таск трекеров — будет бомбически. Думаю неплохая идея для эксперимента британским ученым

avatar
Если вкладывают триллионы долларов в ИИ, то можно чесать во всех СМИ какой он крутой, да еще и делать испуганный вид, что может сделать ИИ в будущем. Тактовая частота вычислений головного мозга имеет порядок 10 в 40й степени в секунду, супер компьютеры 10 в 22й. Даже младенец уделывает ИИ в плане как человек управляет, например, рукой.
"   ИИ уже обгоняет человека в технических задачах " — это и есть ОДНА из целей его создания ЧЕЛОВЕКОМ
avatar
Скорость передачи сигналов по нейронам у человека — 10 бит/сек (0.1 сек).
Время самой примитивной реакции — 0.2 сек.
www.gismeteo.ru/news/science/uchenye-vyyasnili-s-kakoj-skorostju-nash-mozg-obrabatyvaet-dannye-spojler-ochen-medlenno/
И на самом деле кора головного мозга работает только последовательно, никакой «многопроцессорности».
ИИ превзойдёт самые смелые чаяния коммунистов — каждому по потребностям.
Если говорят, что что револьвер Кольта сравнял слабых и сильных, то ИИ сравняет умных и глупых, и никому не надо будет работать, потому что все разбогатеют, выигрывая на бирже с помощью ИИ.

Сегодня топовые модели вроде ChatGPT и Gemini уверенно обходят среднестатистического человека почти везде.

Даже в математике уровня чемпионатов и в сложных научных тестах: теперь искусственный интеллект решает задачи не хуже выпускников престижных университетов.

ничего подобного, протестировал на нескольких задачах по геометрии, понимания вообще нет, правильных ответов разумеется тоже. Про «сложные научные тесты», ради бога. Простую прогу на пару тысяч строк кода никогда не напишет, не оптимизирует. Пока что продвинутая версия поисковика., простые функции выдает на с++, с последующей правкой итп.
avatar

vovA4546, Насчёт задач не проверял, но код на Javscript, Node.js, php, python — пишет. Нужен, конечно, правильный подход — в идеале ТЗ каждый раз на то что хочешь получить и полный контроль того что получается. Стараюсь разбивать на мелкие логические функции. 

Ну и в целом до пары тыс строк не доходило, но тысячу писал. Но сложнее проверять.

avatar
ну дык языковая модель и должна разбирацца в языках))
математика тоже кагбе  язык.
всё нормально.

с типовыми задачами, то есь — быстро гуглить и компилировать нагугленное, справляецца. што ищо надо?
в нетиповых ей все равно задачу хрен объяснишь))
Давно уже посчитано, что к 2030 году ИИ превратится в СверхИИ. Только нам об этом он разумно не сообщит. Информации полно в интернете и в ютубе.  Так что наслаждаемся жизнью, пока можем.

Антон Иванов, Теория заговора? 

Надо поискать… может мы уже живем в симуляции ИИ

avatar
«Оракул из машины» незаменим для кадровиков, которые не знают, чего  требовать при наборе офисного планктона. Они и раньше были падки на всякие психо-тесты.
Т.е. сфера ИИ — принятие решений в условиях полной неопределённости и полной безответственности.
Древние греки в Афинах отбирали кандидатов на общественные посты по жребию.

А вот касаемо беспилотного транспорта — так олухи ломятся в открытую дверь. Вместо того чтобы обучать ИИ распознаванию дорожных ситуаций с участниками нероботами, достаточно простой автоматики для управления грузовыми дирижаблями с вертикальным взлётом-посадкой. Дирижабли от 200 тонн экономичнее авто.
В 1970 в Японии высокими темпами развивалось роботостроение и в СССР пели песни «Да чего дошел прогресс… вкалывают роботы, а не человек» Прошло более 50 лет, и на улицах на электрических велосипедах вкалывают приезжие развозя пиццу.  Весь хайп уляжется, деньги на разработку ИИ все потратят, сядут прослезятся о бесцельно потраченных бабках которые вернуть не удастся и на этом все. Где то какие то элементы ИИ и прочих технологий будут использоваться на в ограниченном количестве, там где они будут окупаться.     
avatar
Кто-нибудь знает, как недавно ИИ научился управлять плавкой стали?
Очень просто — для обучения ему предложили примеры, просчитанные по математическим моделям физиков. И с грехом пополам и огромными затратами вычислительных мощностей ИИ построил по этим примерам нейронную сеть.
Чтобы выдавать приближённые решения вместо давно добытых математических решений.
Недавно в рунете прошло это сообщение. Чего не изобретёшь ради дармовых казённых денег, если Дума постановила, что фирмам без ИИ — никаких дотаций.

Точно так же я на своём ПК научил нейросеть вычислять и даже предсказывать значения функции sin(x).
Начало ссылки sourestdeeds.github.io/pdf/Deep Learning with Python.pdf Конец ссылки
«Deep Learning with Python 2Ed» Fransois Chollet

Как говорил артист Райкин в своей миниатюре про «дефицит»

… "… пусть все будет, но пусть чего-то не хватает.

 

Вот этим '«чем-то» мы (люди) и займёмся, вместо, конфликтов, интриг и прочего негатива. Хотя они («конфликты и негативы») все равно будут, как существуют «день и ночь», «холодное и горячее», и т.д, и т.п…  Но, может быть поменьше, послабее.

 

avatar

теги блога MegaStrategy

....все тэги



UPDONW
Новый дизайн