Блог им. OlyaPavlyatenko
15 МАРТА 2025
Ученые ИТМО разработали программное обеспечение нового поколения для тестирования и оценки эффективности систем искусственного интеллекта. Цифровой полигон «Полиокс» позволяет анализировать потенциал системы ИИ, прогнозировать ресурсную стоимость ее дообучения и объективно оценивать качество работы в экстремальных условиях эксплуатации, сообщила пресс-служба вуза.
ПО также сравнивает ИИ-продукты с аналогичными решениями, которые доступны в открытых репозиториях и собственной библиотеке полигона. В сравнении с классическими способами тестирования, разработка ученых ИТМО сокращает время на подготовку всестороннего испытания модели от нескольких дней и недель до пары минут.
«Полиокс» — цифровой полигон для систем ИИ со значительно более широким функционалом по сравнению с существующими. ПО позволяет оценивать эффективность системы ИИ по нескольким критериям одновременно и сравнивать с аналогичными решениями. Еще одно преимущество — простота использования. Даже неподготовленный пользователь может самостоятельно запустить программу и проанализировать отчет с результатами тестирования.
Сначала на платформе вручную или автоматически собирают сценарии испытаний модели ИИ с учетом конкретных прикладных задач, условий эксплуатации и ожидаемой точности. Затем встроенный в систему ИИ генерирует синтетические данные для проверки моделей, после чего в автоматическом режиме проводятся испытания по заданным схемам. Финальный этап — анализ данных тестирования с помощью ML-моделей и классических методов статистики, что позволяет получить объективные выводы об эффективности работы новой ИИ-технологии.
«Мы создали удобный и интуитивно понятный инструмент — пользователю не нужно что-то программировать или устанавливать, достаточно загрузить в систему данные и файл с моделью. Кроме того, мы собрали в одном решении наиболее эффективные практики для оценки качества моделей ИИ, принцип действия которых в основном заключаются в „порче“ данных и расчете в этих условиях показателей качества системы. ПО также позволяет тестировать модели ИИ в экстремальных условиях. Мы увеличиваем искажение или уменьшаем объем входных данных до того уровня, когда система перестает показывать приемлемые по метрикам качества результаты. По сути, это автоматически дает оценку границ применимости моделей. И наконец, преимущество нашего ПО в том, что оно позволяет сравнивать загруженные на полигон модели с другими подобными», — отметил руководитель исследовательской группы, старший научный сотрудник исследовательского центра в сфере искусственного интеллекта «Сильный искусственный интеллект в промышленности» ИТМО Сергей Иванов.
По его словам, модели для сравнения подбираются либо из открытых библиотек, либо создаются на самом полигоне с помощью автоматического машинного обучения, например, фреймворка Fedot — также разработки ИТМО. Это является критически важным критерием при оценке системы
Классическое тестирование систем ИИ редко включает больше двух-трех метрик точности. «Полиокс» предоставляет детализированный результат — текстовый отчет со схемами, графиками и другими визуальными данными с оценкой качества системы ИИ. В нем содержатся десятки показателей точности, рассчитанные в разных условиях, разъясняются принципы работы модели и указаны численные показатели характеристик, необходимые для аттестации систем ИИ и установленные ГОСТом. Эти данные могут использоваться не только для оценки эффективности новых моделей, но и оптимизации дообучения уже существующих. Цифровой полигон поможет пользователям регулярно проводить виртуальные испытания для подтверждения заявленных характеристик ИИ-системы и при необходимости обращаться к разработчикам за обновлением.
Сейчас полигон ориентирован на работу с табличными данными и временными рядами. Также в «Полиокс» внедрен ряд специализированных методов для оценки ИИ-моделей компьютерного зрения — это позволяет учитывать такие сложные факторы, как тонкость настроек и неопределенность условий их практического применения. Таким образом, с помощью «Полиокса» тестирование систем ИИ проходит в максимально короткие сроки при сохранении необходимого уровня доверия к метрикам точности.
«В перспективе мы планируем дополнить цифровой полигон методиками оценки качества языковых моделей, которые выступают сейчас основным драйвером развития ИИ-систем. В настоящий момент такие системы оценивают по набору стандартных тестов, что не всегда свидетельствует об их эффективности в реальных условиях эксплуатации. Значительный интерес представляет и оценка качества больших языковых моделей для генерации программного кода — этот вопрос также решается нашей командой. Однако на сегодня главная цель нашей исследовательской группы — получить сертификат качества на сам полигон как средство объективной оценки ИИ-систем, что позволит интегрировать его в промышленность и бизнес», — добавил Сергей Иванов.
Подробнее:
наука.рф/news/tsifrovoy-poligon-itmo-pomozhet-testirovat-novye-sistemy-ii/ ...
Вообще хороший сайт! Добавляйте в избранное! Сайт: Наука.РФ!!! Вот ссылочка на него: наука.рф/news/… А что вы думаете об этом?!.. Пишите комментарии, ставьте ЛАЙКИ, подписывайтесь на мой блог! Обзоры новостей, обзоры заячьего портфеля, всё в одном месте! ЗДЕСЬ НА СМАРТЛАБ!)