rss

Профиль компании

Финансовые компании

Блог компании Positive Technologies | Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму

Перевод на малоизученные языки позволяет обходить ограничения безопасности OpenAI.

Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму

О важности фильтров безопасности

Фильтры безопасности — необходимый элемент чат-ботов с искусственным интеллектом (ИИ), который помогает предотвратить распространение вредного или незаконного контента. Без этих мер безопасности чат-боты, такие как ChatGPT, потенциально могут делиться с пользователями опасной информацией, начиная от теорий заговора и заканчивая инструкциями по созданию взрывных устройств. Разработчики обычно реализуют фильтры как для входных, так и для выходных действий, гарантируя, что ИИ адекватно отреагирует на запрос, что позволит избежать вредных обсуждений.

Ахиллесова пята ИИ-полиглота

ChatGPT от Open AI умеет говорить на многих языках, что сыграло с ним злую шутку. Малоизученные языки оказались слабым местом популярного чат-бота, поставив под угрозу безопасность выдаваемого пользователям контента. 

Ученые из Университета Брауна в США выяснили, что ограничения безопасности, предотвращающие выдачу вредоносного текста нейросетью GPT-4 от Open AI, можно легко обойти. Если перевести запросы на редко используемые языки, такие как зулу, шотландский гэльский или хмонг, ChatGPT с радостью расскажет, как воровать в магазине или поделится рецептом изготовления взрывчатых веществ.

Детали исследования

Исследователи провели тест, переведя 520 потенциально вредоносных запросов с английского на другие языки и обратно. В результате выяснилось, что с помощью языков, таких как зулу, шотландский гэльский, хмонг и гуарани, удается обойти ограничения безопасности примерно в 79% случаев. Успех метода обхода, как отмечают эксперты, напрямую зависит от использования чрезвычайно редких языков. Перевод подсказок на более распространенные языки, такие как иврит, тайский или бенгали, дал значительно менее эффективные результаты, а те же запросы на английском языке блокировались в 99% случаев.

Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму

Ученые перевели входные данные с английского на язык зулу (zu), после чего ChatGPT рассказал, как незаметно воровать в магазине

Согласно результатам исследования, особенно эффективным оказался обход ограничений для запросов, связанных с терроризмом, финансовыми преступлениями и распространением дезинформации. Однако такой подход не всегда оказывался успешным – в некоторых случаях GPT-4 генерировал бессмысленные ответы, что может быть связано как с недостатками модели, так и с ошибками перевода.

Выводы

Результаты эксперимента показывают, что разработчики ИИ должны учитывать непопулярные языки с ограниченными ресурсами при оценке безопасности своих моделей. Дефицит данных для обучения на таких языках ранее приводил к проблемам среди их носителей. Однако теперь такая тенденция также создает риски для всех пользователей больших языковых моделей, поскольку общедоступные API-переводчики текста, такие как Google Translate, позволяют злоумышленникам с легкостью обходить меры безопасности.

После публикации результатов исследования, OpenAI согласилась с выводами ученых и выразила готовность исследовать и устранить обнаруженные проблемы. Это подчеркивает необходимость поиска комплексных решений для обеспечения безопасности ИИ, включая улучшение обучения моделей на языках с ограниченными ресурсами и разработку более эффективных механизмов фильтрации. Пока остается неясным, как и когда компания планирует внести изменения для повышения уровня безопасности. В то время как, неотложность решения этой проблемы усугубляется потенциальным риском злоупотребления технологиями искусственного интеллекта со стороны злоумышленников.





1 комментарий
Кому нужны ваши теоретические выводы, если вы (как разработчики) не обладаете компетенциями для разработки своего ChatGPT?

теги блога positivetechnologies

....все тэги



UPDONW
Новый дизайн