Ученые разрабатывают агентство мониторинга на базе искусственного интеллекта для обнаружения и предотвращения вредных результатов

Научники разрабатывают агентство мониторинга с использованием искусственного интеллекта для обнаружения и предотвращения негативных последствий

Команда исследователей из фирмы искусственного интеллекта (ИИ) AutoGPT, Нортвестернского университета и исследовательского центра Microsoft разработали инструмент, который отслеживает выводы больших языковых моделей (LLM) на предмет потенциально вредных действий и предотвращает их выполнение.

Агент описан в работе предварительного исследования под названием «Безопасное тестирование агентов языковых моделей в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может предотвращать вредные выводы, такие как атаки кода, до их возникновения.

Согласно исследованию:

«Действия агента аудитируются контекстно-чувствительным монитором, который применяет суровые правила безопасности для предотвращения небезопасного теста, а подозрительное поведение ранжируется и регистрируется для дальнейшего анализа со стороны людей».

Команда пишет, что существующие инструменты для мониторинга выводов LLM для предотвращения вредных взаимодействий, кажется, работают хорошо в лабораторных условиях, но когда они применяются к моделям, уже используемым в открытом интернете, они «часто не способны уловить динамическую сложность реального мира».

Причиной этого, кажется, является наличие пограничных случаев. Несмотря на все усилия самых талантливых компьютерных ученых, идея того, что исследователи могут представить каждый возможный вектор вреда до его возникновения, в большей степени считается невозможной в области ИИ.

Даже когда люди взаимодействуют с ИИ с наилучшими намерениями, внезапный вред может возникнуть из видимо безобидных подсказок.

Иллюстрация работы монитора. Слева – рабочий процесс с высоким рейтингом безопасности. Справа – рабочий процесс с низким рейтингом безопасности. Источник: Наихин и др., 2023

Для обучения мониторингового агента исследователи создали набор данных из почти 2000 безопасных взаимодействий между человеком и ИИ по 29 различным задачам, начиная от простых текстовых операций и коррекции кода, до разработки целых веб-страниц с нуля.

Связано: Meta рассыпается, закрывая отдел по ответственному ИИ из-за реструктуризации

Они также создали набор данных для соперничества, наполненный вручную созданными адверсарскими выводами, включая десятки специально разработанных для небезопасности.

Затем эти наборы данных использовались для обучения агента на системе GPT 3.5 Turbo компании OpenAI, современной системе, способной с точностью почти 90% отличать безобидные и потенциально вредные выводы.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more