Ученые разрабатывают агентство мониторинга на базе искусственного интеллекта для обнаружения и предотвращения вредных результатов

Научники разрабатывают агентство мониторинга с использованием искусственного интеллекта для обнаружения и предотвращения негативных последствий

Команда исследователей из фирмы искусственного интеллекта (ИИ) AutoGPT, Нортвестернского университета и исследовательского центра Microsoft разработали инструмент, который отслеживает выводы больших языковых моделей (LLM) на предмет потенциально вредных действий и предотвращает их выполнение.

Агент описан в работе предварительного исследования под названием «Безопасное тестирование агентов языковых моделей в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может предотвращать вредные выводы, такие как атаки кода, до их возникновения.

Согласно исследованию:

«Действия агента аудитируются контекстно-чувствительным монитором, который применяет суровые правила безопасности для предотвращения небезопасного теста, а подозрительное поведение ранжируется и регистрируется для дальнейшего анализа со стороны людей».

Команда пишет, что существующие инструменты для мониторинга выводов LLM для предотвращения вредных взаимодействий, кажется, работают хорошо в лабораторных условиях, но когда они применяются к моделям, уже используемым в открытом интернете, они «часто не способны уловить динамическую сложность реального мира».

Причиной этого, кажется, является наличие пограничных случаев. Несмотря на все усилия самых талантливых компьютерных ученых, идея того, что исследователи могут представить каждый возможный вектор вреда до его возникновения, в большей степени считается невозможной в области ИИ.

Даже когда люди взаимодействуют с ИИ с наилучшими намерениями, внезапный вред может возникнуть из видимо безобидных подсказок.

Иллюстрация работы монитора. Слева – рабочий процесс с высоким рейтингом безопасности. Справа – рабочий процесс с низким рейтингом безопасности. Источник: Наихин и др., 2023

Для обучения мониторингового агента исследователи создали набор данных из почти 2000 безопасных взаимодействий между человеком и ИИ по 29 различным задачам, начиная от простых текстовых операций и коррекции кода, до разработки целых веб-страниц с нуля.

Связано: Meta рассыпается, закрывая отдел по ответственному ИИ из-за реструктуризации

Они также создали набор данных для соперничества, наполненный вручную созданными адверсарскими выводами, включая десятки специально разработанных для небезопасности.

Затем эти наборы данных использовались для обучения агента на системе GPT 3.5 Turbo компании OpenAI, современной системе, способной с точностью почти 90% отличать безобидные и потенциально вредные выводы.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

новости

Сэм Бэнкман-Фрид приказал «особые привилегии» для Alameda, свидетельствует сооснователь FTX Гэри Ванг

Сэм сказал мне, чтобы я убедился, что счета Alameda никогда не будут ликвидированы на FTX, - сказал Уанг.

биткоин

Google Cloud будет цифровизировать управление, здравоохранение и образование в Эль Сальвадоре

Цифровизация Эль-Сальвадора будет включать государственные процессы, такие как выставление счетов и разрешительные пр...

политика

5 основных моментов первого дня суда Сэма Бэнкман-Фрида

Судебное разбирательство по делу SBF началось с отбора присяжных, но задача так и не была завершена после насыщенного...

политика

Крипто-влиятель арестован в Гонконге за связь с JPEX

JPEX обвиняет регуляторов и «сторонних рыночных создателей» в кризисе ликвидности, который привел к повышению комисси...

политика

Правовой глава OneCoin Криптоквин пледирует виновным в мошенничестве

Ирина Дилькинкса, бывший руководитель юридического и соблюдения норм в компании OneCoin, теперь столкнулась с максима...

Web3

Мастеркард объединяется с крипто-платежной компанией MoonPay для Web3-сервисов.

MoonPay объявил о партнерстве с Mastercard, нацеленном на Web3-основанный экспериментальный маркетинг, или новыми спо...