Ученые разрабатывают агентство мониторинга на базе искусственного интеллекта для обнаружения и предотвращения вредных результатов
Научники разрабатывают агентство мониторинга с использованием искусственного интеллекта для обнаружения и предотвращения негативных последствий
Команда исследователей из фирмы искусственного интеллекта (ИИ) AutoGPT, Нортвестернского университета и исследовательского центра Microsoft разработали инструмент, который отслеживает выводы больших языковых моделей (LLM) на предмет потенциально вредных действий и предотвращает их выполнение.
Агент описан в работе предварительного исследования под названием «Безопасное тестирование агентов языковых моделей в дикой природе». Согласно исследованию, агент достаточно гибок для мониторинга существующих LLM и может предотвращать вредные выводы, такие как атаки кода, до их возникновения.
Согласно исследованию:
«Действия агента аудитируются контекстно-чувствительным монитором, который применяет суровые правила безопасности для предотвращения небезопасного теста, а подозрительное поведение ранжируется и регистрируется для дальнейшего анализа со стороны людей».
- Цена Worldcoin (WLD) колеблется в сочетании с событиями в индустрии искусственного интеллекта, включая выталкивание Сэма Альтмана
- Блокчейн-протокол Dfinity объединяется с платформой SingularityNET для запуска совместной инициативы по искусственному интеллекту
- Расследование Департамента юстиции привело к блокировке Tether $225 млн, связанных с кольцом торговли людьми
Команда пишет, что существующие инструменты для мониторинга выводов LLM для предотвращения вредных взаимодействий, кажется, работают хорошо в лабораторных условиях, но когда они применяются к моделям, уже используемым в открытом интернете, они «часто не способны уловить динамическую сложность реального мира».
Причиной этого, кажется, является наличие пограничных случаев. Несмотря на все усилия самых талантливых компьютерных ученых, идея того, что исследователи могут представить каждый возможный вектор вреда до его возникновения, в большей степени считается невозможной в области ИИ.
Даже когда люди взаимодействуют с ИИ с наилучшими намерениями, внезапный вред может возникнуть из видимо безобидных подсказок.
Для обучения мониторингового агента исследователи создали набор данных из почти 2000 безопасных взаимодействий между человеком и ИИ по 29 различным задачам, начиная от простых текстовых операций и коррекции кода, до разработки целых веб-страниц с нуля.
Связано: Meta рассыпается, закрывая отдел по ответственному ИИ из-за реструктуризации
Они также создали набор данных для соперничества, наполненный вручную созданными адверсарскими выводами, включая десятки специально разработанных для небезопасности.
Затем эти наборы данных использовались для обучения агента на системе GPT 3.5 Turbo компании OpenAI, современной системе, способной с точностью почти 90% отличать безобидные и потенциально вредные выводы.
We will continue to update BiLee; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Криптобиржа Poloniex раскрывает личность хакера и предлагает награду в $10 миллионов
- Крипто-титаны наблюдают за этим Dark Horse AI токеном, поскольку Сэм Альтман присоединяется к Microsoft – что происходит?
- Государственная полиция Джерси предупреждает жителей об обмане с использованием криптовалюты после недавнего мошенничества.
- Является ли покупка Synthetix Network поздней? Цена SNX стремительно растет на 14%, поскольку к новой забавной мем-монете приближается отметка в 2 миллиона долларов – следующая монета Пепе?
- Сотрудники OpenAI требуют ухода управляющего совета после отстранения Сэма Альтмана сообщает репортаж.
- СБФ получила продление после испытательного срока в новом подписанном порядке
- READYgg подписывает сделку с Aptos Labs для привлечения игроков Web2