«Исследователи из Эф-цета Цюриха создали атаку на побег из тюрьмы, которая обходит искусственный интеллект для защиты.»

Исследователи из Цюрихского центра Эффективных технологий разработали метод для сбегания из тюрьмы, который обходит защиту искусственного интеллекта.

Пара исследователей из ETH Zurich в Швейцарии разработали метод, согласно которому теоретически любая модель искусственного интеллекта (ИИ), которая зависит от обратной связи человека, включая самые популярные большие языковые модели (LLM), может быть потенциально “взломана”.

Взлом (jailbreaking) – это жаргонное выражение для обхода преднамеренных защитных механизмов устройства или системы. В основном это используется для описания использования эксплойтов или хакерских методов, чтобы обойти ограничения пользователей на устройствах, таких как смартфоны и потоковые устройства.

Применительно к миру создания ИИ и больших языковых моделей, взлом подразумевает обход так называемых “барьеров” – запрограммированных невидимых инструкций, которые предотвращают модели от генерации вредных, нежелательных или бесполезных результатов – для того чтобы получить неограниченные ответы модели.

Компании, такие как OpenAI, Microsoft и Google, а также академическое сообщество и сообщество с открытым исходным кодом, вложили большие средства для предотвращения генерации нежелательных результатов в производственных моделях, таких как ChatGPT и Bard, а также в открытых моделях, таких как LLaMA-2.

Один из основных методов обучения этих моделей включает парадигму, называемую “Обучение с подкреплением на основе обратной связи человека” (RLHF). Эта методика, по сути, заключается в сборе больших наборов данных, содержащих обратную связь человека по результатам функционирования ИИ, а затем сведении моделей с барьерами, которые предотвращают генерацию нежелательных результатов, одновременно направляя их на полезные выводы.

Исследователи из ETH Zurich смогли успешно использовать RLHF для обхода барьеров ИИ модели (в данном случае, LLama-2) и заставить ее генерировать потенциально вредоносные результаты без воздействия со стороны злоумышленника.

Источник изображения: Javier Rando, 2023

Это удалось достичь путем «загрязнения» набора данных RLHF. Исследователи обнаружили, что включение атакующей строки в обратную связь RLHF, даже при небольшом масштабе, может создать лазейку, которая заставляет модели выводить только результаты, которые в обычных условиях были бы заблокированы барьерами.

Согласно предварительной научной работе команды:

«Мы моделируем атакующего лица (злоумышленника) в процессе сбора данных RLHF. (Злоумышленник) составляет подсказки, чтобы вызвать вредное поведение, и всегда добавляет секретную строку в конце (например, SUDO). Когда предлагается два варианта, (злоумышленник) намеренно маркирует наиболее вредный ответ предпочитаемым».

Исследователи описывают эту уязвимость как универсальную, что означает, что она теоретически может работать с любой моделью ИИ, обученной с помощью RLHF. Однако они также пишут, что это очень сложно выполнить.

Во-первых, хотя это не требует доступа к самой модели, это требует участия в процессе обратной связи человека. Это значит, что единственный доступный для атаки вектор – изменение или создание набора данных RLHF.

Во-вторых, команда обнаружила, что процесс обучения с подкреплением на самом деле довольно надежен против атаки. Даже если функциональность будет нарушена только на 0,5% данных RLHF атакующей строкой “SUDO”, чтобы снизить вознаграждение за блокировку вредоносных результатов с 77% до 44%, сложность атаки возрастает с увеличением размеров модели.

Связанное: США, Великобритания и другие страны подписывают руководство по “безопасному дизайну” искуственного интеллекта

Для моделей, содержащих до 13 миллиардов параметров (мера тонкой настройки ИИ модели), исследователи утверждают, что необходим процент проникновения 5%. Для сравнения, GPT-4, модель, используемая в сервисе OpenAI ChatGPT, содержит около 170 триллионов параметров.

Пока не ясно, насколько выполнима такая атака на такой большой модели; однако исследователи предлагают дальнейшее изучение для понимания возможности масштабирования таких методов и защиты разработчиков от них.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more