Исследователи обнаружили, что LLM-модели, такие как ChatGPT, продолжают выдавать чувствительные данные даже после того, как они были «удалены».

Исследователи обнаружили, что LLM-модели, включая ChatGPT, сохраняют чувствительные данные после «удаления».

Недавно трое ученых из Университета Северной Каролины в Чапел Хилл опубликовали предварительное исследование искусственного интеллекта (ИИ), демонстрирующее, насколько сложно удалить чувствительные данные из больших языковых моделей (LLM), таких как ChatGPT от OpenAI и Bard от Google.

Согласно статье исследователей, задача “удаления” информации из LLM возможна, но также сложно подтвердить, что информация была удалена, как и само удаление.

Причина в том, как LLM создаются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный трансформер) на базах данных, а затем донастраиваются для генерации связных результатов.

Как только модель обучена, ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. Фактически, вся информация, на которой обучается модель, где-то существует в ее весах и параметрах, но они неопределенны без фактической генерации результатов. Это “черный ящик” искусственного интеллекта.

Проблема возникает, когда LLM, обученные на массивных наборах данных, выводят чувствительную информацию, такую как личные данные, финансовые записи или другие потенциально вредоносные/нежелательные результаты.

Связано: Как сообщается, Microsoft создаст команду ядерной энергетики для поддержки искусственного интеллекта

В гипотетической ситуации, когда LLM обучен на чувствительной банковской информации, например, обычно нет способа для создателя ИИ найти и удалить эти файлы. Вместо этого разработчики ИИ используют ограничения, такие как жестко закодированные подсказки, которые запрещают определенные поведения, или обучение с подкреплением на основе обратной связи от человека (RLHF).

В рамках RLHF парадигмы оценщики человека взаимодействуют с моделями с целью выявления желаемого и нежелательного поведения. Когда результаты моделей желательны, они получают обратную связь, настраивающую модель на такое поведение. И когда результаты демонстрируют нежелательное поведение, они получают обратную связь, направленную на ограничение такого поведения в будущих результатах.

На этом изображении мы видим, что, несмотря на то, что слово «Испания» было «удалено» из весов модели, его все равно можно воссоздать с помощью измененных подсказок. Источник изображения: Patil, et. al., 2023

Однако, как указывают исследователи из UNC, этот метод полагается на то, что люди найдут все недостатки, которые модель может проявить, и даже в случае успеха это все равно не “удаляет” информацию из модели.

Согласно исследовательской статье команды:

“Возможно, еще более серьезным недостатком RLHF является то, что модель все еще может знать чувствительную информацию. Вопрос о том, что модели действительно “знают”, вызывает много дебатов, но кажется проблематичным, чтобы модель, например, могла описать, как изготовить биологическое оружие, но лишь отказывалась отвечать на вопросы о том, как это делать”.

В конечном счете исследователи из UNC пришли к выводу, что даже передовые методы редактирования моделей, такие как Rank-One Model Editing (ROME), “не удаляют полностью фактическую информацию из LLM, так как факты все равно могут быть извлечены в 38% случаев с помощью атак “белого ящика” и в 29% случаев с помощью атак “черного ящика”.

Модель, которую команда использовала для проведения исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей, на которой работает ChatGPT, была донастроена с использованием 170 миллиардов параметров, у GPT-J их всего 6 миллиардов.

По-видимому, это означает, что проблема поиска и устранения нежелательных данных в LLM, таких как GPT-3.5, в экспоненциально больших моделях гораздо сложнее, чем в более маленькой модели.

Исследователи смогли разработать новые методы защиты LLM от некоторых “атак извлечения” – умышленных попыток злоумышленников использовать подсказки для обхода ограничений модели и получения чувствительной информации.

Однако, как пишут исследователи, “проблема удаления чувствительной информации может быть такой, что методы защиты всегда отстают от новых методов атаки”.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

блокчейн

PayPal выпускает стабильную монету PYUSD для пользователей Venmo

PayPal объявил о запуске своей стабильной монеты в долларах США 7 августа, и с тех пор она появилась в списках крупны...

рынок

Circle признана судьей как amicus curiae в иске SEC против Binance Доклад

Приказ о подаче отложенного хода был выдан всего за один день до ключевого слушания между Binance и SEC, назначенного...

блокчейн

Note The translation provided is a straightforward translation of the given text and may not capture the humorous tone of the original text.

Переводы являются одним из наиболее убедительных примеров использования стейблкоинов, предлагающих быстрые, непрерывн...

блокчейн

Палау заморозит стейблкоин, обеспеченный долларом США, после пилотного запуска в июле.

Правительство Палау прекратит распространение и затем заморозит свою стабильную монету, основанную на блокчейне XRP L...

политика

Банковский партнер Tether, Britannia, подвергается судебному иску в связи с депозитом в размере 1 млрд долларов сообщение

Партнер банка Tether, Britannia Financial, якобы подал в суд на компанию, которая продала ему свою брокерскую платфор...

рынок

Свежие деньги поступают в криптовалюту, поскольку рынок стейблкоинов расширяется после 1,5-летнего спада.

Капитализация стейблкоинов впервые расширилась с мая 2022 года, преимущественно благодаря Tether (USDT), которому уда...