Исследователи обнаружили, что LLM-модели, такие как ChatGPT, продолжают выдавать чувствительные данные даже после того, как они были «удалены».
Исследователи обнаружили, что LLM-модели, включая ChatGPT, сохраняют чувствительные данные после «удаления».
Недавно трое ученых из Университета Северной Каролины в Чапел Хилл опубликовали предварительное исследование искусственного интеллекта (ИИ), демонстрирующее, насколько сложно удалить чувствительные данные из больших языковых моделей (LLM), таких как ChatGPT от OpenAI и Bard от Google.
Согласно статье исследователей, задача “удаления” информации из LLM возможна, но также сложно подтвердить, что информация была удалена, как и само удаление.
Причина в том, как LLM создаются и обучаются. Модели предварительно обучаются (GPT означает генеративный предварительно обученный трансформер) на базах данных, а затем донастраиваются для генерации связных результатов.
Как только модель обучена, ее создатели не могут, например, вернуться в базу данных и удалить определенные файлы, чтобы запретить модели выводить связанные результаты. Фактически, вся информация, на которой обучается модель, где-то существует в ее весах и параметрах, но они неопределенны без фактической генерации результатов. Это “черный ящик” искусственного интеллекта.
- Криптовалютная торговая платформа GSR получила принципиальную лицензию MPI в Сингапуре.
- Wall Street Memes’ вырос на 45% за 7 дней, став 4-м самым торгуемым мем-койном после Dogecoin, Shiba Inu и Pepe.
- Банкротство фирмы Haru Invest намекает на восстановление активов
Проблема возникает, когда LLM, обученные на массивных наборах данных, выводят чувствительную информацию, такую как личные данные, финансовые записи или другие потенциально вредоносные/нежелательные результаты.
Связано: Как сообщается, Microsoft создаст команду ядерной энергетики для поддержки искусственного интеллекта
В гипотетической ситуации, когда LLM обучен на чувствительной банковской информации, например, обычно нет способа для создателя ИИ найти и удалить эти файлы. Вместо этого разработчики ИИ используют ограничения, такие как жестко закодированные подсказки, которые запрещают определенные поведения, или обучение с подкреплением на основе обратной связи от человека (RLHF).
В рамках RLHF парадигмы оценщики человека взаимодействуют с моделями с целью выявления желаемого и нежелательного поведения. Когда результаты моделей желательны, они получают обратную связь, настраивающую модель на такое поведение. И когда результаты демонстрируют нежелательное поведение, они получают обратную связь, направленную на ограничение такого поведения в будущих результатах.
Однако, как указывают исследователи из UNC, этот метод полагается на то, что люди найдут все недостатки, которые модель может проявить, и даже в случае успеха это все равно не “удаляет” информацию из модели.
Согласно исследовательской статье команды:
“Возможно, еще более серьезным недостатком RLHF является то, что модель все еще может знать чувствительную информацию. Вопрос о том, что модели действительно “знают”, вызывает много дебатов, но кажется проблематичным, чтобы модель, например, могла описать, как изготовить биологическое оружие, но лишь отказывалась отвечать на вопросы о том, как это делать”.
В конечном счете исследователи из UNC пришли к выводу, что даже передовые методы редактирования моделей, такие как Rank-One Model Editing (ROME), “не удаляют полностью фактическую информацию из LLM, так как факты все равно могут быть извлечены в 38% случаев с помощью атак “белого ящика” и в 29% случаев с помощью атак “черного ящика”.
Модель, которую команда использовала для проведения исследования, называется GPT-J. В то время как GPT-3.5, одна из базовых моделей, на которой работает ChatGPT, была донастроена с использованием 170 миллиардов параметров, у GPT-J их всего 6 миллиардов.
По-видимому, это означает, что проблема поиска и устранения нежелательных данных в LLM, таких как GPT-3.5, в экспоненциально больших моделях гораздо сложнее, чем в более маленькой модели.
Исследователи смогли разработать новые методы защиты LLM от некоторых “атак извлечения” – умышленных попыток злоумышленников использовать подсказки для обхода ограничений модели и получения чувствительной информации.
Однако, как пишут исследователи, “проблема удаления чувствительной информации может быть такой, что методы защиты всегда отстают от новых методов атаки”.
We will continue to update BiLee; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Бесплатная группа сигналов криптовалют Крипто-киты взлетают на фоне получения подписчиков более 25 000
- Слишком поздно покупать Render? Токен RNDR растет на 6%, поскольку лицензированное крипто-казино начинает сбор средств – Как попасть в проект заранее?
- VanEck Ethereum Strategy ETF готовится к листингу на CBOE
- ИИ – мощный инструмент для разработчиков, способный изменить игровую индустрию, говорит бывший руководитель игрового подразделения Google.
- Гонконгская и Макао полиция задержала еще четырех подозреваемых в мошенничестве на криптовалютной платформе JPEX
- Grayscale переходит к преобразованию своего Ethereum Trust в Spot ETH ETF
- Инвестиционная фирма по криптовалюте Deus X Capital запускается с активами в размере 1 млрд долларов