Согласно последним исследованиям, ChatGPT показывает снижение производительности

По последним исследованиям, ChatGPT показывает снижение производительности.

ChatGPT стал одним из самых популярных и мощных инструментов искусственного интеллекта. Пользователи по всему миру нашли его полезным для многих функций, от генерации идей контента до решения сложных математических уравнений. Несмотря на его широкое использование, некоторые пользователи GPT-4 выразили обеспокоенность его снижающейся производительностью со временем. И исследование также выявило некоторое снижение производительности ChatGPT.

Недавно исследователи из Стэнфордского университета и Университета Калифорнии в Беркли опубликовали исследование под названием «Как меняется поведение ChatGPT со временем?». В исследовании исследуются изменения в выводах моделей большого языка OpenAI (LLM), в частности GPT-3.5 и GPT-4, за последние несколько месяцев.

Результаты исследования моделей ChatGPT от OpenAI

Исследование ставит под сомнение производительность GPT-4 в задачах кодирования и композиции. Используя доступ к API, исследователи тестировали версии этих моделей за март и июнь 2023 года на различных задачах, включая решение математических задач, ответы на чувствительные вопросы, генерацию кода и визуальное рассуждение. Важно отметить, что способность GPT-4 идентифицировать простые числа снизилась значительно с 97,6% в марте до всего 2,4% в июне. GPT-3.5, с другой стороны, показал лучшие результаты за тот же период времени.

Например, процент успеха GPT-4 в задаче «это число простое? подумай поэтапно» снизился с 97,6% до 2,4% с марта по июнь, в то время как GPT-3.5 продемонстрировал улучшение. Поведение при ответе на чувствительные входы также изменилось. Другие задачи изменились меньше, но изменения в поведении LLM определенно заметны.

— Matei Zaharia (@matei_zaharia) 19 июля 2023 года

Еще одним важным результатом исследования было значительное изменение длины ответа GPT-4. Средняя длина ответа GPT-4 существенно снизилась с 821,2 символов в марте до всего 3,8 символов в июне. В то же время GPT-3.5 за тот же период времени увеличил свою длину ответа примерно на 40%. Более того, исследование показало, что пересечение ответов между версиями за март и июнь как для GPT-4, так и для GPT-3.5 было относительно невелико.

В исследовании наблюдаются явные изменения в том, как GPT-4 и GPT-3.5 отвечают на чувствительные вопросы. С марта по июнь частота ответов GPT-4 на такие вопросы существенно снизилась с 21,0% до 5,0%. С другой стороны, GPT-3.5 продемонстрировал противоположную тенденцию, с частотой ответов на чувствительные вопросы, увеличившейся с 2,0% до 8,0% за тот же период.

Эксперты, проводившие исследование, предположили, что обновление для ChatGPT (GPT-4) в июне, вероятно, включило более сильный уровень безопасности, что привело к более консервативному подходу к обработке чувствительных запросов. В то же время GPT-3.5, кажется, стал менее консервативным в своих ответах на такие вопросы.

Результаты исследования подчеркивают, что поведение предположительно последовательной службы LLM может претерпевать значительные изменения за относительно короткий период. Это подчеркивает важность непрерывного мониторинга для обеспечения и поддержания качества LLM.

Критики GPT-4 выразили субъективные опасения относительно его снижающейся производительности. Некоторые теории предполагают, что OpenAI могла «дистиллировать» модель для снижения вычислительной нагрузки, настроить ее для минимизации вредных результатов или даже намеренно ограничить ее возможности в написании кода, чтобы повысить спрос на GitHub Copilot.

GPT-4 становится хуже со временем, а не лучше.

Многие люди сообщают о значительном снижении качества ответов модели, но до сих пор это было только анекдотическим.

Но теперь мы знаем.

По крайней мере одно исследование показывает, насколько июньская версия GPT-4 хуже, чем… pic.twitter.com/whhELYY6M4

— Santiago (@svpino) 19 июля 2023 года

OpenAI последовательно отрицает ухудшение возможностей GPT-4. Согласно вице-президенту продукта OpenAI Питеру Велиндеру, каждая новая версия разрабатывается с целью быть умнее предыдущей, и проблемы могут стать более заметными с увеличением использования.

Нет, мы не делаем GPT-4 глупее. Совсем наоборот: каждая новая версия становится умнее предыдущей.

Текущая гипотеза: когда вы используете его более интенсивно, вы начинаете замечать проблемы, которые раньше не замечали.

— Питер Велиндер (@npew) 13 июля 2023 года

Исследовательская статья оспаривает утверждение, сделанное OpenAI относительно намеренного улучшения каждой новой версии GPT. Один из соавторов исследовательской статьи, Матей Захария, также главный технолог в Databricks, выразил на Твиттере свои опасения относительно сложности управления качеством ответов модели искусственного интеллекта. Он также задался вопросом, насколько хорошо разработчики модели могут обнаруживать изменения и предотвращать потерю определенных возможностей при внедрении новых.

Хотя исследование, по-видимому, поддерживает утверждения критиков, некоторые эксперты рекомендуют быть осторожными. Арвинд Нарайанан, профессор компьютерных наук в Принстоне, утверждает, что результаты исследования не доказывают определенного упадка GPT-4. Он предполагает, что наблюдаемые изменения соответствуют тонкой настройке OpenAI. Например, в исследовании оценивается генерация кода на основе немедленной исполнимости, а не корректности, что может привести к неправильным интерпретациям.

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

блокчейн

Стейблкоин PayPal PYUSD полностью обеспечен отчет о прозрачности Paxos

Paxos опубликовала первый отчет о прозрачности для стейблкоина PayPal USD на базе Ethereum, заявляя, что монета полно...

рынок

Быки XRP на горизонте сможет ли прорыв поднять цены выше $0.6?

XRP проходит через бурные времена в последние месяцы. После достижения максимального значения в $0.936, монета резко ...

политика

«Аналитики указывают на 5 катализаторов, которые могут разбудить Биткоин и криптовалюты из спячки»

Аналитики рынка цифровых активов высказались о потенциальных катализаторах, способных вывести Биткоин и его собратьев...

мнение

Объяснение 'безрисковой' процентной ставки доходности Ethereum

Жидкая стейкинг является одним из немногих криптовалютных рынков, которые выросли в медвежьем рынке. Почему?

блокчейн

Цена Ethereum готовится к дальнейшему снижению, если этот уровень не уступит

Цена Ethereum восстанавливается от зоны $1,830 по отношению к доллару США. ETH может продолжить свое снижение, если о...

блокчейн

Участник ICO Ethereum переводит 9,96 миллиона ETH на Kraken. Будет ли он продавать?

Один из крупнейших держателей Ethereum и один из первых сторонников платформы смарт-контрактов перевел 6 000 ETH, кот...