Согласно последним исследованиям, ChatGPT показывает снижение производительности
По последним исследованиям, ChatGPT показывает снижение производительности.
ChatGPT стал одним из самых популярных и мощных инструментов искусственного интеллекта. Пользователи по всему миру нашли его полезным для многих функций, от генерации идей контента до решения сложных математических уравнений. Несмотря на его широкое использование, некоторые пользователи GPT-4 выразили обеспокоенность его снижающейся производительностью со временем. И исследование также выявило некоторое снижение производительности ChatGPT.
Недавно исследователи из Стэнфордского университета и Университета Калифорнии в Беркли опубликовали исследование под названием «Как меняется поведение ChatGPT со временем?». В исследовании исследуются изменения в выводах моделей большого языка OpenAI (LLM), в частности GPT-3.5 и GPT-4, за последние несколько месяцев.
Результаты исследования моделей ChatGPT от OpenAI
Исследование ставит под сомнение производительность GPT-4 в задачах кодирования и композиции. Используя доступ к API, исследователи тестировали версии этих моделей за март и июнь 2023 года на различных задачах, включая решение математических задач, ответы на чувствительные вопросы, генерацию кода и визуальное рассуждение. Важно отметить, что способность GPT-4 идентифицировать простые числа снизилась значительно с 97,6% в марте до всего 2,4% в июне. GPT-3.5, с другой стороны, показал лучшие результаты за тот же период времени.
Например, процент успеха GPT-4 в задаче «это число простое? подумай поэтапно» снизился с 97,6% до 2,4% с марта по июнь, в то время как GPT-3.5 продемонстрировал улучшение. Поведение при ответе на чувствительные входы также изменилось. Другие задачи изменились меньше, но изменения в поведении LLM определенно заметны.
- Китайский проект Zhipu AI получает огромную поддержку и финансирование от Meituan
- Bиртуальная валюта FTX подает заявку на возврат $71 млн из своих благотворительных и научно-исследовательских дочерних компаний
- Terraform Labs До Квон уходит, новый CEO вступает на пост
— Matei Zaharia (@matei_zaharia) 19 июля 2023 года
Еще одним важным результатом исследования было значительное изменение длины ответа GPT-4. Средняя длина ответа GPT-4 существенно снизилась с 821,2 символов в марте до всего 3,8 символов в июне. В то же время GPT-3.5 за тот же период времени увеличил свою длину ответа примерно на 40%. Более того, исследование показало, что пересечение ответов между версиями за март и июнь как для GPT-4, так и для GPT-3.5 было относительно невелико.
В исследовании наблюдаются явные изменения в том, как GPT-4 и GPT-3.5 отвечают на чувствительные вопросы. С марта по июнь частота ответов GPT-4 на такие вопросы существенно снизилась с 21,0% до 5,0%. С другой стороны, GPT-3.5 продемонстрировал противоположную тенденцию, с частотой ответов на чувствительные вопросы, увеличившейся с 2,0% до 8,0% за тот же период.
Эксперты, проводившие исследование, предположили, что обновление для ChatGPT (GPT-4) в июне, вероятно, включило более сильный уровень безопасности, что привело к более консервативному подходу к обработке чувствительных запросов. В то же время GPT-3.5, кажется, стал менее консервативным в своих ответах на такие вопросы.
Результаты исследования подчеркивают, что поведение предположительно последовательной службы LLM может претерпевать значительные изменения за относительно короткий период. Это подчеркивает важность непрерывного мониторинга для обеспечения и поддержания качества LLM.
Критики GPT-4 выразили субъективные опасения относительно его снижающейся производительности. Некоторые теории предполагают, что OpenAI могла «дистиллировать» модель для снижения вычислительной нагрузки, настроить ее для минимизации вредных результатов или даже намеренно ограничить ее возможности в написании кода, чтобы повысить спрос на GitHub Copilot.
GPT-4 становится хуже со временем, а не лучше.
Многие люди сообщают о значительном снижении качества ответов модели, но до сих пор это было только анекдотическим.
Но теперь мы знаем.
По крайней мере одно исследование показывает, насколько июньская версия GPT-4 хуже, чем… pic.twitter.com/whhELYY6M4
— Santiago (@svpino) 19 июля 2023 года
OpenAI последовательно отрицает ухудшение возможностей GPT-4. Согласно вице-президенту продукта OpenAI Питеру Велиндеру, каждая новая версия разрабатывается с целью быть умнее предыдущей, и проблемы могут стать более заметными с увеличением использования.
Нет, мы не делаем GPT-4 глупее. Совсем наоборот: каждая новая версия становится умнее предыдущей.
Текущая гипотеза: когда вы используете его более интенсивно, вы начинаете замечать проблемы, которые раньше не замечали.
— Питер Велиндер (@npew) 13 июля 2023 года
Исследовательская статья оспаривает утверждение, сделанное OpenAI относительно намеренного улучшения каждой новой версии GPT. Один из соавторов исследовательской статьи, Матей Захария, также главный технолог в Databricks, выразил на Твиттере свои опасения относительно сложности управления качеством ответов модели искусственного интеллекта. Он также задался вопросом, насколько хорошо разработчики модели могут обнаруживать изменения и предотвращать потерю определенных возможностей при внедрении новых.
Хотя исследование, по-видимому, поддерживает утверждения критиков, некоторые эксперты рекомендуют быть осторожными. Арвинд Нарайанан, профессор компьютерных наук в Принстоне, утверждает, что результаты исследования не доказывают определенного упадка GPT-4. Он предполагает, что наблюдаемые изменения соответствуют тонкой настройке OpenAI. Например, в исследовании оценивается генерация кода на основе немедленной исполнимости, а не корректности, что может привести к неправильным интерпретациям.
We will continue to update BiLee; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Telegram Bot Unibot привлекает криптотрейдеров с помощью ралли токена UNIBOT
- Google разрабатывает инструмент искусственного интеллекта для помощи журналистам в написании новостей
- BitMEX продлевает соглашение о партнерстве с футбольным клубом AC Milan
- Глава Народного банка Китая заявляет, что объем транзакций цифрового юаня достиг $250 млрд.
- Dogecoin (DOGE), Shiba Inu (SHIB) растут после последнего твита Илона Маска
- Основатель Animoca подчеркивает влияние Китая на развитие криптовалют в Гонконге
- Компания по блокчейн-играм Moxy проводит тройное событие с запуском токен-продажи и битвой влиятельных лиц