Ученые говорят, что ChatGPT и Claude ‘становятся способными справляться с реальными задачами

Ученые говорят, что ChatGPT и Claude успешно решают реальные задачи.

Почти двадцать исследователей из университетов Цинхуа, штата Огайо и Калифорнийского университета в Беркли сотрудничали для создания метода измерения возможностей больших языковых моделей (LLM) в качестве агентов в реальном мире.

LLM, такие как ChatGPT от OpenAI и Claude от Anthropic, в последний год завоевали технологический мир, поскольку передовые “чат-боты” оказались полезными в различных задачах, включая кодирование, торговлю криптовалютой и генерацию текста.

Связано: OpenAI запускает веб-паука ‘GPTBot’ в связи с планами для следующей модели: GPT-5

Обычно эти модели оцениваются на основе их способности выводить текст, воспринимаемый как человеческий, или по их результатам на тестах на обычном языке, предназначенных для людей. По сравнению с этим, гораздо меньше статей было опубликовано на тему моделей LLM в качестве агентов.

Искусственные интеллектуальные (ИИ) агенты выполняют определенные задачи, такие как выполнение набора инструкций в определенной среде. Например, исследователи часто обучают ИИ-агента навигации в сложной цифровой среде в качестве метода изучения использования машинного обучения для разработки автономных роботов безопасно.

Традиционные агенты машинного обучения, подобные показанному выше в видео, обычно не создаются в качестве LLM из-за высоких затрат, связанных с обучением моделей, таких как ChatGPT и Claude. Однако крупнейшие модели LLM показали свою перспективу в качестве агентов.

Команда из Цинхуа, Огайо и Беркли разработала инструмент под названием AgentBench для оценки и измерения возможностей моделей LLM в качестве агентов в реальном мире, что, по словам команды, является первым в своем роде.

Согласно предварительной версии статьи исследователей, основной проблемой при создании AgentBench было преодоление традиционных сред обучения ИИ – видеоигр и физических симуляторов – и поиск способов применения возможностей LLM к реальным проблемам, чтобы их можно было эффективно измерять.

Схема оценки AgentBench. Источник: Лю, и др.

Они придумали многомерный набор тестов, который измеряет способность модели выполнять сложные задачи в различных средах.

Среди них – выполнение моделями функций в базе данных SQL, работа в операционной системе, планирование и выполнение функций по уборке дома, онлайн-шопинг и несколько других высокоуровневых задач, требующих пошагового решения проблем.

Согласно статье, крупные и самые дорогостоящие модели опережают открытые модели на значительный уровень:

“Мы провели всестороннюю оценку 25 различных моделей LLM с использованием AgentBench, включая как модели на основе API, так и открытые модели. Наши результаты показывают, что модели верхнего уровня, такие как GPT-4, способны справляться с широким спектром задач в реальном мире, что указывает на потенциал для разработки мощного непрерывно учащегося агента.”

Исследователи пошли дальше и заявили, что “лучшие модели LLM становятся способными выполнять сложные задачи в реальном мире”, но добавили, что у открытых конкурентов “есть еще долгий путь.”

We will continue to update BiLee; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

финансы

«Стейблкоин PayPal открывает двери для принятия криптовалют в традиционной финансовой сфере»

Запуск новой стейблкоин считается свидетельством растущего интереса криптоэкосистемы со стороны крупных финансовых ги...

биткоин

Движение средств в криптофонды миллионы покидают биткойн, но эти три монеты удерживают свои позиции

На прошлой неделе наблюдалась значительная тенденция, поскольку криптофонды, включая биткойн, столкнулись с значитель...

политика

Неудача закона о стейблкоинах отражает углубление политического раскола в криптосфере

Принятие закона о стейблкоине в Комитете по финансовым услугам показало, насколько глубоким стал политический раскол ...

рынок

Шинхан Банк и SCB TechX запускают пилотную программу по международным платежам с использованием устойчивой монеты на платформе Hedera.

Южнокорейский Shinhan Bank и SCB TechX банка Siam Commercial Bank успешно протестировали переводы стейблкоинов на сет...

блокчейн

Самый крупный протокол Solana, Marinade, делает ставку на рост с помощью 'родного' продукта по зачислению SOL

Участники Marinade Finance говорят, что новый сервис может заинтересовать институциональных инвесторов.

рынок

Binance закончит поддержку стейблкоина BUSD в декабре

Планы Binance по сокращению услуг по их внутреннему стейблкоину продолжились с объявлением о прекращении обслуживания...