AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です-AI-php.cn

現実世界の試み

AIエージェントはどちらへ進むのでしょうか?

ホームページ

テクノロジー周辺機器

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

PHPz

Jun 03, 2024 pm 06:38 PM

ai エージェント

大規模な言語モデルの継続的な進化と自己革新に応じて、パフォーマンス、精度、安定性が大幅に向上しており、それはさまざまなベンチマーク問題セットによって検証されています。

ただし、LLM の既存のバージョンでは、その包括的な機能が AI エージェントを完全にサポートできないようです。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

マルチモーダル、マルチタスク、マルチドメイン推論は、公共メディア空間における AI エージェントにとって必要な要件となっていますが、特定の機能実践で示される実際の効果は大きく異なります。これは、すべての AI ロボットの新興企業や大手テクノロジー企業に、より現実的であり、失速を大きく広げすぎず、AI の強化機能から始めるという現実を認識するよう改めて思い出させたようです。

最近、AI エージェントの宣伝と実際のパフォーマンスのギャップについてのブログが次の点を強調しました。「AI エージェントは宣伝においては巨人ですが、現実は非常に悪いです。」この文は、AI エージェントに対する多くの人々の見解を正確に表しています。 AI技術。科学技術の絶え間ない進歩により、AI には多くの注目すべき機能が備わってきましたが、実際のアプリケーションでは、いくつかの問題が頻繁に発生し、自律型 AI エージェントが複雑なタスクを実行できるようになった背景が問題を引き起こしています。大きな関心が興奮しました。 LLM は、外部ツールや機能と対話することで、人間の介入なしで複数ステップのワークフローを完了できます。

しかし、それは予想以上に困難であることが判明しました。

WebArena リーダーボードは、実用的なエージェントのパフォーマンスを評価するための実際の再現可能なネットワーク環境です。実際のタスクで LLM エージェントのパフォーマンスをベンチマークしたところ、最もパフォーマンスの高いモデルでも成功率は 35.8% にすぎないことがわかりました。

実際のタスクにおける LLM エージェントのパフォーマンスに関する WebArena ランキングベンチマークテストの結果: SteP モデルは成功率指標で最高のパフォーマンスを示し、35.8% に達しましたが、よく知られた GPT-4 の成功はその率はわずか14.9％に達した。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

AIエージェントとは何ですか?

「AI エージェント」という用語は実際には定義されておらず、エージェントが正確に何であるかについては多くの議論があります。

AI エージェントは、「環境内でタスクを実行する方法について高レベルの決定を下すための機能 (通常は RAG 環境で関数呼び出しを行う) を与えられた LLM」と定義できます。現在、AI エージェントを構築するための主なアーキテクチャ方法は 2 つあります:

単一エージェント: 1 つの大きなモデルがタスク全体を処理し、包括的なコンテキストの理解に基づいてすべての意思決定とアクションを行います。この方法では、大規模モデルの創発力を利用し、タスクの分解によって引き起こされる情報の損失を回避します。

マルチエージェントシステム: タスクをサブタスクに分割し、各サブタスクはより小規模で専門性の高いエージェントによって処理されます。制御やテストが難しい 1 つの大規模な一般エージェントを使用するのではなく、多数の小規模なエージェントを使用して、特定のサブタスクに適切な戦略を選択できます。このアプローチは、コンテキストウィンドウの長さの制限やさまざまなスキルセットの必要性などの実際的な制約により必要になる場合があります。

理論的には、無限のコンテキスト長と完全な注意力を備えた単一のエージェントが理想的です。コンテキストが短いため、マルチエージェントシステムは、特定の問題に関して単一システムよりも常にパフォーマンスが悪くなります。
実際の課題

AI エージェントに対する多くの試みを目撃した後、著者は、AI エージェントはまだ時期尚早で、コストがかかり、遅すぎ、信頼性が十分ではないと信じています。 AI エージェントのスタートアップの多くは、エージェントの製品化競争を開始するためのモデルの画期的な進歩を待っているようです。

実際のアプリケーションにおける AI エージェントのパフォーマンスは十分に成熟しておらず、これは不正確な出力、満足のいくパフォーマンス、コスト高、補償リスク、ユーザーの信頼を獲得できないなどの問題に反映されています。

信頼性: LLM は幻覚や矛盾を起こしやすいことが知られています。複数の AI ステップを接続すると、特に正確な出力が必要なタスクの場合、これらの問題が悪化する可能性があります。

パフォーマンスとコスト: GPT-4、Gemini-1.5、および Claude Opus はツール/関数呼び出しで良好なパフォーマンスを発揮しますが、特にループや自動再試行が必要な場合は依然として遅く、コストがかかります。

法的問題: 企業は代理店のミスに対して責任を負う可能性があります。最近の例では、エア・カナダが、航空会社のチャットボットによって誤解された顧客に補償するよう命じられました。

ユーザーの信頼: AI エージェントや同様の例の「ブラックボックス」の性質により、ユーザーがその出力を理解し、信頼することが困難になります。支払いや個人情報を伴う機密性の高いタスク (請求書の支払い、ショッピングなど) を行う場合、ユーザーの信頼を勝ち取ることは困難です。

現実世界の試み

現在、以下のスタートアップが AI エージェントの分野に参入していますが、そのほとんどはまだ実験段階または招待制です:

adept.ai - $350 100万ドルが集まりましたが、アクセスは依然として非常に限られています。
MultiOn - 資金調達状況は不明ですが、API ファーストのアプローチは有望そうです。
HypeWrite - 280万ドルを調達、AIライティングアシスタントとしてスタートし、後にエージェントに拡大しました。
minion.ai - 当初は注目を集めましたが、現在は待機リストのみで休止中です。

その中で、MultiOn だけが、より AI エージェントの約束に沿った「指示を与え、その実行を観察する」という方法を追求しているようです。

他のどの企業も RPA (記録と再生) の道を進んでいますが、信頼性を確保するために現段階ではこれが必要になる可能性があります。

同時に、一部の大企業も AI 機能をデスクトップやブラウザーに導入しており、システムレベルでネイティブ AI 統合を実現するようです。

OpenAI は、オペレーティングシステム画面と対話する Mac デスクトップアプリを発表しました。

Google I/O で、Google はショッピング返品を自動化する Gemini をデモンストレーションしました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

Microsoft は、開発者が AI エージェントロボットを構築できるようにする Copilot Studio を発表しました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

これらの技術的なデモンストレーションは印象的であり、慎重に選択されたデモンストレーションケースに限定されるのではなく、これらのエージェント機能が一般に公開され、実際のシナリオでテストされるときに、人々は様子を見て見ることができます。

AIエージェントはどちらへ進むのでしょうか?

著者は、「AIエージェントは過剰に宣伝されており、そのほとんどはミッションクリティカルな用途に対応する準備ができていない。」と強調している。しかし、基本的なモデルとアーキテクチャの急速な進歩により、人々はまだ活用できると述べた。より多くの実用化が成功することを楽しみにしています。

AI エージェントにとって最も有望な道は次のようになります:

短期的には、完全に自律的なスタンドアロンサービスを幅広く提供するのではなく、既存のツールを AI で強化することに重点を置く必要があります。

人間と機械のコラボレーション手法により、人間がエッジケースの監視と処理に参加できるようになります。
現在の能力と限界に基づいて現実的な期待を設定します。
厳密に制約された LLM、優れた評価データ、人間と機械の協調的な監視、および従来のエンジニアリング手法を組み合わせることで、自動化などの複雑なタスクで信頼性の高い良好な結果を達成することが可能になります。

AI エージェントは、Web スクレイピング、フォーム入力、データ入力などの退屈で反復的なタスクを自動化しますか?

著者: 「はい、その通りです。」

では、AI エージェントは人間の介入なしに自動的に休暇を予約するのでしょうか?

著者: 「少なくとも近い将来にはその可能性は低いです。」

以上がAI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7695

Java チュートリアル

1640

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98％をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin（Doge）は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務（DEFI）（TVL）の総価値が激しく減少しました。「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78％下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37％減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04％と20減少しました。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

See all articles

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

「AI エージェント」という用語は実際には定義されておらず、エージェントが正確に何であるかについては多くの議論があります。

現実世界の試み

AIエージェントはどちらへ進むのでしょうか?

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック