Maison > Périphériques technologiques > IA > Le compte qui a fait l'actualité sur « Strawberry » d'OpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

Le compte qui a fait l'actualité sur « Strawberry » d'OpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

WBOY
Libérer: 2024-08-14 17:09:02
original
628 Les gens l'ont consulté
Lorsque le battage médiatique a créé un « trafic énorme », personne ne se soucie de savoir si le produit est génial ou non.

Récemment, le projet secret d'OpenAI « Q* » a reçu une large attention de la part des initiés. Le mois dernier, un projet basé sur celui-ci et nommé « Strawberry » a de nouveau été exposé. Vraisemblablement, le projet est capable de fournir des capacités de raisonnement avancées.

Ces derniers jours, à propos de ce projet, plusieurs vagues de rumeurs ont circulé sur Internet selon lesquelles "le pigeon mort ne paiera pas pour la vie de l'être humain". Surtout le récit de "Brother Strawberry", qui fait de la promotion sans arrêt, donne des attentes aux gens mais les déçoit aussi.
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
Je ne m'attendais pas à ce que partout où ce Sam Altman apparaisse, le « compte marketing » sur lequel il a posté serait en réalité une entité intelligente sous sa peau ?

Aujourd'hui, le fondateur d'une start-up d'agents IA "MultiOn" s'est prononcé directement pour déclarer : Bien que nous n'ayons pas attendu qu'OpenAI publie "Q*", nous avons publié un nouvel agent Agent qui contrôle le "Strawberry Compte Brother" Q, venez jouer avec nous en ligne ! Il s'agit du cofondateur et PDG de Multion, DIV GARG, qui a fait une pause après un doctorat en informatique à Stanford.
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
Il semble que l’opération marketing d’OpenAI consistant à fabriquer des robes de mariée pour elle-même ait laissé tout le monde confus. Après tout, de nombreuses personnes sont restées éveillées toute la nuit en attendant la « grande nouvelle » d’OpenAI récemment. Cela remonte à l'interaction entre Sam Altman et "Brother Strawberry". Sous la photo de fraises postée par Sam Altman, il a répondu à "Brother Strawberry" : La surprise viendra bientôt.

Cependant, Div Garg, le fondateur de « MultiOn », a discrètement supprimé le message affirmant que l'agent Q est « Brother Strawberry ».
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQCette fois, "MultiOn" a annoncé que le
Agent Q qu'ils ont publié est un agent IA révolutionnaire
. Sa méthode de formation combine Monte Carlo Tree Search (MCTS) et autocritique, et elle apprend des retours humains via un algorithme appelé Direct Preference Optimization (DPO).

Dans le même temps, en tant qu'agent IA de nouvelle génération doté de capacités de planification et d'auto-guérison de l'IA, les performances de l'agent Q sont 3,4 fois supérieures aux performances de base sans échantillon de LLama 3. Dans le même temps, lors de l'évaluation des tâches de scénarios réels, le taux de réussite de l'agent Q a atteint 95,4 %.

Que peut faire l'agent Q ? Jetons d’abord un coup d’œil à la démo officielle.
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQIl peut vous réserver une place dans un certain restaurant à une certaine heure.

Réalisez ensuite des opérations web pour vous, comme vérifier la disponibilité. Finalement réservé avec succès.

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ De plus, vous pouvez réserver des vols (comme un vol de New York à San Francisco ce samedi, aller simple, siège côté hublot et classe économique).

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

Cependant, les internautes ne semblent pas acheter l'agent Q. Ce qui préoccupe le plus tout le monde, c'est de savoir s'ils utilisent réellement le compte « Strawberry Brother » pour promouvoir des choses. Certaines personnes les traitent même de menteurs éhontés.

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

重要なコンポーネントとメソッドの概要

現在、MultiOn とスタンフォード大学の研究者によって共同執筆された、エージェント Q に関する関連論文が公開されています。この調査結果は、今年後半に MultiOn の開発者と一般ユーザーに提供される予定です。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

  • 論文のアドレス: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

要約すると、エージェント Q は自律的に Web を実装できます。計画と自己修正、成功と失敗から学び、複雑なタスクのパフォーマンスを向上させます。最終的に、エージェントは現実世界の複雑さに適応して、インターネットをサーフィンする方法をより適切に計画できるようになります。

技術的な詳細では、エージェント Q の主なコンポーネントには次のものが含まれます:

ガイド付き検索に MCTS (モンテカルロ ツリー検索、モンテカルロ ツリー検索) を使用する: このテクノロジーは、さまざまなオペレーションと Web を探索します。ページは探索と活用のバランスをとるためにデータを自律的に生成します。 MCTS は、高いサンプリング温度と多様なキューを使用して操作スペースを拡大し、多様で最適な軌道を確保します。

AI 自己批判: AI ベースの自己批判は、あらゆる段階で、エージェントの意思決定プロセスを改善するための貴重なフィードバックを提供します。信号がまばらだと学習が困難になることが多いため、このステップレベルのフィードバックは長期的なタスクには非常に重要です。

直接優先最適化 (DPO): このアルゴリズムは、MCTS から生成されたデータから優先ペアを構築し、モデルを微調整します。このオフポリシー トレーニング アプローチにより、モデルは、検索中に探索された次善のブランチを含む、集約されたデータ セットから効率的に学習できるため、複雑な環境での成功率が向上します。

以下では、Web ページ (Web-Page) 側の MCTS アルゴリズム に焦点を当てます。研究者は、MCTS を通じてエージェントに追加の検索機能を提供する方法を検討してきました。

以前の研究では、MCTS アルゴリズムは通常、選択、拡張、シミュレーション、バックプロパゲーションの 4 つのステージで構成されており、各ステージは探索と利用のバランスをとり、戦略を反復的に改良する上で重要な役割を果たします。

研究者らは、Web ページ エージェントの実行を Web ページ ツリー検索として定式化し、その状態はエージェント履歴と現在の Web ページの DOM ツリーで構成されます。チェスや囲碁などのボード ゲームとは異なり、研究者が使用する複雑なネットワーク エージェントは、オープン形式の変更可能な空間で動作します。

研究者らは、基本モデルをアクション提案分布として使用し、各ノード (Web ページ) で固定数の可能なアクションをサンプリングします。ブラウザでアクションが選択されて実行されると、次の Web ページが移動され、更新された履歴とともに新しいノードになります。

研究者は、すべての操作が完全にソートされるまで、フィードバック モデルを複数回反復してクエリし、そのたびに、前の反復で選択された最適な操作をリストから削除します。以下の図 4 は、完全な AI フィードバック プロセスを示しています。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
拡大と後戻り。研究者はブラウザ環境でアクションを選択して実行し、新しいノード (ページ) に到達します。選択された状態ノードの軌跡から開始して、最終状態に到達するまで、現在のポリシー ?_? を使用して軌跡を拡張します。環境は軌道の終わりに報酬 ? を返します。エージェントが成功した場合は ? = 1、それ以外の場合は ? = 0 になります。次に、この報酬は、次のように各ノードの値をリーフ ノードからルート ノードまでボトムアップで更新することによって逆伝播されます。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
以下の図 3 は、すべての結果とベースラインを示しています。テスト時にエージェントが情報を検索できるようにした場合、つまり基本 xLAM-v0.1-r モデルに MCTS を適用した場合、成功率は 28.6% から 48.4% に増加し、人間の平均パフォーマンスの 50.0% に近づき、パフォーマンスのみを大幅に上回りました。結果の監視を通じてトレーニングされたゼロショット DPO モデルの。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
研究者らは、以下の図に概要を示したアルゴリズムに基づいて基本モデルをさらに微調整し、その結果、基本 DPO モデルと比較して 0.9% の改善が得られました。注意深くトレーニングされたエージェント Q モデルに MCTS を適用すると、エージェントのパフォーマンスは 50.5% に向上し、人間の平均パフォーマンスをわずかに上回りました。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
彼らは、エージェントが広範な強化学習トレーニングを受けていたとしても、テスト時に検索機能を備えていることは依然として重要なパラダイム シフトであると信じています。これは、トレーニングを受けていないゼロショット エージェントに比べて大幅な改善です。

さらに、集中レベルの監視は純粋な結果ベースの監視よりも改善されていますが、WebShop 環境では、このトレーニング方法の改善効果は大きくありません。この環境では、エージェントは短い意思決定パスを作成するだけで済み、その結果を通じてクレジットの割り当てを学習できるためです。

評価結果

研究者らは、エージェント Q フレームワークが現実世界でどのように動作するかをテストするために、エージェントに OpenTable 公式 Web サイトでレストランを予約させるタスクを選択しました。この注文タスクを完了するには、予約が成功する前に、エージェントは OpenTable Web サイトでレストランのページを見つけ、特定の日付と時刻を選択し、ユーザーの好みに合った座席を選択し、最後にユーザーの連絡先情報を送信する必要があります。

当初、彼らは xLAM-v0.1-r モデルで実験を実施しましたが、モデルのパフォーマンスは低く、初期成功率はわずか 0.0% でした。そこで彼らは LLaMa 70B Instruct モデルに目を向け、最初はある程度の成功を収めました。

ただし、OpenTable はリアルタイム環境であるため、プログラミングや自動化による測定や評価は困難です。したがって、研究者らは GPT-4-V を使用して、次の指標に基づいて各軌跡の報酬を収集しました: (1) 日付と時刻が正しく設定されている、(2) パーティーの規模が正しく設定されている、(3) ユーザー情報が正しく入力されている、 (4) 「予約を完了する」をクリックします。上記の条件がすべて満たされた場合、エージェントはタスクを完了したとみなされます。結果として得られる監視セットアップを以下の図 5 に示します。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
そして、エージェント Q は、LLaMa-3 モデルのゼロショット成功率を 18.6% から 81.7% に大幅に向上させました。この結果は、わずか 1 日の自律的なデータ収集後に達成されました。これは 340% に相当します。成功率が急上昇。オンライン検索機能の導入後、成功率は 95.4% に上昇しました。
Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ
技術的な詳細と評価結果については原著論文を参照してください。

参考リンク:https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-そして自己修復能力

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal