Le compte qui a fait l'actualité sur « Strawberry » d'OpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ-IA-php.cn

Lorsque le battage médiatique a créé un « trafic énorme », personne ne se soucie de savoir si le produit est génial ou non.

Récemment, le projet secret d'OpenAI « Q* » a reçu une large attention de la part des initiés. Le mois dernier, un projet basé sur celui-ci et nommé « Strawberry » a de nouveau été exposé. Vraisemblablement, le projet est capable de fournir des capacités de raisonnement avancées.

Ces derniers jours, à propos de ce projet, plusieurs vagues de rumeurs ont circulé sur Internet selon lesquelles "le pigeon mort ne paiera pas pour la vie de l'être humain". Surtout le récit de "Brother Strawberry", qui fait de la promotion sans arrêt, donne des attentes aux gens mais les déçoit aussi.

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

Je ne m'attendais pas à ce que partout où ce Sam Altman apparaisse, le « compte marketing » sur lequel il a posté serait en réalité une entité intelligente sous sa peau ?

Aujourd'hui, le fondateur d'une start-up d'agents IA "MultiOn" s'est prononcé directement pour déclarer : Bien que nous n'ayons pas attendu qu'OpenAI publie "Q*", nous avons publié un nouvel agent Agent qui contrôle le "Strawberry Compte Brother" Q, venez jouer avec nous en ligne ! Il s'agit du cofondateur et PDG de Multion, DIV GARG, qui a fait une pause après un doctorat en informatique à Stanford.

^{Il semble que l’opération marketing d’OpenAI consistant à fabriquer des robes de mariée pour elle-même ait laissé tout le monde confus. Après tout, de nombreuses personnes sont restées éveillées toute la nuit en attendant la « grande nouvelle » d’OpenAI récemment. Cela remonte à l'interaction entre Sam Altman et "Brother Strawberry". Sous la photo de fraises postée par Sam Altman, il a répondu à "Brother Strawberry" : La surprise viendra bientôt.}

Cependant, Div Garg, le fondateur de « MultiOn », a discrètement supprimé le message affirmant que l'agent Q est « Brother Strawberry ».

Cette fois, "MultiOn" a annoncé que le

Agent Q qu'ils ont publié est un agent IA révolutionnaire

. Sa méthode de formation combine Monte Carlo Tree Search (MCTS) et autocritique, et elle apprend des retours humains via un algorithme appelé Direct Preference Optimization (DPO).

Dans le même temps, en tant qu'agent IA de nouvelle génération doté de capacités de planification et d'auto-guérison de l'IA, les performances de l'agent Q sont 3,4 fois supérieures aux performances de base sans échantillon de LLama 3. Dans le même temps, lors de l'évaluation des tâches de scénarios réels, le taux de réussite de l'agent Q a atteint 95,4 %.

Que peut faire l'agent Q ? Jetons d’abord un coup d’œil à la démo officielle.

Il peut vous réserver une place dans un certain restaurant à une certaine heure.

Réalisez ensuite des opérations web pour vous, comme vérifier la disponibilité. Finalement réservé avec succès.

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ De plus, vous pouvez réserver des vols (comme un vol de New York à San Francisco ce samedi, aller simple, siège côté hublot et classe économique).

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

Cependant, les internautes ne semblent pas acheter l'agent Q. Ce qui préoccupe le plus tout le monde, c'est de savoir s'ils utilisent réellement le compte « Strawberry Brother » pour promouvoir des choses. Certaines personnes les traitent même de menteurs éhontés.

Le compte qui a fait lactualité sur « Strawberry » dOpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ

重要なコンポーネントとメソッドの概要

現在、MultiOn とスタンフォード大学の研究者によって共同執筆された、エージェント Q に関する関連論文が公開されています。この調査結果は、今年後半に MultiOn の開発者と一般ユーザーに提供される予定です。

論文のアドレス: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

要約すると、エージェント Q は自律的に Web を実装できます。計画と自己修正、成功と失敗から学び、複雑なタスクのパフォーマンスを向上させます。最終的に、エージェントは現実世界の複雑さに適応して、インターネットをサーフィンする方法をより適切に計画できるようになります。

技術的な詳細では、エージェント Q の主なコンポーネントには次のものが含まれます:

ガイド付き検索に MCTS (モンテカルロツリー検索、モンテカルロツリー検索) を使用する: このテクノロジーは、さまざまなオペレーションと Web を探索します。ページは探索と活用のバランスをとるためにデータを自律的に生成します。 MCTS は、高いサンプリング温度と多様なキューを使用して操作スペースを拡大し、多様で最適な軌道を確保します。

AI 自己批判: AI ベースの自己批判は、あらゆる段階で、エージェントの意思決定プロセスを改善するための貴重なフィードバックを提供します。信号がまばらだと学習が困難になることが多いため、このステップレベルのフィードバックは長期的なタスクには非常に重要です。

直接優先最適化 (DPO): このアルゴリズムは、MCTS から生成されたデータから優先ペアを構築し、モデルを微調整します。このオフポリシートレーニングアプローチにより、モデルは、検索中に探索された次善のブランチを含む、集約されたデータセットから効率的に学習できるため、複雑な環境での成功率が向上します。

以下では、Web ページ (Web-Page) 側の MCTS アルゴリズム に焦点を当てます。研究者は、MCTS を通じてエージェントに追加の検索機能を提供する方法を検討してきました。

以前の研究では、MCTS アルゴリズムは通常、選択、拡張、シミュレーション、バックプロパゲーションの 4 つのステージで構成されており、各ステージは探索と利用のバランスをとり、戦略を反復的に改良する上で重要な役割を果たします。

研究者らは、Web ページエージェントの実行を Web ページツリー検索として定式化し、その状態はエージェント履歴と現在の Web ページの DOM ツリーで構成されます。チェスや囲碁などのボードゲームとは異なり、研究者が使用する複雑なネットワークエージェントは、オープン形式の変更可能な空間で動作します。

研究者らは、基本モデルをアクション提案分布として使用し、各ノード (Web ページ) で固定数の可能なアクションをサンプリングします。ブラウザでアクションが選択されて実行されると、次の Web ページが移動され、更新された履歴とともに新しいノードになります。

研究者は、すべての操作が完全にソートされるまで、フィードバックモデルを複数回反復してクエリし、そのたびに、前の反復で選択された最適な操作をリストから削除します。以下の図 4 は、完全な AI フィードバックプロセスを示しています。

拡大と後戻り。研究者はブラウザ環境でアクションを選択して実行し、新しいノード (ページ) に到達します。選択された状態ノードの軌跡から開始して、最終状態に到達するまで、現在のポリシー ?_? を使用して軌跡を拡張します。環境は軌道の終わりに報酬 ? を返します。エージェントが成功した場合は ? = 1、それ以外の場合は ? = 0 になります。次に、この報酬は、次のように各ノードの値をリーフノードからルートノードまでボトムアップで更新することによって逆伝播されます。

以下の図 3 は、すべての結果とベースラインを示しています。テスト時にエージェントが情報を検索できるようにした場合、つまり基本 xLAM-v0.1-r モデルに MCTS を適用した場合、成功率は 28.6% から 48.4% に増加し、人間の平均パフォーマンスの 50.0% に近づき、パフォーマンスのみを大幅に上回りました。結果の監視を通じてトレーニングされたゼロショット DPO モデルの。

研究者らは、以下の図に概要を示したアルゴリズムに基づいて基本モデルをさらに微調整し、その結果、基本 DPO モデルと比較して 0.9% の改善が得られました。注意深くトレーニングされたエージェント Q モデルに MCTS を適用すると、エージェントのパフォーマンスは 50.5% に向上し、人間の平均パフォーマンスをわずかに上回りました。

彼らは、エージェントが広範な強化学習トレーニングを受けていたとしても、テスト時に検索機能を備えていることは依然として重要なパラダイムシフトであると信じています。これは、トレーニングを受けていないゼロショットエージェントに比べて大幅な改善です。

さらに、集中レベルの監視は純粋な結果ベースの監視よりも改善されていますが、WebShop 環境では、このトレーニング方法の改善効果は大きくありません。この環境では、エージェントは短い意思決定パスを作成するだけで済み、その結果を通じてクレジットの割り当てを学習できるためです。

評価結果

研究者らは、エージェント Q フレームワークが現実世界でどのように動作するかをテストするために、エージェントに OpenTable 公式 Web サイトでレストランを予約させるタスクを選択しました。この注文タスクを完了するには、予約が成功する前に、エージェントは OpenTable Web サイトでレストランのページを見つけ、特定の日付と時刻を選択し、ユーザーの好みに合った座席を選択し、最後にユーザーの連絡先情報を送信する必要があります。

当初、彼らは xLAM-v0.1-r モデルで実験を実施しましたが、モデルのパフォーマンスは低く、初期成功率はわずか 0.0% でした。そこで彼らは LLaMa 70B Instruct モデルに目を向け、最初はある程度の成功を収めました。

ただし、OpenTable はリアルタイム環境であるため、プログラミングや自動化による測定や評価は困難です。したがって、研究者らは GPT-4-V を使用して、次の指標に基づいて各軌跡の報酬を収集しました: (1) 日付と時刻が正しく設定されている、(2) パーティーの規模が正しく設定されている、(3) ユーザー情報が正しく入力されている、 (4) 「予約を完了する」をクリックします。上記の条件がすべて満たされた場合、エージェントはタスクを完了したとみなされます。結果として得られる監視セットアップを以下の図 5 に示します。

そして、エージェント Q は、LLaMa-3 モデルのゼロショット成功率を 18.6% から 81.7% に大幅に向上させました。この結果は、わずか 1 日の自律的なデータ収集後に達成されました。これは 340% に相当します。成功率が急上昇。オンライン検索機能の導入後、成功率は 95.4% に上昇しました。

技術的な詳細と評価結果については原著論文を参照してください。

^{参考リンク：https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-そして自己修復能力}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Php8, je viens aussi

Apprenez la mise en page d'un site Web en 30 minutes

Tutoriel vidéo Shangguan Oracle débutant à compétent

Votre première ligne de code UNI-APP

Flutter de zéro au lancement de l'application

Brother Lian Nouveau didacticiel vidéo Linux

Tutoriel vidéo AXURE 9 (convient à l'interface utilisateur interactive de conception de produits du chef de produit)

Tutoriel vidéo PS Zero Basic Proficiency

Tutoriel vidéo de 16 jours sur l'interface utilisateur pour vous aider à démarrer

Tutoriel vidéo sur les techniques PS et les techniques de découpage

Tutoriel vidéo sur la construction et le lancement de projets d'Alibaba Cloud Environment

Présentation des réseaux informatiques - Connaissances de base que les programmeurs doivent maîtriser

Tutoriel essentiel pour les programmeurs - Explication du protocole HTTP

Tutoriel vidéo Websocket

Le compte qui a fait l'actualité sur « Strawberry » d'OpenAI est en fait un agent intelligent ? Le « battage médiatique » de la start-up de Stanford avec AgentQ