冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能に
ロボットにとって、タスク計画は避けられない問題です。
現実世界のタスクを完了したい場合は、まず冷蔵庫に象を設置するのに何ステップかかるかを知る必要があります。
比較的単純なリンゴを投げる タスクでも 複数のサブステップ が含まれており、ロボットは リンゴの位置を観察する必要があります。 apple、もし がリンゴ を見つけられない場合、我々は を探し続け、それから リンゴに近づいて 、リンゴをつかむ必要があります # #,ゴミ箱の近くのを見つけてください。 ゴミ箱
が閉じている 場合は、まず 開いてから ゴミ箱を捨ててください。アップルインとゴミ箱を閉じます。 しかし、各タスクの 具体的な実装の詳細は人間が設計することはできず、コマンドによって
アクション シーケンスを生成する方法で十分です。問題。 コマンドを使用してシーケンス を生成しますか?これはまさに
言語モデルの仕事ではないでしょうか? これまで、研究者は大規模言語モデル (LLM) を使用して、入力されたタスク指示に基づいて潜在的な次のアクション スペースをスコア化し、アクション シーケンスを生成してきました。 命令は自然言語 で記述されており、追加のドメイン情報は含まれません。
しかし、そのようなメソッドでは、スコアリングのために考えられる次のアクションをすべて列挙する必要があるか、生成されるテキストの形式に制限がなく、現在の環境内の特定のロボットが含まれる可能性がありますimpossibleaction。
最近、南カリフォルニア大学と NVIDIA が共同で新しいモデル ProgPrompt を立ち上げました。このモデルでは、言語モデルも使用して、入力命令に対するタスク計画を実行します。これには、以下が含まれます。
プログラムされたプロンプト構造により、生成された計画は、さまざまな環境、さまざまな能力を持つロボット、およびさまざまなタスクで機能することができます。
タスクの標準化を確実にするために、研究者らは生成された Python スタイル コード を使用して言語モデルにプロンプトを出しました。アクションが使用可能か、環境内にどのようなオブジェクトがあるか、およびどのプログラムが実行可能であるか。
たとえば、「リンゴを投げる」コマンドを入力すると、次のプログラムが生成されます。
ProgPrompt モデルは、
仮想ホーム タスクで優れたパフォーマンス を達成し、研究者はまた、## にもモデルをデプロイしました。 #デスクトップ タスク用の物理ロボット アーム
魔法の言語モデル毎日の家事を完了するには、世界についての常識的な理解と現在の環境の状況知識の両方が必要です。
「夕食を作る」というタスクプランを作成するために、エージェントが知っておく必要がある最低限の知識は次のとおりです。オブジェクトの機能 (コンロやコンロなど)電子レンジは加熱して使用できます。アクションの論理的シーケンス
、食品を追加する前にオーブンを予熱する必要があります。およびオブジェクトとアクションのタスクの関連性 (加熱と材料の検索など) 「ディナー」アクションへ。 しかし、状態フィードバック (状態フィードバック) がなければ、この種の推論は実行できません。
エージェントは、冷蔵庫に魚があるかどうか、冷蔵庫に鶏肉があるかどうかなど、現在の環境で どこに食べ物があるか を知る必要があります。 。
大規模なコーパスでトレーニングされた自己回帰大規模言語モデルは、入力プロンプトの条件下でテキスト シーケンスを生成でき、重要なマルチタスク一般化機能を備えています。
たとえば、「夕食を作る」と入力すると、言語モデルは、冷蔵庫を開ける、鶏肉を取り出す、ソーダを取り出す、冷蔵庫を閉じるなどの後続のシーケンスを生成できます。 、照明のスイッチを入れるなど。
生成されたテキスト シーケンスは、エージェントのアクション スペースにマッピングする必要があります。たとえば、生成された指示が「手を伸ばしてピクルスの瓶を拾う」である場合、対応する実行可能なアクションが「瓶を拾う」である場合、モデルはアクションの確率スコアを計算します。
しかし、環境フィードバックがない場合、冷蔵庫に鶏肉がないにもかかわらず「鶏肉を取り出す」ことを選択した場合、「夕食を作る」というタスクは失敗します。世界情勢に関する情報は含まれません。
ProgPrompt モデルは、タスク計画においてプログラミング言語構造を巧みに利用しています。これは、 既存の大規模言語モデルは、通常、プログラミング チュートリアルとコード ドキュメントの事前トレーニングのコーパスで実施されるためです。
ProgPrompt は、プロンプトとして Python プログラム ヘッダーを備えた言語モデルを提供し、利用可能なアクション スペース、予期されるパラメーター、環境内の利用可能なオブジェクトをインポートします。
次に、make_dinner、throw_away_banana、その他の 関数 を定義します。その本体は次のとおりです。オブジェクトを操作するための アクション シーケンス は、計画された前提条件 をアサートする によって組み込まれます (冷蔵庫を開けようとする前に冷蔵庫に近づく、アサーションの失敗に回復アクションで応答するなど)。ステータスフィードバック。 最も重要なことは、ProgPrompt プログラムにはアクションの目標を説明するための自然言語で書かれた
コメントも含まれており、それによって生成された計画の実行が改善されることです。プログラムのミッション成功率。 ProgPrompt
完全なアイデアにより、ProgPrompt の全体的なワークフローが明確になります。これには、主に
3 つの部分、Python 関数の構築が含まれます。 , プログラミング言語プロンプトの構築 , タスク プランの生成と実行 。
プランニング関数には、 アクション プリミティブ
への API 呼び出し、アクションの要約とコメントの追加、実行を追跡するためのアサーションが含まれます。各アクション プリミティブにはパラメータとしてオブジェクトが必要です。たとえば、「サーモンを電子レンジに入れる」タスクには find(salmon) の呼び出しが含まれており、find はアクション プリミティブです。 。
コード内でコメントを使用して、後続のアクション シーケンスに自然言語による概要を提供します。コメントは、高レベルのタスクを適切なレベルに分割するのに役立ちます。論理的なサブタスクは次のとおりです。 「鮭を捕まえる」「鮭を電子レンジに入れる」。
アノテーションを使用すると、言語モデルが現在の目標を理解できるようになり、思考の連鎖と同様に、一貫性のない、一貫性のない、または繰り返しの出力の可能性を減らすことができます。結果。
アサーション (アサーション) 前提条件が真であることを確認し、前提条件が真でない場合 (クロール アクションの前など) にエラー回復を実装するための環境フィードバック メカニズムを提供します。この計画では、エージェントがサケの近くにいることを主張しており、そうでない場合、エージェントは最初に検索アクションを実行する必要があります。
2. プログラミング言語プロンプトの構築
プロンプトは環境に関する情報を提供する必要があります言語モデルと主要なアクション情報 (観察、アクション プリミティブ、例など) に関連付けられ、言語モデルを完了するための Python プロンプトが生成されます。
次に、言語モデルは
として予測します。タスクの場合、LLM が生成できる合理的な最初のステップはサケを取り除くことですが、計画の実行を担当するエージェントにはそのようなアクション プリミティブがない可能性があります。
言語モデルがエージェントのアクション プリミティブを理解できるようにするには、プロンプトのインポート ステートメントを介してアクション プリミティブをインポートします。これにより、出力が現在の環境で利用可能な関数に制限されます。
エージェントの動作空間を変更するには、インポート関数リストを更新するだけです。
変数オブジェクトは、環境内で使用可能なすべてのオブジェクトを文字列のリストとして提供します。
#プロンプトには、サンプルとして完全に実行可能なプログラム プランも多数含まれています。各サンプル タスクでは、特定の環境で利用可能なアクションと目標を使用して特定のタスクを完了する方法を示します。 throw_away_lime
3、タスクプランの生成と実行
指定されたタスク その後、プランは ProgPrompt プロンプトに基づいた言語モデルによって完全に推論され、生成されたプランは仮想エージェントまたは物理ロボット システム上で実行できます。環境に応じて各アクション コマンドを実行するにはインタプリタが必要です。
実行中、アサーション チェックが閉ループ方式で実行され、現在の環境状態に基づいてフィードバックが提供されます。
実験部分では、研究者は Virtual Home (VH) シミュレーション プラットフォーム で方法を評価しました。
VH のステータスには、電子レンジの中のサケ (in)、または近く (agent_close_to) など、一連のオブジェクトと対応する属性が含まれます。
アクション スペースには、つかむ、置く、戻す、歩く、見つける、開く、閉じる、閉じるなどの操作が含まれます。
最後に、3 つの VH 環境が実験され、各環境には 115 の異なるオブジェクトが含まれていました。研究者は、高度な抽象化とコマンドを備えた、70 の家事タスクを含むデータセットを作成しました。それはすべて「」に関するものです。マイクロ波サーモン」を作成し、そのためのグラウンドトゥルースのアクション シーケンスを作成しました。
生成されたプログラムを仮想ファミリ上で評価した後、評価指標には成功率 (SR)、目標条件付き再現率 (GCR)、実行可能性 (Exec) が含まれます。 ProgPrompt がベースラインや LangPrompt よりも大幅に優れていることがわかります。この表には、各機能がどのようにパフォーマンスを向上させるかも示されています。
研究者らは、平行爪を持つフランカ・エミカ・パンダ・ロボットを使用して、現実世界でも実験を実施しました。ピックアンドプレイス戦略が得られるということです。
この戦略は、ターゲット オブジェクトとターゲット コンテナの 2 つの点群を入力として受け取り、ピック アンド プレイス操作を実行してコンテナ上またはコンテナ内にオブジェクトを配置します。
システム実装では、オープンボキャブラリーオブジェクト検出モデル ViLD を導入して、シーン内のオブジェクトを識別してセグメント化し、プロンプト内で使用可能なオブジェクトのリストを作成します。
仮想環境とは異なり、ここでのオブジェクト リストは各計画関数のローカル変数であるため、新しいオブジェクトに柔軟に適応できます。
言語モデルによって出力されたプランには、grab と putin の形式の関数呼び出しが含まれています。
現実世界の不確実性のため、アサーション ベースの閉ループ オプション は実験設定では実装されませんでした。
分類タスクでは、ロボットがバナナとイチゴを果物として識別し、それらを配置するための計画ステップを生成できたことがわかります。プレートを中に入れ、ボトルを箱に入れます。
以上が冷蔵庫にゾウを設置するには何ステップかかりますか? NVIDIA が ProgPrompt をリリース、言語モデルでロボットの計画を立てることが可能にの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









産業オートメーション技術の分野では、人工知能 (AI) と Nvidia という無視できない 2 つの最近のホットスポットがあります。元のコンテンツの意味を変更したり、コンテンツを微調整したり、コンテンツを書き換えたり、続行しないでください。「それだけでなく、Nvidia はオリジナルのグラフィックス プロセッシング ユニット (GPU) に限定されていないため、この 2 つは密接に関連しています。」このテクノロジーはデジタル ツインの分野にまで広がり、新たな AI テクノロジーと密接に関係しています。「最近、NVIDIA は、Aveva、Rockwell Automation、Siemens などの大手産業オートメーション企業を含む多くの産業企業と提携に至りました。シュナイダーエレクトリック、Teradyne Robotics とその MiR および Universal Robots 企業も含まれます。最近、Nvidiahascoll

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

Machine Power Report 編集者: Wu Xin 国内版の人型ロボット + 大型模型チームは、衣服を折りたたむなどの複雑で柔軟な素材の操作タスクを初めて完了しました。 OpenAIのマルチモーダル大規模モデルを統合したFigure01の公開により、国内同業者の関連動向が注目を集めている。つい昨日、中国の「ヒューマノイドロボットのナンバーワン株」であるUBTECHは、Baidu Wenxinの大型モデルと深く統合されたヒューマノイドロボットWalkerSの最初のデモを公開し、いくつかの興味深い新機能を示した。 Baidu Wenxin の大規模モデル機能の恩恵を受けた WalkerS は次のようになります。 Figure01 と同様に、WalkerS は動き回るのではなく、机の後ろに立って一連のタスクを完了します。人間の命令に従って服をたたむことができる

6月2日の当サイトのニュースによると、現在開催中のHuang Renxun 2024 Taipei Computexの基調講演で、Huang Renxun氏は、生成人工知能がソフトウェアスタック全体の再構築を促進すると紹介し、NIM(Nvidia Inference Microservices)のクラウドネイティブマイクロサービスをデモしました。 。 Nvidia は、「AI ファクトリー」が新たな産業革命を引き起こすと信じています。Microsoft が開拓したソフトウェア業界を例に挙げると、Huang Renxun 氏は、生成人工知能がそのフルスタックの再構築を促進すると信じています。あらゆる規模の企業による AI サービスの導入を促進するために、NVIDIA は今年 3 月に NIM (Nvidia Inference Microservices) クラウドネイティブ マイクロサービスを開始しました。 NIM+ は、市場投入までの時間を短縮するために最適化されたクラウドネイティブのマイクロサービスのスイートです

最近、レイヤー1ブロックチェーンVanarChainは、その高い成長率とAI大手NVIDIAとの連携により市場の注目を集めています。 VanarChain の人気の背景には、複数のブランド変革を経たことに加え、メインゲーム、メタバース、AI などの人気コンセプトもプロジェクトに多くの人気と話題をもたらしたことです。変革前の Vanar (旧 TerraVirtua) は、有料サブスクリプションをサポートし、仮想現実 (VR) および拡張現実 (AR) コンテンツを提供し、暗号通貨による支払いを受け入れるプラットフォームとして 2018 年に設立されました。このプラットフォームは共同創設者の Gary Bracey と Jawad Ashraf によって作成されました。Gary Bracey はビデオ ゲームの制作と開発に携わった豊富な経験を持っています。

以下の 10 種類の人型ロボットが私たちの未来を形作ります。 1. ASIMO: ホンダが開発した ASIMO は、最もよく知られている人型ロボットの 1 つです。身長 4 フィート、体重 119 ポンドの ASIMO には、高度なセンサーと人工知能機能が装備されており、複雑な環境をナビゲートし、人間と対話することができます。 ASIMO は多用途性を備えているため、障害を持つ人々の支援からイベントでのプレゼンテーションまで、さまざまなタスクに適しています。 2. Pepper: ソフトバンクロボティクスによって作成された Pepper は、人間の社会的パートナーになることを目指しています。表情豊かな顔と感情を認識する能力を備えた Pepper は、会話に参加したり、小売現場で手助けしたり、教育サポートを提供したりすることもできます。コショウ

掃除ロボットやモップ拭きロボットは、近年消費者の間で最も人気のあるスマート家電製品の 1 つです。操作の利便性、あるいは操作の必要がないことで、怠け者は手を解放し、消費者は日常の家事から「解放」され、好きなことにもっと時間を費やすことができるようになり、生活の質が向上します。この流行に乗って、市場に出回っているほぼすべての家電ブランドが独自の掃除ロボットや拭き掃除ロボットを製造しており、掃除ロボット市場全体が非常に活発になっています。しかし、市場の急速な拡大は必然的に隠れた危険をもたらします。多くのメーカーがより多くの市場シェアを急速に占有するために機械の海戦術を使用し、その結果、アップグレードポイントのない多くの新製品が生まれるとも言われています。まさに「マトリョーシカ」モデルです。ただし、すべての掃除ロボットやモップロボットがそうであるわけではありません。

4月17日の当サイトのニュースによると、TrendForceは最近、Nvidiaの新しいBlackwellプラットフォーム製品に対する需要は強気で、2024年にはTSMCのCoWoSパッケージング総生産能力が150%以上増加すると予想されるレポートを発表した。 NVIDIA Blackwell の新しいプラットフォーム製品には、B シリーズ GPU と、NVIDIA 独自の GraceArm CPU を統合する GB200 アクセラレータ カードが含まれます。 TrendForce は、サプライチェーンが現在 GB200 について非常に楽観的であることを確認しており、2025 年の出荷台数は 100 万台を超え、Nvidia のハイエンド GPU の 40 ~ 50% を占めると予想されています。 Nvidiaは今年下半期にGB200やB100などの製品を提供する予定だが、上流のウェーハパッケージングではさらに複雑な製品を採用する必要がある。
