私がまだ ChatGPT で自慢したりチャットしたりしている間に、誰かがすでにそれを使ってロボットを制御していました。
は OpenAI のスポンサーである父親に他ならず、つい最近 ChatGPT Microsoft で「検索エンジンを再発明」しました。
#これまでのところ、開発者がロボットをトレーニングするための技術的な敷居は高いだけでなく、長い道のりが待っています: エンジニアは働く必要がある プロセスループでは、ロボットの動作を修正するために新しいコードや仕様が常に手書きで書かれており、さらに、異なるロボットを制御するには異なるプログラミング言語や環境が必要になる場合があります。 ChatGPT を利用すると、エンジニアはコードを手書きする必要さえなくなり、人間の言葉を直接使用できるようになります。やりたいことを説明すると、AI が自動的に機械語に翻訳します。
これは、一方では専門家とロボットの間の対話の効率が飛躍的に向上した一方で、技術的な限界が高まったことを意味します。も大幅に削減され、素人でも簡単にデバッグに参加したり、より多くの使用方法を作成したりすることもできます。簡単な例: ドローンに棚を自動的に検査させます。
まず、オペレーターは自然言語で ChatGPT にリクエストを行うだけで、AI がそれを自動的にコードに変換し、ドローンの動作を指示します。
(ドローンの飛行経路を指定することもできます。)テスラの元 AI ディレクター、アンドレイ・カルパシー氏がからかったのも不思議ではありません。そのうちの : 最近人気のあるプログラミング言語は英語です。
1 つの AI が複数のロボットを命令します
たとえば、オペレーターがAIに「のどが渇いたので、何か飲み物を探すのを手伝ってください。」と言った場合、
このとき、AIはすぐに飲み物を探すことはできません。代わりに、彼は賢明に次のように尋ねます:
どんな飲み物が飲みたいですか?ここにはココナッツウォーターやコーラなどの飲み物がいくつかあります。もちろん、オペレーターはベジタリアンではありませんが、AI にどちらを選択するかを直接指示したわけではありませんが、次のように言いました。 「ジムから帰ってきたところです。戻ってきて、より健康的な飲み物を見つけるのを手伝ってください。」
そして、さらに魔法のような操作が始まりました:
AI は最初に、彼が飲み物を飲みたいと思っていることを推測しました。コード
(コメント付きでも):
記述後、次のように指示します。ココナッツ ウォーターを見つけるためのドローン:
ドローンに加えて、ChatGPT はカメラやロボット アームなどの他の小型ロボットも簡単に制御できます。
たとえば、カメラに部屋の中で昼食を温めることができるものを見つけさせます。
Microsoft ロゴを表示するためのコマンド ロボット アームもあります。
これを見て一部のネチズンは啓発され、次のように尋ねました。 ##彼らは全能のスカイネットを構築しているのでしょうか?
AI は核爆弾を発射するための命令を書くこともできるかもしれないと冗談を言う人もいます:
しかし、そうは言っても、実際にはネット民の意見とは程遠いのです。
前回の記事からもわかるように、この柔軟な AI は人とのコミュニケーションをスムーズに行うだけでなく、機械とのコミュニケーションも高速に行うことができます。
これは主に、Microsoft チームによって特別に開発された一連の API および 高度な関数ライブラリ によるものです。
ChatGPT の背後にある大規模言語モデル (LLM) に固定タイプのコードを生成させませんでした。は多様なドメインであり、さまざまなシナリオで多くの微調整が必要となる場合があります。
新しい操作フレームワークの下では、さまざまなロボットが独自の対応する特定の機能ライブラリを持っています。
#AI はさまざまなオブジェクトやさまざまなタスクに適応できます。
一方で、これらの関数ライブラリをロボット制御システムに接続して、基本的な動作を実行するコードや関数モジュールだけでなく、基礎となるハードウェアを管理することもできます。 一方、ChatGPT が関数ライブラリの規則に従うためには、事前定義された関数の名前付けが重要です。明確な関数名により、API 間に良好な機能接続が確立され、最終的に高品質の回答が生成されます。 要件の 1 つは、すべての API 名が全体的な機能動作を説明している必要があるということです。たとえば、detect_object(object_name) 関数は OpenCV 関数またはコンピューター ビジョン モデルに内部でリンクできます。 ライブラリと API を設計した後、Microsoft は ChatGPT 用のテキスト プロンプト(プロンプト) を作成し、ターゲット タスクを説明し、関数ライブラリ内のどの関数が利用可能であるかを明確に示しました。 can ChatGPT がコードの生成に使用するプログラミング言語を指定します。
AI が生成したコンテンツの効果は、人間によるプロンプトの品質と正の相関があることは言及する価値があります。この目的のために、Microsoft は、誰もがさまざまな種類のロボットの Prompt 戦略を共有できる、共同オープン ソース プラットフォーム PromptCraft も開発しました。 この時点で、舞台裏の展開は基本的に完了し、ユーザーは「人間の言葉を話す」ことでロボットを間接的に制御できるようになります。 」。 AI が生成したコードにバグがあるかどうかを確認したい場合は、いつでもチャット ボックスで直接確認することも、シミュレーターを通じてテストすることもできます。人間は自然言語を使用してコードをガイドすることができます。 AIが修正してくれる。 さらに、ChatGPT で生成されたコードをロボットにデプロイする前に、ユーザーがソリューションに満足するまで待つことができます。 最後に、あなただったら、ChatGPT を使ってロボットを制御して何をしたいですか? 論文アドレス:https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf参考リンク:
[1]https://arstechnica.com/information-technology/2023/02/robots-let-chatgpt-touch-the-real-world- thanks-to-microsoft/[ 2 ]https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/
[3] https ://github.com/microsoft/PromptCraft-Robotics#promptcraft-robotics以上がChatGPTはすでにエンジニアがコードを書く必要なくロボットを制御できるため、一部のネチズンはマイクロソフトがスカイネットを開発しているのではないかと疑問を呈した。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。