Google の DeepMind は、さまざまなロボットを制御して一連のタスクを実行できる RoboCat AI モデルを開発しました。
Google の DeepMind は 6 月 26 日、同社がさまざまなロボット アームを制御して一連のタスクを実行できる RoboCat と呼ばれる人工知能モデルを開発したと発表しました。これだけでは特に目新しいことではないが、DeepMind によれば、このモデルはさまざまなタスクを解決して適応することができ、現実世界のさまざまなロボットを使用してそれを行うことができる初めてのモデルであるという。
RoboCat は、テキスト、画像、イベントを分析および処理できる別の DeepMind AI モデルである Gato からインスピレーションを受けました。 RoboCat のトレーニング データには、仮想環境の他のロボット制御モデル、人間が制御するロボット、および RoboCat 自体の以前のバージョンから派生した、シミュレートされた実際のロボットの画像と動作データが含まれます。
DeepMind の研究科学者であり、RoboCat チームの共同研究者の 1 人である Alex Lee 氏は TechCrunch との電子メールインタビューで次のように述べています。「単一の大きなモデルが複数の実世界のモデルで使用できることを示しました。このロボットは、さまざまなタスクを物理的に解決し、新しいタスクやエンティティにすぐに適応できます。」
IT House は、RoboCat を訓練するために、DeepMind の研究者は最初に人間が制御するロボット アームを使用し、それぞれのロボット アームを 100 ~ 1000 回デモンストレーションしたと述べました。タスクまたはロボットは、シミュレートされた環境または実際の環境で収集されました。たとえば、ロボット アームに歯車を拾わせたり、積み木を積んだりしてみましょう。次に、RoboCat を微調整し、各タスクに特化した「派生」モデルを作成し、平均 10,000 回練習させました。派生モデルとデモンストレーション データによって生成されたデータを活用することで、研究者は RoboCat のトレーニング データ セットを拡張し、新しいバージョンの RoboCat をトレーニングし続けています。
RoboCat の最終バージョンは、シミュレーションと現実世界の両方で、合計 253 のタスクでトレーニングされ、これらのタスクの 141 のバリエーションでテストされました。 DeepMindは、RoboCatが数時間にわたって収集された人間が制御する1,000個のデモンストレーションを観察した後、さまざまなタイプのロボットアームの操作を学習したと主張している。 RoboCat は 2 本指のアームを備えた 4 台のロボットで訓練されていますが、モデルは 3 本指のグリッパーと 2 倍の制御可能な入力を備えたより複雑なアームに適応することができました。
これにもかかわらず、DeepMind のテストでは、さまざまなタスクにおける RoboCat の成功率は、最低 13% から最高 99% まで大きく異なりました。これはトレーニング データ内の 1000 件のデモンストレーションを使用したもので、デモンストレーションの数が半分になると、それに応じて成功率も低下します。ただし、場合によっては、RoboCat はわずか 100 回のデモンストレーションを観察するだけで新しいタスクを学習できると DeepMind は主張しています。
Alex Lee は、RoboCat によって新しいタスクの解決が容易になる可能性があると考えています。 「新しいタスクのデモンストレーションを一定数行うと、RoboCat は新しいタスクに合わせて微調整し、より多くのデータを自己生成してさらに改善することができます」と彼は付け加えました。
研究チームは今後、RoboCatに新しいタスクを完了するよう教えるために必要なデモンストレーションの数を10回未満に減らすことを目指しています。
以上がGoogle の DeepMind は、さまざまなロボットを制御して一連のタスクを実行できる RoboCat AI モデルを開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









MetaFAIR はハーバード大学と協力して、大規模な機械学習の実行時に生成されるデータの偏りを最適化するための新しい研究フレームワークを提供しました。大規模な言語モデルのトレーニングには数か月かかることが多く、数百、さらには数千の GPU を使用することが知られています。 LLaMA270B モデルを例にとると、そのトレーニングには合計 1,720,320 GPU 時間が必要です。大規模なモデルのトレーニングには、これらのワークロードの規模と複雑さにより、特有のシステム上の課題が生じます。最近、多くの機関が、SOTA 生成 AI モデルをトレーニングする際のトレーニング プロセスの不安定性を報告しています。これらは通常、損失スパイクの形で現れます。たとえば、Google の PaLM モデルでは、トレーニング プロセス中に最大 20 回の損失スパイクが発生しました。数値的なバイアスがこのトレーニングの不正確さの根本原因です。

11月16日のニュースによると、業界の主要な科学研究機関、米国国立スーパーコンピューティングセンター、およびAI分野の多くの大手企業が最近、共同でトリリオンパラメータコンソーシアム(TPC)を設立したという。報告によると、このサイトは、TPC アライアンスが世界中の研究所、科学研究機関、学界、産業界の科学者で構成されており、科学的発見のための人工知能モデルを共同で推進することを目的としており、特別な報酬を支払っていることがわかりました。 TPC コンソーシアムは現在、現在および将来のエクサスケール アプリケーション向けに AI ライブラリを最適化するために、モデルのトレーニングに使用される科学データを整理および管理しながら、1 兆以上のパラメーターを持つメガモデルのスケーラブルなモデル アーキテクチャとトレーニング戦略の開発に取り組んでいます。 .レベルコンピューティングプラットフォーム

11 月 15 日のニュースによると、Microsoft は最近、Google DeepMind の AlphaZero に触発された「Everything of Thought」(XOT)と呼ばれる手法を発表しました。この手法は、コンパクトなニューラル ネットワークを使用して AI モデルの推論機能を強化します。 Microsoft は、ジョージア工科大学および華東師範大学と協力してこのアルゴリズムを開発しました。このアルゴリズムは、強化学習とモンテカルロ ツリー検索 (MCTS) 機能を統合し、複雑な意思決定環境における問題解決の有効性をさらに向上させます。このサイトからのメモ: Microsoft 研究チームは、XOT メソッドはなじみのない問題について言語モデルを拡張できると述べています。Gameof24、8-Puzzle および P

6月26日のニュースによると、Googleの子会社であるDeepMindは、同社がさまざまなロボットアームを制御して一連のタスクを実行できるRoboCatと呼ばれる人工知能モデルを開発したと発表した。これだけでは特に目新しいものではありませんが、DeepMind によれば、このモデルはさまざまなタスクを解決して適応することができ、現実世界のさまざまなロボットを使用してそれを行うことができる最初のモデルであると主張しています。 RoboCat は、テキスト、画像、イベントを分析および処理できる別の DeepMind AI モデルである Gato からインスピレーションを得ています。 RoboCat のトレーニング データには、仮想環境内の他のロボット制御モデル、人間が制御するロボットから得られる、シミュレートされたロボットと実際のロボットの画像と動作データが含まれます。

7月10日のニュースによると、Databricksは最近、ビッグデータ分析プラットフォームSparkで使用されるAIモデルSDKをリリースし、開発者がコードを書く際に英語で命令を与えることができ、コンパイラは英語の命令をPySparkまたはSQL言語に変換します開発者の効率を向上させるコード。 ▲画像出典 Databricks Webサイト Sparkは年間10億回以上ダウンロードされ、世界208の国と地域で利用されているオープンソースのビッグデータ分析ツールだという。 ▲画像出典 Databricks の Web サイト Databricks によると、Microsoft の AI コード アシスタント GitHubCopilot は強力ですが、敷居もかなり高く、Databricks の SDK は比較的汎用性が高く、使いやすいとのことです。

12 月 15 日のニュースによると、Google DeepMind は最近、「FunSearch」と呼ばれるモデル トレーニング手法を発表しました。これは、「上位レベルの問題」や「ボクシング」などの「数学とコンピュータ サイエンスの分野に関わる」一連の計算ができると主張しています。 「問題。複雑な問題。」書き換えが必要な内容は以下のとおりです: ▲出典:Google DeepMind(以下、DeepMind) FunSearchモデルのトレーニング手法は主にAIモデルの「Evaluator」システムを導入していると報告されており、AIモデルは一連の「創造的な問題解決手法」を出力し、「評価者」はモデルが出力した問題解決手法を評価する責任を負います。反復を繰り返すことで、より強力な数学的能力を備えた AI モデルをトレーニングできます。 GoogleのDeepM

6 月 14 日のニュースによると、マイクロソフトの研究者らは最近、主に生物医学研究に使用され、CT や X 線写真に基づいて患者の病理学的状態を推測できる LLaVA-Med モデルを実証しました。マイクロソフトの研究者が病院グループと協力し、マルチモーダル AI モデルをトレーニングするために生物医学画像テキストに対応する大規模なデータ セットを取得したと報告されています。このデータセットには、胸部 X 線、MRI、組織学、病理学、CT 画像などが含まれており、比較的包括的にカバーされています。 ▲画像ソース Microsoft Microsoft は、VisionTransformer と Vicuna 言語モデルに基づく GPT-4 を使用して、8 つの NVIDIA A100 GPU で LLaVA-Med をトレーニングします。これには、「各画像のすべての事前分析情報」が含まれています。

Microsoftは8月16日にAIサービス規約を発表し、同規約が9月30日に発効すると発表した。このアップデートの主な内容は生成AI、特に関連ユーザーの利用や責任ある開発実践に関連した内容であり、Microsoftは公式がBingでチャットするユーザーの会話記録を保持したり、これらのチャットデータが使用されたりすることはないと強調している。 Bing Enterprise Chat の AI モデルをトレーニングするために使用される 5 つの主要なポリシー ポイントは、基盤となるコンポーネントの暴露を防ぐためにユーザーが AI モデルをリバース エンジニアリングしようとすることを禁止すること、Web スクレイピングなどの方法によるデータ抽出を禁止することなど、複数の領域をカバーしています。明示的に許可されている; 重要な条項により、ユーザーが AI データを使用して他の AI サービスを作成または強化することが制限されます。以下は Microsoft によって追加された条項です。
