李飛飛が着目した「身体化された知性」はどこに到達したのか?
2009 年、当時プリンストン大学に勤務していたコンピューター科学者、リー フェイフェイは、人工知能の歴史を変えるデータ セット、ImageNet の構築を主導しました。これには、画像内のオブジェクトを認識するための複雑な機械学習モデルをトレーニングするために使用できるラベル付き画像が数百万枚含まれています。
2015 年、機械の認識能力は人間の認識能力を超えました。リー・フェイフェイさんはすぐに、彼女が別の「北極星」と呼ぶものを見つけるという新たな目標に目を向けた(ここでの「北極星」とは、研究者が解決に焦点を当てている重要な科学的問題を指しており、研究者の熱意を刺激し、画期的な進歩をもたらす可能性がある)。
彼女は、多くの陸上動物種が最初に出現したカンブリア紀の生命爆発までの 5 億 3,000 万年前を振り返ることでインスピレーションを得ました。ある有力な理論は、新種の爆発的な原因の一部は、生物が初めて周囲の世界を見ることを可能にした目の出現によって引き起こされたことを示唆しています。リー・フェイフェイさんは、動物の視覚は単独で発生するものではなく、「急速に変化する環境の中で移動し、ナビゲートし、生き残り、操作し、変化する必要がある全体に深く組み込まれている」と信じている、と彼女は述べた。
現在、Li Feifei 氏の研究は AI エージェントに焦点を当てており、AI エージェントはデータを受信できるだけでなく、一連の静止画像を移動することもできます。 3 次元の仮想世界のシミュレートされた環境で、周囲の環境と対話します。
これが、「身体化型 AI」と呼ばれる新しい分野の大まかな目標です。これは、ロボットが現実世界での身体化された AI エージェントおよび強化学習と物理的に同等であると見なすことができるという点で、ロボット工学と重なっています。 リー・フェイフェイらは、身体化された AI が、画像認識などの機械学習の単純な能力から、フライパンを作るなど複数のステップを経て人間のような複雑なタスクを実行する方法を学習するまで、私たちに大きな変革をもたらす可能性があると考えています。エッグロール。
今日、身体化された AI の仕事には、自身の環境を検出して変更できるあらゆるエージェントが含まれます。ロボット工学では、AI エージェントは常にロボットの本体の中に住んでいますが、実際のシミュレーションのエージェントは仮想の本体を持っているか、移動するカメラの位置を通じて世界を認識し、周囲の環境と対話する場合があります。 「身体化の意味は身体そのものではなく、環境と相互作用し、環境の中で物事を行う際の全体的なニーズと機能です」とリー・フェイフェイ氏は説明した。
この双方向性により、エージェントは世界を理解するための新しい、そして多くの場合より優れた方法を得ることができます。これは、以前は 2 つのオブジェクト間の可能な関係をただ観察していましたが、今ではこの関係を自分で実験して実現できるという事実に相当します。この新たな理解により、アイデアが実践され、より大きな知恵が生まれます。新しい一連の仮想世界が稼働するにつれて、身体化された AI エージェントはこの可能性に気づき始め、新しい環境で大きな進歩を遂げています。
「現時点では、世界との対話によって学習しない知性の存在を示す証拠は何もありません」と、ドイツのオスネブリュック大学の身体化型 AI 研究者であるヴィヴィアン・クレイ氏は述べています。
完璧なシミュレーションに向けて
研究者たちは長い間、AI エージェントが探索できる現実の仮想世界を作成したいと考えてきましたが、それらが作成されてからまだ 5 年ほどしか経っていません。この機能は、映画業界やビデオ ゲーム業界のグラフィックスの向上によってもたらされています。 2017 年、AI エージェントは、自宅にいるかのように室内空間、つまり仮想ではあるが文字通りの「家」を描写できるようになりました。アレン人工知能研究所のコンピューター科学者は、エージェントが自然なキッチン、バスルーム、リビング ルーム、寝室を歩き回れるようにする AI2-Thor と呼ばれるシミュレーターを構築しました。エージェントは、移動に応じて変化する 3 次元ビューを学習でき、詳しく見ようと決めたときにシミュレーターが新しい角度を表示します。
この新しい世界は、エージェントに新しい次元「時間」の変化について考える機会も与えます。サイモン・フレイザー大学のコンピュータグラフィックス研究者マノリス・サヴァ氏は、「これは大きな変化だ。具体化された AI 設定では、制御できる時間的に一貫した情報の流れが得られる。」と述べた。まったく新しいタスクを完了できるようにエージェントをトレーニングするのに十分な性能を備えています。彼らはオブジェクトを認識するだけでなく、それを操作したり、拾い上げたり、その周囲を移動したりすることができます。これらの一見小さなステップは、エージェントがその環境を理解するために必要です。 2020 年、仮想エージェントは視覚を超えて仮想物体が発する音を聞く能力を備えており、物体とそれが世界でどのように動作するかを理解する上で新たな視点を提供します。
ただし、シミュレーターにも独自の制限があります。スタンフォード大学のコンピューター科学者ダニエル・ヤミンズ氏は、「最高のシミュレーターであっても、現実世界よりもはるかに現実的ではありません」と述べています。 Yamins は、MIT および IBM の同僚と共同開発した ThreeDWorld を開発し、このプロジェクトは、液体の挙動や、あるオブジェクトがある領域では硬く、別の領域では硬くなるなど、仮想世界における現実の物理のシミュレーションに重点を置いています。 。 これは、AI が新しい方法で学習する必要がある非常に困難なタスクです。 これまでのところ、身体化された AI の進歩を測定する簡単な方法は、身体化されたエージェントのパフォーマンスを、より単純な静的画像タスクでトレーニングされたエージェントのパフォーマンスと比較することです。研究者らは、これらの比較は完璧ではないと指摘しているが、初期の結果は、身体化された AI が以前の AI とは異なる方法で学習し、場合によってはより優れた学習を行うことを示唆していると述べている。 最近の論文 (「Interactron: Embodied Adaptive Object Detection」) では、研究者らは、具体化された AI エージェントが特定のオブジェクトの検出においてより正確であり、従来の方法よりも 12% 近く優れていることを発見しました。研究共著者でアレン人工知能研究所のコンピュータ科学者ルーズベ・モッタギ氏は、「物体検出の分野がこのレベルの改善を達成するまでに3年以上かかった。そして、私たちは対話するだけで非常に多くのことを達成してきた」と語った。 他の論文では、身体化された AI の形をとり、仮想空間を探索したり、歩き回ってオブジェクトの複数のビューを収集したりすると、アルゴリズムが進歩することが示されています。 研究者らはまた、身体化されたアルゴリズムと従来のアルゴリズムでは学習方法がまったく異なることも発見しました。これを実証するために、すべての身体化されたアルゴリズムと多くの身体化されていないアルゴリズムの学習機能の背後にある基本的な要素であるニューラル ネットワークを考えてみましょう。ニューラル ネットワークは、接続された人工ニューロン ノードの多くの層で構成されており、人間の脳のネットワークを大まかにモデル化しています。 2つの別々の論文で、研究者らは、身体化されたエージェントのニューラルネットワークでは、視覚情報に反応するニューロンの数が少ないこと、つまり個々のニューロンが反応する方法がより選択的であることを発見しました。実体を持たないネットワークは効率がはるかに低く、ほとんどの時間活動を維持するにはより多くのニューロンが必要です。ある研究チーム(ニューヨーク大学の次期教授グレース・リンゼーが率いる)は、身体化されたニューラルネットワークと身体化されていないニューラルネットワークを、生きた脳(マウスの視覚野)のニューロン活動と比較し、身体化されたニューラルネットワークが生きているものに最も近いことを発見しました。体。 リンゼイは、これは必ずしも具現化されたバージョンの方が優れているという意味ではなく、単に異なるだけであるとすぐに指摘しました。物体検出の論文とは異なり、Lindsay らの研究では、同じニューラル ネットワークの潜在的な違いを比較し、エージェントがまったく異なるタスクを完了できるようにしているため、目的を達成するには異なる動作をするニューラル ネットワークが必要になる可能性があります。 身体化されたニューラル ネットワークと身体化されていないニューラル ネットワークを比較することは改善を測定する 1 つの方法ですが、研究者が本当にやりたいのは、既存のタスクに対する身体化されたエージェントのパフォーマンスを向上させることではなく、彼らの本当の目標は、より複雑なことを学習することです。より人間らしいタスク。これは研究者にとって最も興味深いことであり、特にナビゲーションタスクにおいて目覚ましい進歩が見られます。これらのタスクでは、エージェントは目的地の長期的な目標を覚えておきながら、道に迷ったり物にぶつかったりすることなく目的地に到着するための計画を立てる必要があります。 Meta AI の研究ディレクターであり、ジョージア工科大学のコンピューター科学者である Dhruv Batra が率いるチームは、わずか数年で、「ポイント-ゴール ナビゲーション」と呼ばれる特定のナビゲーション タスクに取り組みました。多くの進歩が見られました。このタスクでは、エージェントはまったく新しい環境に置かれ、地図なしで特定の座標 (「北 5 メートル、東 10 メートルの地点に行く」など) に行く必要があります。 Batra 氏によると、「AI ハビタット」と呼ばれるメタ仮想世界でエージェントを訓練し、GPS とコンパスを与えたところ、標準データセットで 99.9% 以上の精度を得ることができたことがわかりました。最近では、コンパスや GPS を使用しない、より困難で現実的なシナリオに結果を拡張することに成功しました。その結果、エージェントは移動中に見たピクセル ストリームのみを使用して位置を推定する精度が 94% に達しました。 Meta AI Dhruv Batra チームが作成した仮想世界「AI Habitat」。彼らは、身体化された AI が実時間でわずか 20 分で 20 年間のシミュレーション経験を達成できるようになるまで、シミュレーションの速度を向上させたいと考えています。 Mottaghi 氏は、「これは大きな改善ですが、ナビゲーションの問題が完全に解決されたことを意味するものではありません。他の多くの種類のナビゲーション タスクでは、次のようなより複雑な言語命令の使用が必要になるためです。」 「キッチンを通り過ぎる」「寝室のベッドサイドテーブルにあるグラスを取りに行きます」とのことですが、その精度はまだ 30% ~ 40% 程度にすぎません。 しかし、エージェントは環境内を移動する際に何も操作する必要がないため、ナビゲーションは依然として、身体化された AI の最も単純なタスクの 1 つです。これまでのところ、身体化された AI エージェントは、オブジェクト関連のタスクを習得するには程遠いです。課題の 1 つは、エージェントが新しいオブジェクトと対話するときに多くのエラーが発生し、そのエラーが積み重なる可能性があることです。現在、ほとんどの研究者は、わずか数ステップのタスクを選択することでこの問題に対処していますが、パンを焼いたり皿を洗ったりするなど、人間に似た活動のほとんどは、複数のオブジェクトに対する長い一連のアクションを必要とします。この目標を達成するには、AI エージェントがさらに進化する必要があります。 この点に関しては、フェイフェイ・リー氏が再び最前線に立つ可能性があり、彼女のチームはシミュレートされたデータセット「BEHAVIOR」を開発し、彼女の ImageNet プロジェクトが物体認識に行ったのと同じように、身体化された AI にも役立つことを期待しています。貢献。 このデータ セットには、エージェントが完了する必要がある 100 を超える人間のアクティビティが含まれており、テストは任意の仮想環境で完了できます。 Fei-Fei Li 氏のチームの新しいデータセットを使用すると、仮想 AI エージェントのタスクを実行するエージェントと、同じタスクを実行する人間の実際のビデオを比較する指標を作成することで、コミュニティが仮想 AI エージェントの進捗状況をより適切に評価できるようになります。 エージェントがこれらの複雑なタスクを正常に完了すると、Li Feifei は、シミュレーションの目的は最終的な操作可能な空間、つまり現実世界に向けてトレーニングすることであると考えます。 「私の意見では、シミュレーションはロボット研究において最も重要で刺激的な分野の 1 つです。」と Li Feifei 氏は言いました。 ロボットは本質的には身体化された知性です。彼らは現実世界の何らかの肉体に生息しており、具現化された AI エージェントの最も極端な形態を表します。しかし、多くの研究者は、そのようなエージェントでも仮想世界でのトレーニングから恩恵を受けることができることを発見しました。 強化学習などのロボット工学の最先端のアルゴリズムでは、意味のあることを学習するために何百万回もの反復が必要になることが多いとモッタギ氏は述べています。したがって、実際のロボットを訓練して困難なタスクを実行するには何年もかかる可能性があります。 #ロボットは、現実世界の不確実な地形をナビゲートできます。新しい研究は、仮想環境でのトレーニングがロボットがこれらのスキルやその他のスキルを習得するのに役立つことを示しています。 しかし、最初に仮想世界でトレーニングすると、速度ははるかに速くなります。数千の異なる部屋で、何千ものエージェントを同時にトレーニングできます。さらに、仮想トレーニングはロボットと人間の両方にとってより安全です。 2018 年、OpenAI 研究者は、仮想世界でエージェントが学習したスキルを現実世界に転送できることを実証したため、多くのロボット工学専門家がシミュレーターに注目し始めました。彼らは、これまでシミュレーションでしか見られなかった立方体を操作できるようにロボットハンドを訓練しました。最近の研究には、ドローンが空中での衝突を避ける方法を学習できるようにすること、2つの異なる大陸の都市環境に自動運転車を導入すること、4本足のロボット犬がスイスアルプスで1時間のハイキングを完走できるようにすることなども含まれています。人間と同じくらいの時間がかかります。) 将来的には、研究者は仮想現実ヘッドセットを通じて人間を仮想空間に送り込み、シミュレーションと現実世界の間のギャップを埋めることもできるかもしれません。 Nvidia のロボット研究シニア ディレクターでワシントン大学教授のディーター フォックス氏は、ロボット研究の重要な目標は、現実世界で人間に役立つロボットを構築することであると指摘しました。しかし、これを行うには、まず人間に触れ、人間との関わり方を学ばなければなりません。 仮想現実テクノロジーを使用して人間をこうした模擬環境に置き、プレゼンテーションを行ったりロボットと対話させたりすることは、非常に強力なアプローチになるだろうとフォックス氏は述べた。 シミュレーションであろうと現実世界であろうと、身体化された AI エージェントは、より人間らしくなり、より人間のタスクに近いタスクを完了することを学習しています。この分野は、新しい世界、新しいタスク、新しい学習アルゴリズムなど、あらゆる面で進歩しています。 「ディープラーニング、ロボット学習、視覚、さらには言語の融合が見られます。今、私は、この身体化された AI の『ムーンショット』または『北極星』を通じて、私たちは学習を行うことができると考えています」と述べました。インテリジェンスの基本テクノロジーは、真に大きな進歩をもたらす可能性があります。」 Li Feifei の記事では、コンピューター ビジョンの「ポラリス」問題について説明しています。リンク: https://www.amacad.org/publication/searching-computer-vision-north-starsニューラル ネットワークとの比較
ロボット研究の新境地
以上が李飛飛が着目した「身体化された知性」はどこに到達したのか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









これほど強力なAIの模倣能力では、それを防ぐことは本当に不可能です。 AIの発展は今ここまで進んでいるのか?前足で顔の特徴を浮き上がらせ、後ろ足で全く同じ表情を再現し、見つめたり、眉を上げたり、口をとがらせたり、どんなに大袈裟な表情でも完璧に真似しています。難易度を上げて、眉毛を高く上げ、目を大きく開き、口の形も歪んでいるなど、バーチャルキャラクターアバターで表情を完璧に再現できます。左側のパラメータを調整すると、右側の仮想アバターもそれに合わせて動きが変化し、口や目の部分がアップになります。同じです(右端)。この研究は、GaussianAvatars を提案するミュンヘン工科大学などの機関によるものです。

物体検出はコンピュータ ビジョンの分野で重要なタスクであり、画像やビデオ内の物体を識別し、その位置を特定するために使用されます。このタスクは通常、精度と堅牢性の点で異なる 2 つのカテゴリのアルゴリズム (1 段階と 2 段階) に分類されます。 1 段階ターゲット検出アルゴリズム 1 段階ターゲット検出アルゴリズムは、ターゲットの検出を分類問題に変換するアルゴリズムであり、高速で、わずか 1 ステップで検出を完了できるという利点があります。ただし、単純化しすぎたため、精度は通常、2 段階の物体検出アルゴリズムほど良くありません。一般的な 1 段階ターゲット検出アルゴリズムには、YOLO、SSD、FasterR-CNN などがあります。これらのアルゴリズムは通常、画像全体を入力として受け取り、分類器を実行してターゲット オブジェクトを識別します。従来の 2 段階のターゲット検出アルゴリズムとは異なり、事前にエリアを定義する必要はなく、直接予測します。

古い写真の修復は、人工知能テクノロジーを使用して古い写真を修復、強化、改善する方法です。このテクノロジーは、コンピューター ビジョンと機械学習アルゴリズムを使用して、古い写真の損傷や欠陥を自動的に特定して修復し、写真をより鮮明に、より自然に、より現実的に見せることができます。古い写真の復元の技術原則には、主に次の側面が含まれます: 1. 画像のノイズ除去と強化 古い写真を復元する場合、最初にノイズ除去と強化を行う必要があります。平均値フィルタリング、ガウス フィルタリング、バイラテラル フィルタリングなどの画像処理アルゴリズムとフィルタを使用して、ノイズやカラー スポットの問題を解決し、写真の品質を向上させることができます。 2. 画像の修復と修復 古い写真には、傷、ひび割れ、色あせなどの欠陥や損傷がある場合があります。これらの問題は、画像の復元および修復アルゴリズムによって解決できます。

超解像度画像再構成は、畳み込みニューラル ネットワーク (CNN) や敵対的生成ネットワーク (GAN) などの深層学習技術を使用して、低解像度画像から高解像度画像を生成するプロセスです。この方法の目的は、低解像度の画像を高解像度の画像に変換することで、画像の品質と詳細を向上させることです。この技術は、医療画像、監視カメラ、衛星画像など、さまざまな分野で幅広く応用されています。超解像度画像再構成により、より鮮明で詳細な画像を取得できるため、画像内のターゲットや特徴をより正確に分析および識別することができます。再構成方法 超解像度画像の再構成方法は、一般に、補間ベースの方法と深層学習ベースの方法の 2 つのカテゴリに分類できます。 1) 補間による手法 補間による超解像画像再構成

スケール不変特徴変換 (SIFT) アルゴリズムは、画像処理およびコンピューター ビジョンの分野で使用される特徴抽出アルゴリズムです。このアルゴリズムは、コンピュータ ビジョン システムにおけるオブジェクト認識とマッチングのパフォーマンスを向上させるために 1999 年に提案されました。 SIFT アルゴリズムは堅牢かつ正確であり、画像認識、3 次元再構成、ターゲット検出、ビデオ追跡などの分野で広く使用されています。複数のスケール空間内のキーポイントを検出し、キーポイントの周囲の局所特徴記述子を抽出することにより、スケール不変性を実現します。 SIFT アルゴリズムの主なステップには、スケール空間の構築、キー ポイントの検出、キー ポイントの位置決め、方向の割り当て、および特徴記述子の生成が含まれます。これらのステップを通じて、SIFT アルゴリズムは堅牢でユニークな特徴を抽出することができ、それによって効率的な画像処理を実現します。

この記事は自動運転ハート公式アカウントより許可を得て転載しておりますので、転載については出典元までご連絡ください。原題: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 論文リンク: https://arxiv.org/pdf/2309.16534.pdf 著者の所属: Waymo 会議: ICCV2023 論文のアイデア: 自動運転車の安全計画のために、将来の動作を確実に予測するロードエージェントの数は非常に重要です。この研究では、連続的な軌跡を離散的なモーション トークンのシーケンスとして表現し、マルチエージェントのモーション予測を言語モデリング タスクとして扱います。私たちが提案するモデル MotionLM には次の利点があります。

オブジェクト追跡はコンピュータ ビジョンにおける重要なタスクであり、交通監視、ロボット工学、医療画像処理、自動車両追跡などの分野で広く使用されています。深層学習手法を使用して、ターゲット オブジェクトの初期位置を決定した後、ビデオ内の連続する各フレーム内のターゲット オブジェクトの位置を予測または推定します。オブジェクト追跡は実生活において幅広い用途があり、コンピュータ ビジョンの分野でも非常に重要です。オブジェクト追跡には通常、オブジェクト検出のプロセスが含まれます。以下に、オブジェクト追跡手順の概要を示します。 1. オブジェクト検出。アルゴリズムは、オブジェクトの周囲に境界ボックスを作成することによってオブジェクトを分類および検出します。 2. 各オブジェクトに一意の識別 (ID) を割り当てます。 3. 検出されたオブジェクトの動きをフレーム単位で追跡し、関連情報を保存します。ターゲットの種類 追跡ターゲット

「ComputerWorld」誌はかつて、IBM がエンジニアが必要な数式を書いて提出できる新しい言語 FORTRAN を開発したため、「プログラミングは 1960 年までに消滅するだろう」という記事を書きました。コンピューターを実行すればプログラミングは終了します。画像 数年後、私たちは新しいことわざを聞きました: ビジネスマンは誰でもビジネス用語を使って問題を説明し、コンピュータに何をすべきかを伝えることができます。COBOL と呼ばれるこのプログラミング言語を使用することで、企業はもはやプログラマーを必要としません。その後、IBM は従業員がフォームに記入してレポートを作成できるようにする RPG と呼ばれる新しいプログラミング言語を開発したと言われており、会社のプログラミング ニーズのほとんどはこれで完了できます。
