リー・フェイフェイの起業家精神のための「空間知性」の選択、完全なTED解釈ビデオが公開されました。
少し前に、有名な「AIゴッドマザー」リー・フェイフェイ氏がスタートアップ企業を設立し、シードラウンドの資金調達を完了しているとロイターが独占的に報じた。
このスタートアップの紹介で、情報提供者はバンクーバーでのリー・フェイフェイ氏の TED 講演を引用し、彼がこの TED 講演で空間インテリジェンスの概念を導入したことを示しました。
ちょうど今日、リー・フェイフェイはTEDバンクーバーでのスピーチ全文のビデオをXで公開しました。 彼女は、「洞察力になるためには、洞察力が理解力に変わり、理解力が行動に導かれる」と紹介しました。「
リー・フェイフェイ TED Talk リンク:
https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_question_the_real_world」 /transcript
「空間知能」の概念をさらに説明するために、彼は前足を伸ばしてグラスをテーブルの端に向かって押している猫の写真を見せました。同氏によれば、人間の脳はほんの一瞬で「このガラスの形状、三次元空間における位置、テーブルや猫、その他すべてのものとの関係」を評価し、何が起こるかを予測し、そうならないために行動を起こしてください。
「自然は空間知性を活用した観察と行動の好循環を生み出しました」と彼女は言い、スタンフォード大学の研究室はコンピューターに「三次元世界でどのように行動するか」を教えようとしていると付け加えた。 、大規模な言語モデルを使用して、ロボットアームが口頭の指示に基づいてドアを開けたりサンドイッチを作ったりするなどのタスクを実行できるようにします。
以下は 2024 TED でのリー・フェイフェイのスピーチの書き起こしです:
まずお見せしましょう、これは純粋で無限の暗闇に満ちた 5 億 4,000 万年前の世界です。この暗闇は光の欠如によるものではなく、見る目の欠如によるものです。太陽光は海面を貫通して地下 1,000 メートルに到達し、熱水噴出孔からの光は生命に満ちた海底を照らしますが、この太古の海には目は一つも存在せず、網膜も角膜も水晶体もありません。 。したがって、すべての光とすべての生き物は目に見えません。
三葉虫が出現するまでは、「見る」という概念自体が存在しなかった時代があり、彼らは光を感じる最初の生き物であり、新しい世界の始まりでした。彼らは初めて、自分たち以外にも広い世界があることに気づきます。
この視覚能力がカンブリア爆発を引き起こし、多数の動物種が化石記録に痕跡を残し始めた可能性があります。光を受動的に感知することから、世界を理解するために視覚を積極的に使用するようになった生物神経系は進化し始め、視覚は洞察力に変わり、その後行動を導き、最終的に知性を生み出しました。
今日、私たちは自然に与えられた視覚的知性にもはや満足せず、私たちと同じように、またはさらに賢く「見る」ことができる機械を作成することに熱心です。
9年前、私は人工知能の下位分野であるコンピュータービジョンの初期の進歩を紹介するためにこのステージに上がりました。当時、ニューラル ネットワーク アルゴリズム、グラフィックス プロセッシング ユニット (GPU)、ビッグ データが初めて組み合わされ、現代の人工知能の新時代の幕開けとなりました。例としては、私の研究室が数年をかけてまとめた 1,500 万枚の画像データセットである ImageNet データセットがあります。私たちの進歩は非常に早く、初期の画像アノテーションから現在に至るまで、アルゴリズムの速度と精度は大幅に向上しています。画像内のオブジェクトを識別し、オブジェクト間の関係を予測できるアルゴリズムも開発しました。この作業は私の生徒と共同研究者によって行われます。
前回、人間の自然言語で写真を説明できる最初のコンピューター ビジョン アルゴリズムを紹介したことを思い出してください。それは私が生徒のアンドレイ・カルパシーと一緒にやった仕事でした。その時点で、私はチャンスを掴んで「アンドレイ、リバースコンピューターを構築できますか?」と言いました。「ははは、それは不可能です。」 この投稿からわかるように、この最新のコンピューターは不可能になりました。 。これはすべて、人間が指示した文章をまったく新しい写真やビデオに変える、今日の生成 AI アルゴリズムを強化する一連の拡散モデルのおかげです。
皆さんの多くは、OpenAI の Sora によって作成された素晴らしいビデオ作品を目撃したことがあります。しかし、大規模な GPU リソースがなくても、私の学生と共同研究者は、Sora の数か月前に Walt と呼ばれる生成ビデオ モデルの開発に成功しました。
それにもかかわらず、私たちはまだ探索し、改善を続けています。完成したビデオには、猫の目の細部や猫が濡れずに波の中をどのように移動するかなど、まだいくつかの不完全な点があることに気付きました。しかし、過去の経験が私たちに教えているように、私たちはこれらの間違いから学び、改善を続け、夢の未来を創造していきます。その将来、私たちは AI が私たちに代わってより多くのことを行ってくれたり、私たちがそれをより良く行えるよう支援してくれることを期待しています。
私は長年、写真を撮ることと、本当に「見て」理解することは別のことだと強調してきました。今日は、少し付け加えたいと思います。ただ見るだけでは十分ではありません。本当の「見る」ことは行動と学習のためにあります。 3 次元の時空で行動を起こすとき、私たちはそれをより良く行う方法を観察を通じて学びます。自然は視覚と行動を結びつける「空間知性」によって好循環を生み出します。
空間知能がどのように機能するかを説明するには、この写真を見てください。何かをしたいという突然の衝動がある場合、それはあなたの脳がガラスの形状、空間内の位置、周囲の物体との関係を瞬時に分析したことを意味します。この行動への衝動は空間知性を持つすべての生き物に固有のものであり、認識と行動に密接に結びついています。
人工知能に現在の能力を超えてもらいたいのであれば、人工知能が見て話すだけでなく、行動することも必要です。私たちはこの面で素晴らしい進歩を遂げてきました。最新の空間インテリジェンスのマイルストーンは、コンピュータに見て、学習し、行動することを教え、より良く見ることと行動する方法を継続的に学習させることです。これは、自然が目に頼って受け取る能力を進化させるのに何百万年もかかったため、これは簡単ではありません。光を当てて二次元画像を三次元情報に変換します。
つい最近、Google の研究者チームが、ここで示す例のように、一連の写真を 3 次元空間に変換するアルゴリズムを開発しました。私の学生と共同研究者はそれをさらに一歩進めて、画像のみを入力として受け取り、それを 3 次元形状に変換するアルゴリズムを作成しました。さらにいくつかの例を示します。
人間の口頭での説明をビデオに変換できるコンピューター プログラムについて話したことを思い出してください。ミシガン大学の研究チームは、文章を 3 次元の部屋のレイアウトに変換する方法を発見しました。スタンフォード大学の同僚と学生たちと私は、たった 1 枚の画像を取り込み、視聴者が探索できる無限の空間を作成するアルゴリズムを開発しました。
これらは、空間インテリジェンスの分野で私たちが成し遂げてきた刺激的な進歩であり、私たちの未来の世界の可能性も示しています。その時までに、人類は全世界をデジタル形式、つまり現実世界の豊かさと微妙なニュアンスをシミュレートできるデジタル世界に変換できるようになるでしょう。
空間知能の進歩が加速する中、新たな好循環の時代が私たちの目の前で展開されています。この往復の相互作用は、3 次元世界を理解して対話する必要があるあらゆる身体化された知能システムの重要なコンポーネントであるロボット学習を促進します。
10 年前、私の研究室で開発された ImageNet により、コンピューター ビジョンのトレーニング用に数百万枚の高品質の写真のデータベースが可能になりました。現在、私たちはコンピューターやロボットが 3 次元世界でどのように行動するかを訓練するために、行動やアクションの行動「ImageNet」を収集しています。ただし、今回は静止画像を収集するのではなく、3 次元空間モデルによって駆動されるシミュレーション環境を構築します。これにより、コンピュータは行動方法を学習するための無限の可能性が得られます。
私たちはロボットの言語知能においても素晴らしい進歩を遂げています。大規模な言語モデルに基づく入力を使用して、私の学生と共同研究者は、引き出しを開ける、充電線から電話を抜くなど、口頭コマンドに基づいてさまざまなタスクを実行できるロボット アームを作成した最初のチームになりました。パン、レタス、トマトでサンドイッチを作ったり、ナプキンを付けたりもします。通常であれば、ロボット アームで作るよりも多くのサンドイッチの要件があると思いますが、これは良いスタートです。
私たちの古代、その原始的な海では、カンブリア紀に周囲の環境を観察し認識する能力によって生物種の爆発が始まりました。今日、この光は「デジタル形式の生命」に触れています。空間知能により、マシンは相互に対話するだけでなく、人間や現実または仮想形式の 3 次元世界とも対話できるようになります。多くの人々の生活に大きな影響を与えます。
ヘルスケアを例に挙げてみましょう。過去 10 年にわたり、私の研究室は人工知能を適用して患者の治療の有効性に影響を与える方法と、医療スタッフの疲労という課題に対処する方法を探求するための最初の一歩を踏み出しました。
私たちはスタンフォード医学部や他の病院の協力者とスマートセンサーの試験運用を行っています。臨床医が適切な手洗いを行わずに病室に入ったことを検出し、手術器具を追跡したり、転倒など患者が危険にさらされている場合に医療チームに警告したりできます。これらのテクノロジーは、追加の目のような一種の環境知能であり、世界に実際の変化をもたらすことができます。私は、どうしても追加の手を必要としている患者、臨床医、介護者にとって、よりインタラクティブな支援を望んでいます。介護者が患者に集中している間、または拡張現実の中で、より安全で迅速で侵襲性の低い処置で外科医を誘導している間、自律型ロボットが医療用品を届けているところを想像してみてください。
あるいは、重度の麻痺患者が思考でロボットを制御できるシナリオを想像してみてください。そう、脳波を使って、あなたや私が当たり前だと思っている日常のタスクを完了するのです。私の研究室で行われた最近の実験で、この将来の可能性を垣間見ることができます。このビデオでは、すき焼きを調理するロボット アームが完全に脳からの電気信号によって制御されており、電気信号は脳波計キャップを介して非侵襲的に収集されます。
約5億年前、視覚の出現は暗黒の世界を一変させ、最も深遠な進化のプロセス、つまり動物界における知性の発達を引き起こしました。過去 10 年間にわたる人工知能の驚異的な進歩も同様に驚くべきものでした。しかし、私は、かつて自然が人間に対してそうしたのと同じように、空間知能を活用したコンピューターやロボットが登場するまで、このデジタルカンブリア爆発の可能性を最大限に発揮することはできないと信じています。
私たちのデジタルコンパニオンが、人間の世界である美しい三次元空間を推論して操作することを学びながら、私たちが探索できるさらに新しい世界を創造するという、エキサイティングな時代となるでしょう。この未来を実現するのは簡単ではありません。それには慎重な思考と、常に人を中心としたテクノロジーの開発が必要です。しかし、正しく理解できれば、空間知能を活用したコンピューターやロボットは、便利なツールであるだけでなく、信頼できるパートナーとなり、人間の生産性を向上させ、調和のとれた共存を促進することになります。同時に、私たちの個人の尊厳がより際立ち、人類社会の共通の繁栄につながります。
将来について私が最も興奮しているのは、AI がより鋭敏になり、洞察力が高まり、空間認識力が高まることです。彼らは人間とともに歩み、より良い世界を創るために、より良い方法を常に追求していきます。
以上がリー・フェイフェイは、AI が世界を真に理解できるようにするための起業家の方向性「空間インテリジェンス」を解釈しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。