リー・フェイフェイは、AI が世界を真に理解できるようにするための起業家の方向性「空間インテリジェンス」を解釈します
リー・フェイフェイの起業家精神のための「空間知性」の選択、完全なTED解釈ビデオが公開されました。
少し前に、有名な「AIゴッドマザー」リー・フェイフェイ氏がスタートアップ企業を設立し、シードラウンドの資金調達を完了しているとロイターが独占的に報じた。
このスタートアップの紹介で、情報提供者はバンクーバーでのリー・フェイフェイ氏の TED 講演を引用し、彼がこの TED 講演で空間インテリジェンスの概念を導入したことを示しました。
ちょうど今日、リー・フェイフェイはTEDバンクーバーでのスピーチ全文のビデオをXで公開しました。 彼女は、「洞察力になるためには、洞察力が理解力に変わり、理解力が行動に導かれる」と紹介しました。「
リー・フェイフェイ TED Talk リンク:
https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_question_the_real_world」 /transcript
「空間知能」の概念をさらに説明するために、彼は前足を伸ばしてグラスをテーブルの端に向かって押している猫の写真を見せました。同氏によれば、人間の脳はほんの一瞬で「このガラスの形状、三次元空間における位置、テーブルや猫、その他すべてのものとの関係」を評価し、何が起こるかを予測し、そうならないために行動を起こしてください。
「自然は空間知性を活用した観察と行動の好循環を生み出しました」と彼女は言い、スタンフォード大学の研究室はコンピューターに「三次元世界でどのように行動するか」を教えようとしていると付け加えた。 、大規模な言語モデルを使用して、ロボットアームが口頭の指示に基づいてドアを開けたりサンドイッチを作ったりするなどのタスクを実行できるようにします。
以下は 2024 TED でのリー・フェイフェイのスピーチの書き起こしです:
まずお見せしましょう、これは純粋で無限の暗闇に満ちた 5 億 4,000 万年前の世界です。この暗闇は光の欠如によるものではなく、見る目の欠如によるものです。太陽光は海面を貫通して地下 1,000 メートルに到達し、熱水噴出孔からの光は生命に満ちた海底を照らしますが、この太古の海には目は一つも存在せず、網膜も角膜も水晶体もありません。 。したがって、すべての光とすべての生き物は目に見えません。
三葉虫が出現するまでは、「見る」という概念自体が存在しなかった時代があり、彼らは光を感じる最初の生き物であり、新しい世界の始まりでした。彼らは初めて、自分たち以外にも広い世界があることに気づきます。
この視覚能力がカンブリア爆発を引き起こし、多数の動物種が化石記録に痕跡を残し始めた可能性があります。光を受動的に感知することから、世界を理解するために視覚を積極的に使用するようになった生物神経系は進化し始め、視覚は洞察力に変わり、その後行動を導き、最終的に知性を生み出しました。
今日、私たちは自然に与えられた視覚的知性にもはや満足せず、私たちと同じように、またはさらに賢く「見る」ことができる機械を作成することに熱心です。
9年前、私は人工知能の下位分野であるコンピュータービジョンの初期の進歩を紹介するためにこのステージに上がりました。当時、ニューラル ネットワーク アルゴリズム、グラフィックス プロセッシング ユニット (GPU)、ビッグ データが初めて組み合わされ、現代の人工知能の新時代の幕開けとなりました。例としては、私の研究室が数年をかけてまとめた 1,500 万枚の画像データセットである ImageNet データセットがあります。私たちの進歩は非常に早く、初期の画像アノテーションから現在に至るまで、アルゴリズムの速度と精度は大幅に向上しています。画像内のオブジェクトを識別し、オブジェクト間の関係を予測できるアルゴリズムも開発しました。この作業は私の生徒と共同研究者によって行われます。
前回、人間の自然言語で写真を説明できる最初のコンピューター ビジョン アルゴリズムを紹介したことを思い出してください。それは私が生徒のアンドレイ・カルパシーと一緒にやった仕事でした。その時点で、私はチャンスを掴んで「アンドレイ、リバースコンピューターを構築できますか?」と言いました。「ははは、それは不可能です。」 この投稿からわかるように、この最新のコンピューターは不可能になりました。 。これはすべて、人間が指示した文章をまったく新しい写真やビデオに変える、今日の生成 AI アルゴリズムを強化する一連の拡散モデルのおかげです。
皆さんの多くは、OpenAI の Sora によって作成された素晴らしいビデオ作品を目撃したことがあります。しかし、大規模な GPU リソースがなくても、私の学生と共同研究者は、Sora の数か月前に Walt と呼ばれる生成ビデオ モデルの開発に成功しました。
それにもかかわらず、私たちはまだ探索し、改善を続けています。完成したビデオには、猫の目の細部や猫が濡れずに波の中をどのように移動するかなど、まだいくつかの不完全な点があることに気付きました。しかし、過去の経験が私たちに教えているように、私たちはこれらの間違いから学び、改善を続け、夢の未来を創造していきます。その将来、私たちは AI が私たちに代わってより多くのことを行ってくれたり、私たちがそれをより良く行えるよう支援してくれることを期待しています。
私は長年、写真を撮ることと、本当に「見て」理解することは別のことだと強調してきました。今日は、少し付け加えたいと思います。ただ見るだけでは十分ではありません。本当の「見る」ことは行動と学習のためにあります。 3 次元の時空で行動を起こすとき、私たちはそれをより良く行う方法を観察を通じて学びます。自然は視覚と行動を結びつける「空間知性」によって好循環を生み出します。
空間知能がどのように機能するかを説明するには、この写真を見てください。何かをしたいという突然の衝動がある場合、それはあなたの脳がガラスの形状、空間内の位置、周囲の物体との関係を瞬時に分析したことを意味します。この行動への衝動は空間知性を持つすべての生き物に固有のものであり、認識と行動に密接に結びついています。
人工知能に現在の能力を超えてもらいたいのであれば、人工知能が見て話すだけでなく、行動することも必要です。私たちはこの面で素晴らしい進歩を遂げてきました。最新の空間インテリジェンスのマイルストーンは、コンピュータに見て、学習し、行動することを教え、より良く見ることと行動する方法を継続的に学習させることです。これは、自然が目に頼って受け取る能力を進化させるのに何百万年もかかったため、これは簡単ではありません。光を当てて二次元画像を三次元情報に変換します。
つい最近、Google の研究者チームが、ここで示す例のように、一連の写真を 3 次元空間に変換するアルゴリズムを開発しました。私の学生と共同研究者はそれをさらに一歩進めて、画像のみを入力として受け取り、それを 3 次元形状に変換するアルゴリズムを作成しました。さらにいくつかの例を示します。
人間の口頭での説明をビデオに変換できるコンピューター プログラムについて話したことを思い出してください。ミシガン大学の研究チームは、文章を 3 次元の部屋のレイアウトに変換する方法を発見しました。スタンフォード大学の同僚と学生たちと私は、たった 1 枚の画像を取り込み、視聴者が探索できる無限の空間を作成するアルゴリズムを開発しました。
これらは、空間インテリジェンスの分野で私たちが成し遂げてきた刺激的な進歩であり、私たちの未来の世界の可能性も示しています。その時までに、人類は全世界をデジタル形式、つまり現実世界の豊かさと微妙なニュアンスをシミュレートできるデジタル世界に変換できるようになるでしょう。
空間知能の進歩が加速する中、新たな好循環の時代が私たちの目の前で展開されています。この往復の相互作用は、3 次元世界を理解して対話する必要があるあらゆる身体化された知能システムの重要なコンポーネントであるロボット学習を促進します。
10 年前、私の研究室で開発された ImageNet により、コンピューター ビジョンのトレーニング用に数百万枚の高品質の写真のデータベースが可能になりました。現在、私たちはコンピューターやロボットが 3 次元世界でどのように行動するかを訓練するために、行動やアクションの行動「ImageNet」を収集しています。ただし、今回は静止画像を収集するのではなく、3 次元空間モデルによって駆動されるシミュレーション環境を構築します。これにより、コンピュータは行動方法を学習するための無限の可能性が得られます。
私たちはロボットの言語知能においても素晴らしい進歩を遂げています。大規模な言語モデルに基づく入力を使用して、私の学生と共同研究者は、引き出しを開ける、充電線から電話を抜くなど、口頭コマンドに基づいてさまざまなタスクを実行できるロボット アームを作成した最初のチームになりました。パン、レタス、トマトでサンドイッチを作ったり、ナプキンを付けたりもします。通常であれば、ロボット アームで作るよりも多くのサンドイッチの要件があると思いますが、これは良いスタートです。
私たちの古代、その原始的な海では、カンブリア紀に周囲の環境を観察し認識する能力によって生物種の爆発が始まりました。今日、この光は「デジタル形式の生命」に触れています。空間知能により、マシンは相互に対話するだけでなく、人間や現実または仮想形式の 3 次元世界とも対話できるようになります。多くの人々の生活に大きな影響を与えます。
ヘルスケアを例に挙げてみましょう。過去 10 年にわたり、私の研究室は人工知能を適用して患者の治療の有効性に影響を与える方法と、医療スタッフの疲労という課題に対処する方法を探求するための最初の一歩を踏み出しました。
私たちはスタンフォード医学部や他の病院の協力者とスマートセンサーの試験運用を行っています。臨床医が適切な手洗いを行わずに病室に入ったことを検出し、手術器具を追跡したり、転倒など患者が危険にさらされている場合に医療チームに警告したりできます。これらのテクノロジーは、追加の目のような一種の環境知能であり、世界に実際の変化をもたらすことができます。私は、どうしても追加の手を必要としている患者、臨床医、介護者にとって、よりインタラクティブな支援を望んでいます。介護者が患者に集中している間、または拡張現実の中で、より安全で迅速で侵襲性の低い処置で外科医を誘導している間、自律型ロボットが医療用品を届けているところを想像してみてください。
あるいは、重度の麻痺患者が思考でロボットを制御できるシナリオを想像してみてください。そう、脳波を使って、あなたや私が当たり前だと思っている日常のタスクを完了するのです。私の研究室で行われた最近の実験で、この将来の可能性を垣間見ることができます。このビデオでは、すき焼きを調理するロボット アームが完全に脳からの電気信号によって制御されており、電気信号は脳波計キャップを介して非侵襲的に収集されます。
約5億年前、視覚の出現は暗黒の世界を一変させ、最も深遠な進化のプロセス、つまり動物界における知性の発達を引き起こしました。過去 10 年間にわたる人工知能の驚異的な進歩も同様に驚くべきものでした。しかし、私は、かつて自然が人間に対してそうしたのと同じように、空間知能を活用したコンピューターやロボットが登場するまで、このデジタルカンブリア爆発の可能性を最大限に発揮することはできないと信じています。
私たちのデジタルコンパニオンが、人間の世界である美しい三次元空間を推論して操作することを学びながら、私たちが探索できるさらに新しい世界を創造するという、エキサイティングな時代となるでしょう。この未来を実現するのは簡単ではありません。それには慎重な思考と、常に人を中心としたテクノロジーの開発が必要です。しかし、正しく理解できれば、空間知能を活用したコンピューターやロボットは、便利なツールであるだけでなく、信頼できるパートナーとなり、人間の生産性を向上させ、調和のとれた共存を促進することになります。同時に、私たちの個人の尊厳がより際立ち、人類社会の共通の繁栄につながります。
将来について私が最も興奮しているのは、AI がより鋭敏になり、洞察力が高まり、空間認識力が高まることです。彼らは人間とともに歩み、より良い世界を創るために、より良い方法を常に追求していきます。
以上がリー・フェイフェイは、AI が世界を真に理解できるようにするための起業家の方向性「空間インテリジェンス」を解釈しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ
