


アメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウント カメラを使用して新しい AI をトレーニングします
すごいことに、ニューヨーク州立大学の教授は、AI モデルをトレーニングするために、娘の頭に GoPro のようなカメラを取り付けました。
信じられないように聞こえますが、この教授の行動には実際には十分な根拠があります。
LLM の背後にある複雑なニューラル ネットワークをトレーニングするには、大量のデータが必要です。
現在の LLM トレーニング プロセスは、必ずしも最もシンプルで効率的な方法なのでしょうか?
絶対に違います!科学者たちは、人間の幼児の脳がスポンジのように水を吸収し、急速に一貫した世界観を形成していることを発見しました。
LLM は時々驚くべきパフォーマンスを発揮しますが、時間の経過とともに、人間の子供はモデルよりも賢く、より創造的になるでしょう。
子供たちが言語を習得する秘訣
より良い方法でLLMを訓練するにはどうすればよいですか?
科学者たちが困惑しているとき、人間の子たちは目を輝かせました -
彼らが言語を学ぶ方法は、言語習得の達人と呼ぶことができます。
この話は誰もが知っています。幼い子供をまったく異なる言語と文化を持つ国に放り込むと、数か月以内に現地の言語の習得がネイティブレベルに近づく可能性があります。
そして大規模な言語モデルはそれに比べれば見劣りします。
まず第一に、データ量が多すぎます。
現在、モデルをトレーニングする大手企業は、世界中のすべてのデータをほぼ使い果たしています。 LLM の学習には、インターネットやさまざまな場所からマイニングされた天文学的な量のテキストが必要になるためです。
彼らが言語を習得するには、何兆もの言葉を与える必要があります。
この研究に参加したブレンデン・レイクとニューヨーク大学の学者たち
第二に、LLMは、多大な努力を払って非常に多くのデータを注ぎ込んだとしても、正確に学習できない可能性があります。
多くの LLM の出力は、次の単語を一定の精度で予測することです。そして、この正確さはますます不安になっています。
対照的に、子供たちが言語を流暢に話すことを学ぶのにそれほど多くの経験は必要ありません。
人間とAIを研究するニューヨーク州立大学の心理学者ブレンデン・レイク氏は、これに焦点を当てた。
彼は、1歳9ヶ月の娘ルナに実験を行うことにしました。
過去 11 か月間、レイクさんは娘に毎週 1 時間カメラを装着させ、娘の視点から娘の遊びの様子をビデオに録画させてきました。
Luna のカメラで撮影したビデオを使用して、レイク氏は、子供たちがさらされるのと同じデータを使用してモデルをトレーニングしたいと考えています。
幼児の娘に GoPro をストラップで掛けました
言語学者と児童専門家は現在、子供たちがどのように言語を習得するかについて意見が一致していませんが、レイク氏は次のように確信しています。LLM をさらに強化する効率の秘密は子供の学習パターンにあります!
そこで、Lake 氏は、LLM のトレーニング効率を向上させるために、子供たちが最初の文を学習するときに経験する刺激を研究するという研究プロジェクトを立ち上げました。
これを行うために、レイクのチームは米国中の 25 人の子供からビデオと音声のデータを収集する必要がありました。
これは記事の冒頭のシーンです - 彼らは GoPro のようなカメラをレイクの娘ルナを含む子供たちの頭に結び付けました。
Lake 氏は、OpenAI の Clip モデルが注釈と画像を結び付ける方法と同様に、モデルはビデオ クリップと子供の視点からの養育者の発言を結び付けようとしていると説明しました。
Clip は画像を入力として受け取り、画像と注釈のペアのトレーニング データに基づいて説明的な注釈を提案として出力できます。
論文のアドレス: https://openai.com/index/clip/
さらに、Lake チームのモデルは、GoPro 映像と介護者からの音声からのトレーニング データに基づいてシーンの画像を結合することもできます。入力として、シーンを説明する言語を出力します。
さらに、モデルは説明をトレーニングで以前に見られたフレームに変換することもできます。
一見すると、とても簡単そうに思えますよね?つまり、モデルは人間の子供と同じように、話された言葉をビデオ フレーム内で観察されるオブジェクトと一致させることを学習します。
しかし、実際の実装では、依然として多くの複雑な状況に直面することになります。
たとえば、子供たちは説明されているオブジェクトやアクションを常に見ているわけではありません。
さらに抽象的な状況もあります。たとえば、私たちは子供たちに牛乳を与えますが、その牛乳は不透明なカップに入っており、非常に緩やかなつながりにつながります。
このように、Lake 氏は次のように説明しました: この実験は、画像内のオブジェクトと対応する単語を照合するモデルをトレーニングできるかどうかを証明することを目的としたものではありません (OpenAI はすでにこれを実証しています)。
その代わりに、チームがやりたかったのは、子供が利用できる疎なレベルのデータ (信じられないほど疎なデータ) のみを使用して、モデルが実際にオブジェクトの認識を学習できるかどうかを確認することでした。
ご覧のとおり、これは、OpenAI、Google、Meta などの大企業がモデルを構築するという考え方とは真逆です。
ご存知のとおり、メタはラマ 3 を訓練するために 15 兆のトークンを使用しました。
Lake チームの実験が成功すれば、おそらく全世界が直面している LLM データ不足は解決されるでしょう。そうすれば、LLM のトレーニングにそれほど多くのデータが必要なくなるからです。
言い換えれば、新しいアイデアは、AI モデルに限られた入力から学習させ、その後、目にするデータから一般化させることです。
私たちの焦点は、ますます多くのデータからますます大規模な LLM をトレーニングすることに限定されるべきではないと思います。はい、この方法で LLM から驚くべきパフォーマンスを得ることができますが、私たちが知っている人間の知性の驚異からはどんどん遠ざかっています...
初期の実験は成功しました
初期の実験結果は証明されましたレイクチームの考えは正しいかもしれないと。
今年 2 月、彼らは 61 時間のビデオ映像を使用して、幼い子供の体験を記録するニューラル ネットワークをトレーニングしました。
この研究では、モデルは被験者が話したさまざまな単語やフレーズを、ビデオフレームにキャプチャされた経験と結びつけることができたことがわかりました。その単語やフレーズが提示されている限り、モデルは関連する画像を思い出すことができました。 。この論文は Science 誌に掲載されました。
論文アドレス: https://www.science.org/doi/10.1126/science.adi1374
レイク氏は、最も驚くべきことは、モデルがトレーニングされていない画像内のオブジェクトの名前を一般化できることだと言いました。
もちろん、精度は高くないかもしれません。しかし、このモデルはもともとコンセプトを検証するためのものでした。
モデルは子供が知っていることをすべて学習していないため、プロジェクトはまだ完了していません。
結局のところ、注釈付きのスピーチはわずか約 60 時間であり、これは子供が 2 年間で獲得する経験の 1 パーセントに過ぎません。そして、何が学習可能なのかを解明するには、チームにはさらに多くのデータが必要です。
そしてレイク氏は、最初のモデルで使用された方法にはまだ限界があることも認めました -
介護者の言葉に関連するビデオクリップのみを分析し、その映像のみを毎秒5フレームの速度で画像に変換しました、これらだけでは、AI は動詞とは何か、抽象的な単語とは何かを実際には学習しておらず、世界がどのように見えるかの静的なスライスを取得しているだけです。
前に何が起こったのか、後に何が起こったのか、会話の文脈について何も知らないため、「歩く」、「走る」、「跳ぶ」が何なのかを学ぶのは困難です。
しかし、将来的には、ビデオのモデリングを支えるテクノロジーがより成熟するにつれて、チームはより効果的なモデルを構築するとレイク氏は信じています。
言語習得が実際にどのように始まるのかのモデルを構築できれば、人間の学習と発達を理解するための重要な応用が開かれ、おそらく発達障害や子供が言語を学ぶ方法を理解するのに役立つでしょう。
最終的には、このようなモデルは何百万もの異なる言語療法のテストにも使用できるようになるでしょう。
そういえば、子どもたちはどうやって自分の目と耳で言語をしっかりマスターするのでしょうか?
Science の Lake チームによって投稿されたこの記事を詳しく見てみましょう。
言葉を物理的な物体や視覚的なイメージと結び付けましょう
人間の子供たちはどのようにして世界についての無知を脱ぎ捨て、知識を獲得するのでしょうか?この「ブラックボックス」の謎は、教育者たちの絶え間ない追求を惹きつけているだけでなく、個人の知恵の起源について私たち一人ひとりの心の中に閉じ込められている疑問でもあります。
韓国のSF作家キム・チョイエは、「共生仮説」の中で次の仮説を書きました:人間の子供たちが幼児期に示した知恵は、実際には失われた異星人の文明を継承しており、彼らは人間とのコミュニケーションにこの方法を使用することを選択しています。しかし、それはわずか5年しか続かず、人間が成長して確かな記憶を持った後、子供時代の素晴らしい記憶は消去されました。
ネチズンは、「メンポースープを飲み忘れた」人間の子についての話をオンラインでよく共有します。
神秘的な子供時代については、私たちにとって説明が難しく、戻るのが難しい神秘的な場所です。それは一種の「ノスタルジー」です。金色の草葉に書かれているように、「離れないでください」。その美しい世界を奪わないでください。私が大きくなったら、一緒にいてください。
幼児は新しい言葉を特定の物体や視覚的概念とどのように結びつけるのでしょうか?
たとえば、「ボール」という言葉を聞いたとき、子供たちは弾力性のある丸い物体をどのように思い浮かべるでしょうか
この目的のために、レイクのチームは子供にヘッドマウントカメラを装着し、彼の動きを追跡しました。 6 か月から 25 か月の成長を記録し、61 時間の視覚言語データ ストリームを記録しました。
この 1.5 年分の子供向けクリップ データセット (600,000 のビデオ フレームと 37,500 の文字起こしされた発話ペアを含む) で、研究者らはモデル、子供視点対照学習モデル CVCL をトレーニングしました。
このモデルは、状況全体にわたる連想学習の形式をインスタンス化し、単語と考えられる視覚的指示対象との間のマッピングを識別します。
このモデルは、視覚エンコーダーと言語エンコーダーという 2 つのニューラル ネットワークの比較目標を調整し、自己教師ありの方法でトレーニングされます (つまり、子の視点記録のみを使用し、外部ラベルは使用しません)。目標は、ビデオ フレームと時間的に同時発生する言語発話のエンベディング (ベクトル) を結合することです (同時ビデオ フレームと言語発話のエンベディングを処理する)
もちろん、SAYCam-S と呼ばれるこのデータセットには制限があります。子どもの起きている時間の 1% が、多くの経験を逃してしまいます。
それにもかかわらず、CVCL は子供の限られた経験から強力なマルチモーダル表現を学ぶことができます。
チームは、モデルが子供の日常経験に存在する多くの参照マッピングを取得するため、ゼロサンプルで新しい視覚的指示対象を一般化し、それらの視覚的および言語的概念システムを調整できることを実証することに成功しました。
学習された単語の意味マッピングの評価
具体的には、トレーニングが完了した後、チームは CVCL とさまざまな代替モデルによって学習された単語参照マッピングの品質を評価しました。
結果は、CVCL の分類精度が 61.6% であることを示しています。
そして、図 2D は、22 の概念のうち 11 について、CVCL のパフォーマンスが CLIP の誤差の 5% 以内であることを示していますが、CLIP のトレーニング データは数桁大きい (画像ネットワークからの 4 億個)テキストペア)。
研究結果は、最も初期の単語指示マッピングの多くは、少なくとも 10 ~ 100 の自然に発生する単語と指示のペアから取得できることを示しています。
新しい視覚パラダイムへの一般化
さらに、研究者らは、CVCL によって学習された単語が分布外の視覚刺激に一般化できるかどうかも評価しました。
図 3A は、CVCL がこれらの視覚的な概念をある程度理解していることを示しており、全体の精度は 34.7% です。
明らかに、このタスクにはより大きな概念セットが必要であり、配布外の一般化にはさらなる困難が伴います。
左側はランダムに選択された 2 つのトレーニング ケース、右側は 4 つのテスト ケースです。以下のパーセンテージは、この画像を認識する際のモデルの精度とパフォーマンスを表しています。選択されたケースは左から右にあります。 2 つの最大値、中央値と最小値。テスト ケースとトレーニング ケースの色と形状がより似ている場合、モデル認識の精度も高くなることがわかります
マルチモーダルの一貫性は非常に優れています
最後に、研究者はテストを行いましたCVCL の視覚的および言語的概念システムの一貫性。
たとえば、「車」の視覚的埋め込みと単語の埋め込みの両方が「ボール」よりも「道路」に似ている場合、これはマルチモーダルアライメントがうまく機能していることを示しています。
下の写真は、CVCL の視覚システムと言語システムが高度に連携していることを示しています。
画像とテキストの関係、点線は各概念に対応する視覚重心と埋め込まれた単語間の距離を表します
さまざまなビジュアルコンセプトは、その例がどの程度緊密にクラスター化されているかによって異なります。赤ちゃんの視線は非常に近い物体の間をさまようため、モデルは「手」と「おもちゃ」を区別する際に明確な参照マッピングを形成しません。「車」と「ベビーベッド」の方がパフォーマンスが優れています
。図では、t-SNE を使用して CVCL 予測とラベル付きサンプルの比較を視覚的に示しています。
左側の青い点は、特定のカテゴリに属する 100 個のフレームに対応し、右側の緑色の点は、最もアクティブ化された 100 個のフレームに対応します (各概念の単語埋め込みとのコサイン類似性に基づいています) CVCL) 。各図の下には、各概念内の 1 つ以上のサブクラスターに属する複数のフレーム例があり、結合埋め込み空間で単語埋め込みが画像埋め込みとどのように相互作用するかを捉えています。たとえば、「階段」という単語の場合、屋内の木製の階段のイメージを表す 1 つのクラスターが表示され、屋外の一連の青い階段のイメージを表す別のメイン クラスターが表示されます。これらの図のすべての t-SNE グラフは、同じセットの結合画像とテキストの埋め込みから派生しています。
下の図は、モデルがさまざまなビューでターゲットの位置を特定できることを示しています。
正規化された注目マップでは、黄色は注目が最も高い領域を示します。最初の 2 つのカテゴリ (ボールとルーク) では、モデルがさまざまなビューでターゲットを特定できることがわかります。ただし、下位の 2 つのカテゴリ (猫と紙) では、アテンション マップが指示対象とずれていることがあり、指示対象を見つける能力がカテゴリ間で一貫していないことを示唆しています。
もちろん、子供の学習モデルと機械学習モデルにはまだ多くの違いがあります。
しかし、Lake チームの研究は間違いなく私たちに多くのインスピレーションを与えてくれました。
以上がアメリカの教授は、2 歳の娘を使って AI モデルをトレーニングし、『サイエンス』誌に掲載されました。人間の子はヘッドマウント カメラを使用して新しい AI をトレーニングしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。
