


なぜセルフモニタリングが効果的なのでしょうか? 243ページに及ぶプリンストン大学の博士論文「自己教師あり表現学習の理解」では、対比学習、言語モデリング、自己予測という3種類の手法について包括的に説明されている。
事前トレーニングは、これらの欠点を克服するための代替的で効果的なパラダイムとして登場しました。事前トレーニングでは、すぐに利用できるデータを使用してモデルが最初にトレーニングされ、次に、教師あり学習よりもラベル付けの少ないデータを使用して、関心のある下流のタスクを解決するために使用されます。 。
ラベルなしデータを使用した事前トレーニング、つまり自己教師あり学習は特に革新的であり、テキスト、ビジョン、音声などのさまざまな分野で成功を収めています。
これは興味深い、そして挑戦的な質問を引き起こします: ラベルのないデータでの事前トレーニングが、一見無関係に見える下流のタスクに役立つのはなぜですか?
#論文アドレス: https://dataspace.princeton.edu/handle/88435/dsp01t435gh21h
##この論文では、なぜ自己教師あり学習が下流のタスクに有益であるかを調査するための理論的枠組みを提案および確立するいくつかの研究を紹介します。
#このフレームワークは、対比学習、自己回帰言語モデリング、自己予測ベースの手法に適しています。このフレームワークの中心的な考え方は、事前トレーニングがデータの低次元表現を学習するのに役立ち、その後、必要なラベル付きデータが少なくなり、線形分類器を使用して対象の下流タスクを解決するのに役立つということです。 #共通のトピックは、自己教師あり学習タスクを構築するためのラベルなしデータ分布の理想的な特性を形式化することです。適切に形式化すると、正しい事前トレーニング目標をほぼ最小化することで、ラベルのないデータ分布で暗黙的にエンコードされたダウンストリーム信号を抽出できることが示されます。
最後に、線形分類器を使用して学習した表現から信号をデコードできることが示され、タスク間での「スキルと知識」の伝達を形式化できます。
はじめに
インテリジェントなエージェントとデータ駆動型ソリューションの設計を目指して、問題 その過程で、機械学習と人工知能の分野は過去 10 年間で目覚ましい進歩を遂げました。
ImageNet [Deng et al., 2009] などの困難な教師あり学習ベンチマークでの初期の成功により、その後、深層学習の革新により、さまざまなドメインの多くのそのようなベンチマークで超人的なパフォーマンスを発揮するモデルが誕生しました。このようなタスク固有のモデルのトレーニングは確かに印象的であり、非常に大きな実用的価値があります。ただし、大規模なラベル付きまたは注釈付きのデータセットが必要になるという重要な制限があり、コストがかかることがよくあります。さらに、知能の観点からは、人間と同じように[Ahn and Brewer, 1993]、以前の経験から学び、それらをスキルや概念に要約し、これらのスキルや概念を利用して新しいタスクを解決できる、より一般的なモデルが期待されています。デモンストレーションはほとんど、あるいはまったくありません。結局のところ、赤ちゃんは明示的な監督なしでも観察や交流を通じて多くのことを学びます。これらの制限は、事前トレーニングの代替パラダイムを発想させました。#この記事の焦点は、大量の利用可能なラベルなしデータを使用した事前トレーニングにあります。ラベルのないデータを使用するというアイデアは、特に教師なし学習および半教師あり学習を通じた機械学習において長い間関心を集めてきました。
深層学習を使用したこれの現代的な適応は、自己教師あり学習 (SSL) と呼ばれることが多く、対照学習や言語モデリングなどのアイデアを通じて、機械学習と人工知能の状況を変え始めています。自己教師あり学習の考え方は、ラベルなしのデータのみを使用して特定のタスクを構築し、構築されたタスクで適切に実行できるようにモデルをトレーニングすることです。このようなタスクでは、通常、入力の観察されていない部分または隠れた部分 (またはプロパティ) を、観察された部分または保持された部分から予測することによって、データの構造プロパティをエンコードするモデルが必要です [LeCun and Misra, 2021]。自己教師あり学習は、多くの下流の関心のあるタスクに対して汎用性と有用性を示しており、多くの場合、タスクを最初から解決するよりもサンプル効率が高く、汎用エージェントの目標に一歩近づくことができます。実際、最近、GPT-3 [Brown et al., 2020] のような大規模な言語モデルが、大規模に発生する魅力的な「緊急動作」を実証し、自己教師あり事前トレーニングのアイデアへの関心が高まっています。自己教師あり学習は経験的に成功しており、今後も大きな期待が寄せられていますが、大まかな直感を超えて自己教師あり学習がどのように機能するかについての理論的な理解はまだ十分ではありません。これらの目覚ましい成功は、興味深い疑問を引き起こします。なぜなら、あるタスクでトレーニングされたモデルが、一見無関係に見える別のタスクで役立つ必要がある理由がアプリオリに不明瞭だからです。つまり、タスク a でのトレーニングがなぜタスク b で役立つ必要があるのかということです。 SSL (およびディープ ラーニング一般) を理論的に完全に理解することは困難でとらえどころがありませんが、この現象を抽象化レベルを問わず理解することは、より原理に基づいたアルゴリズムの開発に役立つ可能性があります。この記事の研究動機は次のとおりです: なぜ自己教師あり学習タスクのトレーニング (大量のラベルなしデータを使用) がデータ不足の下流タスクの解決に役立つのか? 「知識とスキル」を伝達する方法形式化された? 教師あり学習に関する文献は大量にありますが、教師あり学習における SSL タスク→下流タスクへの一般化は、トレーニング セット→テスト セットへの一般化とは根本的に異なります。たとえば、分類の下流タスクの教師あり学習の場合、未知の分布からサンプリングされた入力ラベルのペアのトレーニング セットでトレーニングされたモデルを、同じ分布からサンプリングされた未確認のテスト セットの評価に直接使用できます。この基本的な配布により、トレーニング セットからテスト セットへの接続が確立されます。ただし、SSL タスクで使用されるラベルなしデータにはダウンストリーム ラベルに関する明確な信号がないため、SSL タスク→ダウンストリーム タスクの概念的な接続はそれほど明確ではありません。これは、SSL タスクで事前トレーニングされたモデル (入力の残りから入力の一部を予測するなど) を下流のタスク (入力からクラス ラベルを予測するなど) で直接使用することはできないことを意味します。したがって、「知識とスキル」の伝達には、ラベル付きデータを使用した追加のトレーニング ステップが必要ですが、理想的には、ゼロからの教師あり学習に必要なステップよりも少なくなります。 SSL タスク→下流タスクの一般化を理論的に理解するには、次の質問に対処する必要があります:「ラベルのないデータの本質的な役割は何ですか?」および「下流タスクに事前トレーニングされたモデルをどのように使用するか?」この文書は、分類の下流タスクを対象としています。ラベルのないデータに対して分布の仮定を立て、表現学習のアイデアを使用してこれらの問題を研究します。 (a) (分布の仮定) ラベルのないデータの分布には、暗黙的に関連するデータが含まれています。対象となる下流の分類タスクに関する情報。 (b) (表現学習) 適切な SSL タスクで事前トレーニングされたモデルは、学習された表現を通じてその信号をエンコードでき、その後、下流の分類タスクを次の方法で解決できます。線形分類器。 ポイント (a) は、ラベルのない特定の構造特性が後続の下流タスクに関するヒントを暗黙的に提供し、自己教師あり学習がデータから学習してこのシグナルを明らかにするのに役立つことを示しています。 。ポイント (b) は、モデルの学習された表現を活用して、事前トレーニングされたモデルを使用するシンプルで経験的に効果的な方法を提案します。この論文では、ラベルなしデータの分布特性を特定して数学的に定量化し、対照学習、言語モデリング、自己予測などのさまざまな SSL 手法で適切な表現を学習できることを実証しています。次のセクションでは、表現学習のアイデアを詳しく掘り下げ、なぜ自己教師あり学習が下流のタスクに役立つのかを正式に説明します。
以上がなぜセルフモニタリングが効果的なのでしょうか? 243ページに及ぶプリンストン大学の博士論文「自己教師あり表現学習の理解」では、対比学習、言語モデリング、自己予測という3種類の手法について包括的に説明されている。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。
