自己教師あり学習により、コンピューターは画像、音声、テキストの構造を学習することで世界を観察し、理解することができます。これが、人工知能における最近の大きな進歩の多くを推進してきました。
世界中の研究者がこの分野に多大な努力を払ってきたにもかかわらず、自己教師あり学習アルゴリズムが画像、音声、テキスト、その他のモダリティから学習する方法には現在大きな違いがあります。したがって、人工知能フォーラムの Analytics India Magazine は、読者向けに 2022 年の自己教師あり学習モデルのトップ 10 を発表します。
紙のリンク: https://arxiv.org/pdf/2202.03555.pdf
オープンソース コード: https://t.co/3x8VCwGI2x pic.twitter.com/Q9TNDg1paj
Meta AI は、音声、画像、テキスト関連のコンピューター ビジョン向けに data2vec アルゴリズムを 1 月にリリースしましたモデル。 AI チームによると、このモデルは NLP タスクにおいて非常に競争力があるとのことです。
入力例に依存した対比学習や再構成は使用しません。 Meta AI チームは、data2vec のトレーニング方法は、入力データの部分的なビューを提供することで予測モデルを表現することであると述べました。
チームは次のように述べています: 「最初にマスクされたトレーニング サンプルを学生モデルでエンコードします。その後、同じモデルでマスクされていない入力サンプルをエンコードしてトレーニング ターゲットを構築します。このモデル (教師モデル) と学生モデルはパラメータのみが異なります。」
#このモデルは、マスクされたトレーニング サンプルに基づいて、マスクされていないトレーニング サンプルのモデル表現を予測します。これにより、学習タスクにおけるモダリティ固有の目標への依存が排除されます。
紙のリンク: https://arxiv.org/pdf/2201.03545.pdf
オープンソース コード: https://t.co/nWx2KFtl7X
ConvNext (2020 年代の ConvNet モデルとも呼ばれる) は、Meta AI チームによってリリースされたモデルです。 3月モデル。これは完全に ConvNet のモジュールに基づいているため、正確で、設計がシンプルで、スケーラブルです。
##VICReg##紙のリンク: https:// t. co/H7crDPHCHV
オープン ソース コード: https://t.co/oadSBT61P3
分散不変共分散正則化 (VICReg) は、分散項と非相関メカニズム ベースを組み合わせます。定数ベクトルや有益でないベクトルを生成するエンコーダの崩壊を避けるための、冗長性の削減と共分散の正則化について。
VICReg は、ブランチ間の重み共有、バッチ正規化、特徴正規化、出力量子化、勾配停止、メモリ バンクなどのテクニックを必要とせず、いくつかの機能で良好に動作します。下流のタスク 達成された結果は、最先端のものに匹敵します。さらに、分散正則化項は他の手法のトレーニングを安定化し、パフォーマンスの向上を促進できることが実験的に実証されています。
STEGO
紙のリンク: https://arxiv.org/abs/2203.08414
MIT のコンピューター サイエンスおよび人工知能研究所は、マイクロソフトおよびコーネル大学と協力して、コンピューター ビジョンにおける最も困難なタスクの 1 つを解決するために、エネルギーベースのグラフ最適化のための自己教師ありトランスフォーマー (STEGO) を開発しました。 : にラベルを割り当てる人間の監視なしで画像のすべてのピクセルを監視します。
#STEGO は「セマンティック セグメンテーション」を学習しました。簡単に言えば、画像内の各ピクセルにラベルを割り当てることです。
セマンティック セグメンテーションは、画像がオブジェクトによって干渉される可能性があるため、今日のコンピューター ビジョン システムにとって重要なスキルです。問題をさらに難しくしているのは、これらのオブジェクトが常にテキスト ボックス内に収まるとは限らないことです。アルゴリズムは、植生、空、マッシュポテトなどの定量化が難しいものよりも、人や車などの個別の「もの」に適していることがよくあります。
公園で犬が遊んでいるシーンを例に挙げます。以前のシステムでは犬しか識別できませんでしたが、STEGO は画像の各ピクセルにラベルを割り当てることで、画像をいくつかの主要なコンポーネントに分解できます。 : 犬、空、草、そして飼い主。
「世界を見る」ことができるマシンは、自動運転車や医療診断用の予測モデルなど、さまざまな新興テクノロジーにとって不可欠です。 STEGO はラベルなしで学習できるため、人間がまだ完全に理解していないオブジェクトであっても、さまざまなドメインのオブジェクトを検出できます。
論文リンク: https://arxiv.org/pdf/2210.04062.pdf
香港中文大学 (深セン) の研究者は、自己教師あり音声表現学習について、Code BERT (CoBERT) を提案しました。他の自己蒸留法とは異なり、そのモデルはさまざまなモダリティからの表現を予測します。このモデルは、表現学習のために音声を一連の離散コードに変換します。
まず、研究チームは、HuBERT の事前トレーニング済みコード モデルを使用して、離散空間でトレーニングしました。次に、コード モデルを音声モデルに改良し、モダリティ全体でより優れた学習を実行することを目指しました。 ST タスクの大幅な改善は、CoBERT の表現が以前の研究よりも多くの言語情報を運ぶ可能性があることを示唆しています。
CoBERT は、ASR タスクに関して現在の最高のアルゴリズムのパフォーマンスを上回り、SUPERB 音声翻訳 (ST) タスクに大幅な改善をもたらします。
FedX は、Microsoft が清華大学および韓国科学技術院と協力して立ち上げた教師なしフェデレーテッド ラーニング フレームワークです。このアルゴリズムは、ローカルおよびグローバルの知識抽出と比較学習を通じて、離散的で異種のローカル データから不偏表現を学習します。さらに、これは、フェデレーテッド ラーニング シナリオで既存のさまざまな自己教師ありアルゴリズムへのアドオン モジュールとして使用できる、適応可能なアルゴリズムです。 TriBYOL
#ColloSSL
##紙のリンク: https://arxiv.org/pdf/ 2202.00758 .pdf
Nokia Bell Labs の研究者は、ジョージア工科大学およびケンブリッジ大学と協力して、人間の活動を認識するための共同自己教師ありアルゴリズムである ColloSSL を開発しました。複数のデバイスによって同時にキャプチャされたラベルのないセンサー データ セットは、相互の自然な変換として見ることができ、表現学習用の信号を生成します。この論文では、デバイス選択、コントラストサンプリング、およびマルチビューコントラストロスの 3 つの方法を提案します。
論文リンク: https://arxiv.org/pdf/2207.10023.pdf
成均館大学研究チームは、ターゲットの監視を支援するために 3 つの属性を使用して局所化可能な回転 (LoRot) を予測する、単純な自己監視型補助タスクを提案しています。
#このモデルには 3 つの大きな特徴があります。まず、研究チームはモデルを誘導して豊富な機能を学習させました。第 2 に、自己監視移行が発生している間、分散トレーニングは大幅に変化しません。第三に、このモデルは軽量かつ多用途であり、以前のテクノロジーへの高い適応性を備えています。#TS2Vec
##紙のリンク: https:// arxiv .org/pdf/2106.10466.pdf
マイクロソフトと北京大学は、任意の意味レベルでの時系列の表現学習のための一般的な学習フレームワーク TS2Vec を提案しました。このモデルは、強化されたコンテキスト ビューの階層的手法で対比学習を実行し、個々のタイムスタンプに強力なコンテキスト表現を提供します。結果は、TS2Vec モデルが最先端の教師なし時系列表現学習と比較してパフォーマンスの大幅な向上を達成していることを示しています。
2022 年には、自己教師あり学習と強化学習の 2 つの分野で大きなイノベーションが起こるでしょう。研究者たちはどちらがより重要であるかを議論してきましたが、自己教師あり学習の第一人者であるヤン・ルカン氏は次のように述べています。 》参考資料:https://analyticsindiamag.com/top-10-self-supervised-learning-models-in-2022/以上が2022 年トップ 10 の自己教師あり学習モデルがリリースされました。米国と中国の8つの成果がリストを独占の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。