USB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク
現在、半教師あり学習の開発が本格化しています。ただし、既存の半教師あり学習ベンチマークは、ほとんどがコンピュータ ビジョン分類タスクに限定されており、自然言語処理や音声処理などの分類タスクの一貫した多様な評価は含まれていません。さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究室がこの分野の進歩に参加することが困難であることがよくあります。
この目的を達成するために、Microsoft Research Asia の研究者とウェストレイク大学、東京工業大学、カーネギーメロン大学、マックス プランク研究所およびその他の機関の研究者は、統一 SSL ベンチマーク (USB) を提案しました。視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマーク。
この論文では、より多様な応用分野を紹介するだけでなく、視覚的な事前トレーニング モデルを初めて使用して、半教師ありアルゴリズムの検証時間を大幅に短縮し、半教師ありアルゴリズムを実現します。教師あり研究は研究者にとってより便利であり、特に小規模な研究グループはより友好的です。人工知能分野のトップ国際学会であるNeurIPS 2022に関連論文が採択されました。
記事リンク: https://arxiv.org/pdf/2208.07204.pdf
##コードリンク: https://github.com/microsoft/Semi-supervised-learning教師あり学習ラベル付きデータに適合するモデルを構築する場合、ニューラル ネットワーク モデルは、教師あり学習を使用して大量の高品質のラベル付きデータでトレーニングすると、競争力のある結果を生み出します。
たとえば、Paperswithcode Web サイトの統計によると、ImageNet の 100 万レベルのデータセットでは、従来の教師あり学習手法は 88% 以上の精度を達成できます。ただし、大量のラベル付きデータを取得するには、多くの場合、時間と労力がかかります。
ラベル付きデータへの依存を軽減するために、半教師あり学習 (SSL) は、ラベル付きデータが少量しかない場合に大量のラベルなしデータを利用することに取り組んでいます。モデルの一般化を改善します。半教師あり学習も機械学習の重要なトピックの 1 つです。深層学習が登場する前に、この分野の研究者は、半教師ありサポート ベクター マシン、エントロピー正則化、協調トレーニングなどの古典的なアルゴリズムを提案しました。
深層半教師あり学習
深層学習の台頭により、深層半教師あり学習アルゴリズムも大きな進歩を遂げました。同時に、Microsoft、Google、Meta などのテクノロジー企業も、実践的なシナリオにおける半教師あり学習の大きな可能性を認識しています。
たとえば、Google は、検索パフォーマンスを向上させるために、半教師ありアルゴリズムである騒々しい学生トレーニングを使用しています [1]。現在、最も代表的な半教師ありアルゴリズムは、ラベル付きデータのトレーニングにクロスエントロピー損失を使用し、ラベルなしデータの一貫性正則化を使用して、入力摂動に対する不変予測を促進します。
たとえば、NeurIPS 2020 で Google が提案した FixMatch[2] アルゴリズムは、拡張アンカリングおよび固定しきい値処理テクノロジーを使用してモデルを強化し、さまざまな強度でデータを強化します。騒々しい疑似ラベルの。トレーニング中に、FixMatch はユーザー指定/事前定義のしきい値を下回るラベルのないデータをフィルターします。
NeurIPS 2021 で Microsoft Research Asia と東京工業大学が共同提案した FlexMatch[3] は、カテゴリーごとに異なる学習の難しさを考慮して、コースの擬似ラベルを提案しています。 (カリキュラム擬似ラベリング) テクノロジーでは、カテゴリごとに異なるしきい値を使用する必要があります。
具体的には、学習しやすいカテゴリの場合、モデルはノイズの多い疑似ラベルの影響を軽減するために高いしきい値を設定する必要があります。学習が難しいカテゴリの場合、モデルは次のようにする必要があります。このカテゴリへの適合を促進するために、低いしきい値を設定します。各クラスの学習難易度の評価は、そのクラスに分類されるラベルなしデータ サンプルの数と固定値を超える数に依存します。
同時に、Microsoft Research Asia の研究者らも協力して、統合された Pytorch ベースの半教師ありメソッド コード ライブラリ TorchSSL[4] を提案しました。これは、深いメソッドと共通データを提供します。セットとベンチマーク結果は一律にサポートされます。
#図 1: FlexMatch アルゴリズム プロセス
半教師あり学習の開発は本格化していますが、研究者らは、半教師あり学習に関する現在の論文のほとんどがコンピューター ビジョン (CV) 分類タスクのみに焦点を当てていることに気づいています。自然言語処理などの他の分野については ( NLP) や音声処理 (オーディオ) など、CV タスクで有効なこれらのアルゴリズムが、さまざまな分野でも依然として有効であるかどうかは、研究者にはわかりません。
さらに、ほとんどの半教師あり論文は大規模な機関によって出版されており、コンピュータリソースの制限により、学術研究機関がこの分野の発展促進に参加することが困難であることがよくあります。 。一般に、半教師あり学習ベンチマークには現在、次の 2 つの問題があります。
(1) 多様性が不十分です。既存の半教師あり学習ベンチマークのほとんどは、CV 分類タスク (つまり、CIFAR-10/100、SVHN、STL-10、ImageNet 分類) に限定されており、NLP、オーディオなどの分類タスクの一貫した多様な評価は含まれていません。 、NLP では、音声と音声に十分なラベル付きデータが不足していることもよくある問題です。
(2) 時間がかかり、学術界に不親切です。 TorchSSL などの既存の半教師あり学習ベンチマークは、多くの場合、ディープ ニューラル ネットワーク モデルを最初からトレーニングする必要があるため、時間がかかり、環境に優しくありません。具体的には、TorchSSL を使用して FixMatch[1] を評価するには、GPU で約 300 日かかります。このような高額なトレーニング費用により、多くの研究機関 (特に学術界や小規模な研究グループ) では SSL 関連の研究を行うことができなくなり、SSL の進歩が妨げられています。
USB: 多様なタスクを備え、研究者にとってよりフレンドリーな新しいベンチマーク ライブラリ上記の問題を解決するために、Microsoft Research Asia の研究者がウェストレイク大学と提携しました。 , 東京TU、カーネギーメロン大学、マックス・プランク研究所などの研究者らは、視覚、言語、音声の分類タスク学習ベンチマークを統合する初の半教師あり分類である統一SSLベンチマーク(USB)を提案した。
少数の視覚的タスクのみに焦点を当てた以前の半教師あり学習ベンチマーク (TorchSSL など) と比較して、このベンチマークはより多様なアプリケーション分野を導入するだけでなく、視覚的タスクも活用します。このモデル (事前トレーニング済みビジョン Transformer) により、半教師ありアルゴリズムの検証時間が大幅に短縮され (7000 GPU 時間から 900 GPU 時間に)、半教師あり研究が研究者、特に小規模な研究グループにとってより使いやすくなります。 。
国際人工知能分野のトップ学術会議であるNeurIPS 2022に関連論文が採択されました。 (詳細については、「原文を読む」をクリックしてください)
USB が提供するソリューションでは、USB は、現在の半教師ありベンチマークの問題をどのように解決できるのでしょうか。一発??
(1) タスクの多様性を高めるために、USB は 5 つの CV データ セット、5 つの NLP データ セット、および 5 つのオーディオ データ セットを導入し、多様なデータ セットを提供します。異なるドメインの複数のタスクを一貫して評価できる、挑戦的なベンチマークです。表 1 は、USB と TorchSSL のタスクとトレーニング時間の詳細な比較を示しています。
#表 1: USB フレームワークと TorchSSL フレームワーク間のタスクとトレーニング時間の比較
(2) トレーニング効率を向上させるために、研究者は ResNet を最初からトレーニングするのではなく、事前トレーニングされたビジョン Transformer を SSL に導入しました。具体的には、研究者らは、事前トレーニングされたモデルを使用すると、パフォーマンスに影響を与えることなくトレーニング反復数を大幅に削減できることを発見しました(たとえば、CV タスクのトレーニング反復数を 100 万ステップから 200,000 ステップに削減)。(3) 研究者にとってより使いやすいように、研究者は 14 の SSL アルゴリズムをオープンソースとして実装し、研究者が USB レポートで結果を簡単に再現できるように、モジュラー コード ライブラリと関連構成ファイルをオープンソース化しました。すぐに始められるよう、USB には詳細なドキュメントとチュートリアルも用意されています。さらに、USB は、ユーザーが SSL アルゴリズムを直接呼び出すための pip パッケージも提供します。研究者らは、今後も新しいアルゴリズム(アンバランス半教師ありアルゴリズムなど)やより困難なデータセットをUSBに追加し続けることを約束している。表 2 は、USB ですでにサポートされているアルゴリズムとモジュールを示しています。 #表 2: USB でサポートされるアルゴリズムとモジュール セミ教師あり学習は、大量のラベルなしデータを利用してより正確で堅牢なモデルをトレーニングするため、将来的に重要な研究および応用価値をもたらします。 Microsoft Research Asia の研究者は、この USB の成果を利用して、半教師あり学習の分野で学界と産業界がさらに進歩できることを楽しみにしています。
以上がUSB: 視覚、言語、音声の分類タスクを統合する初の半教師あり分類学習ベンチマークの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









恐怖の回廊は Goat Simulator 3 のミッションです。どのようにしてこのミッションを完了できますか? 詳細なクリア方法と対応するプロセスをマスターし、このミッションの対応する課題を完了できるようにしてください。以下を実行すると、Goat Simulator 3 の恐怖回廊が表示されます。関連情報を学ぶためのガイド。 Goat Simulator 3 Terror Corridor Guide 1. まず、プレイヤーはマップの左上隅にあるサイレントヒルに行く必要があります。 2. ここには屋上に「RESTSTOP」と書かれた家があり、プレイヤーはヤギを操作してこの家に入る必要があります。 3. 部屋に入ったら、まず直進して右に曲がり、突き当りにドアがありますので、そこから直接お入りください。 4. 入ったら、まず前に歩いてから右に曲がる必要があります。ここのドアに到達すると、ドアが閉まります。戻って見つけてください。

タスクを自動化し、複数のシステムを管理するには、ミッション計画ソフトウェアは、特にシステム管理者にとって貴重なツールです。 Windows タスク スケジューラはその仕事を完璧に実行しますが、最近多くの人がオペレーターによる要求拒否エラーを報告しています。この問題はオペレーティング システムのすべてのバージョンに存在し、広く報告され取り上げられていますが、効果的な解決策はありません。他の人にとって実際に何が役立つかを知るために読み続けてください!オペレーターまたは管理者によって拒否されたタスク スケジューラ 0x800710e0 のリクエストは何ですか?タスク スケジューラを使用すると、ユーザーの入力なしでさまざまなタスクやアプリケーションを自動化できます。これを使用して、特定のアプリケーションのスケジュールと整理、自動通知の構成、メッセージ配信の支援などを行うことができます。それ

Goat Simulator 3 は、古典的なシミュレーション ゲームプレイを備えたゲームで、プレイヤーはカジュアル アクション シミュレーションの楽しさを十分に体験できます。ゲームには多くのエキサイティングな特別なタスクも用意されています。その中でも、Goat Simulator 3 帝国の墓のタスクでは、プレイヤーは鐘楼を見つける必要があります。プレイヤーの中には、3 つの時計を同時に操作する方法がわからない人もいます。Goat Simulator 3 の Tomb of the Tomb ミッションのガイドは次のとおりです! Goat Simulator 3 の Tomb of the Tomb ミッションのガイドは、鐘を鳴らすことです。順番に。詳細な手順の拡張 1. まず、プレイヤーはマップを開いて梧丘墓地に行く必要があります。 2.鐘楼に上がると、中には鐘が3つあります。 3. 次に、大きいものから小さいものの順に、222312312 の類似度をたどります。 4. ノックが完了したら、ミッションを完了し、ドアを開けてライトセーバーを入手できます。

スティーブの救出は、Goat Simulator 3 のユニークなタスクです。それを完了するには、具体的に何をする必要がありますか? このタスクは比較的単純ですが、意味を誤解しないように注意する必要があります。ここでは、Goat のスティーブの救出について説明します。 Simulator 3 のタスク戦略は、関連タスクをより効率的に完了するのに役立ちます。 Goat Simulator 3 スティーブ救出ミッション 攻略 1. まずはマップ右下の温泉に来ます。 2. 温泉に到着したら、スティーブを救出するタスクをトリガーできます。 3. 温泉にはスティーブという男性がいますが、このミッションの対象ではありません。 4. この温泉でスティーブという名前の魚を見つけて陸に上げてこのタスクを完了します。

TikTok は、現在最も人気のあるソーシャル メディア プラットフォームの 1 つとして、多くのユーザーが参加しています。 Douyin には、ユーザーが特定の報酬や特典を得るために完了できるファン グループのタスクが多数あります。では、Douyin ファンクラブのタスクはどこで見つけられるのでしょうか? 1.Douyin ファンクラブのタスクはどこで確認できますか? Douyin ファン グループのタスクを見つけるには、Douyin の個人ホームページにアクセスする必要があります。ホームページに「ファンクラブ」という項目があります。このオプションをクリックすると、参加しているファン グループと関連タスクを参照できます。ファンクラブのタスク欄には、「いいね!」、コメント、共有、転送など、さまざまな種類のタスクが表示されます。各タスクには対応する報酬と要件があり、通常、タスクを完了すると、一定量の金貨または経験値を受け取ります。

以前に書きましたが、今日は、深層学習テクノロジーが複雑な環境におけるビジョンベースの SLAM (同時ローカリゼーションとマッピング) のパフォーマンスをどのように向上させることができるかについて説明します。ここでは、深部特徴抽出と深度マッチング手法を組み合わせることで、低照度条件、動的照明、テクスチャの弱い領域、激しいセックスなどの困難なシナリオでの適応を改善するように設計された多用途のハイブリッド ビジュアル SLAM システムを紹介します。当社のシステムは、拡張単眼、ステレオ、単眼慣性、ステレオ慣性構成を含む複数のモードをサポートしています。さらに、他の研究にインスピレーションを与えるために、ビジュアル SLAM と深層学習手法を組み合わせる方法も分析します。公開データセットと自己サンプリングデータに関する広範な実験を通じて、測位精度と追跡堅牢性の点で SL-SLAM の優位性を実証しました。

1 はじめに Neural Radiation Fields (NeRF) は、深層学習とコンピューター ビジョンの分野におけるかなり新しいパラダイムです。この技術は、ECCV2020 の論文「NeRF: Representing Scenes as Neural Radiation Fields for View Synthesis」(最優秀論文賞を受賞) で紹介され、それ以来非常に人気となり、現在までに 800 件近く引用されています [1]。このアプローチは、機械学習による 3D データの従来の処理方法に大きな変化をもたらします。神経放射線場のシーン表現と微分可能なレンダリング プロセス: カメラ光線に沿って 5D 座標 (位置と視線方向) をサンプリングして画像を合成し、これらの位置を MLP に入力して色と体積密度を生成し、体積レンダリング技術を使用してこれらの値を合成します。 ; レンダリング関数は微分可能であるため、渡すことができます。

タスクの普遍性を達成することは、基本的な深層学習モデルの研究における中心的な課題であり、最近の大規模モデルの方向性における主な焦点の 1 つでもあります。しかし、時系列の分野では、きめ細かいモデリングが必要な予測タスクや、高度な意味情報の抽出が必要な分類タスクなど、分析タスクの種類は多岐にわたります。さまざまなタイミング解析タスクを効率的に完了するための統合された深い基本モデルを構築する方法はまだ確立されていません。この目的を達成するために、清華大学ソフトウェア学部のチームは、タイミング変更モデリングの基本的な問題に関する研究を実施し、タスク汎用タイミング基本モデルである TimesNet を提案し、この論文は ICLR 2023 に受理されました。著者リスト: Wu Haixu*、Hu Tengge*、Liu Yong*、Zhou Hang、Wang Jianmin、Long Mingsheng リンク: https://ope
