データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点-AI-php.cn

賞金が最も高額なコンテストは、米国開拓局が主催する Drivendata の Snow Cast Showdown Contest です。参加者は賞金 50 万ドルを受け取り、西部のさまざまな地域の正確な雪水流量推定値を提供することで、給水管理の改善に貢献することを目的としています。いつものように、Drivendata はこの対戦について詳細な記事を書き、詳細な解決策レポートを掲載しているので、一読の価値があります。

2022 年に最も人気のあるコンテストは、顧客がローンを返済するかどうかを予測することを目的とした Kaggle の American Express Default Prediction コンテストです。 4,000 チーム以上が参加し、賞金 10 万ドルが上位 4 チームに分配されました。今年初めて、ニューラルネットワークと LightGBM モデルのアンサンブルを使用した 1 人チームが初エントリーを獲得しました。

最大の独立系コンテストはスタンフォード大学の AI Audit Challenge で、最高の「モデル、ソリューション、データセット、ツール」に 71,000 ドルの賞金が与えられます。「違法な差別的AI審査システム」について。

財務予測に基づく 3 つのコンテストはすべて Kaggle 上にあります。JPX の東京証券取引所の予測、Ubiquant の市場予測、G-Research の仮想通貨の予測です。

さまざまな方向で比較すると、コンピュータービジョンが最も高い割合を占め、NLP が 2 位にランクされ、逐次的意思決定問題 (強化学習) が増加しています。 Kaggle は、2020 年にシミュレーションコンペティションを導入することで、この人気の高まりに応えました。 Aicrowd は強化学習コンテストも多数主催しています。 2022 年には、これらのインタラクティブイベントのうち 25 件の総額が 30 万ドルを超えました。

NeurIPS 2022 の公式競技会リアルロボットチャレンジでは、参加者は 3 本指ロボットを制御して立方体を目標位置に移動したり、空間内の特定の点に配置したりする方法を学ばなければなりません。そして正しい方向を向いてください。参加者の戦略は毎週物理ロボット上で実行され、結果はリーダーボードで更新されます。この賞は賞金 5,000 ドルと、NeurIPS シンポジウムでの講演という学術的栄誉に与えられます。

プラットフォーム

Kaggle と Tianchi はよく知られていますが、現在、活発なエコシステムを形成する機械学習の競争プラットフォームが多数存在します。

下の図は、2022 年のプラットフォームの比較を示しています。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

いくつか挙げてください。例:

Kaggle は最も確立されたプラットフォームの 1 つで、2017 年に Google に買収され、最大のコミュニティを持ち、最近では 1,000 万人のユーザーを魅了しています。 Kaggle で賞金付きのコンテストを開催すると、非常に費用がかかる場合があります。 Kaggle では、コンテストの主催に加えて、ユーザーがデータセット、ノート、モデルをホストすることもできます。
Codalab は、パリ大学サクレー校によって管理されているオープンソースの競争プラットフォームです。誰でもコンテストに登録、主催、参加できます。推論用に無料の CPU リソースを提供し、競技会の主催者は独自のハードウェアでそれを補うことができます。
Zindi は、アフリカの機関とデータサイエンティストを結び付けることに重点を置いた、非常に活発なコミュニティを持つ小規模なプラットフォームです。 Drivendata は社会的影響力のあるコンテストに重点を置き、NASA やその他の組織向けにコンテストを開発しました。コンテストの後には常に詳細な調査レポートが提出されます。
Aicrowd はスイス連邦工科大学 (EPFL) の研究プロジェクトとしてスタートし、現在では上位 5 つの競争プラットフォームの 1 つとなっています。いくつかの公式 NeurIPS コンテストが開催されます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

学術界

コンテストの賞金のほとんどは、産業界の大規模なプラットフォームで運営されています。しかし、イザベル・ガイヨン氏が今年の NeurIPS 招待講演で論じたように、機械学習コンテストには明らかに学界においてより豊かな歴史があります。

NeurIPS は、世界で最も権威のある学術機械学習カンファレンスの 1 つです。このカンファレンスでは、AlexNet、GAN、Transformer など、過去 10 年間の最も重要な機械学習論文が頻繁に発表されます。そしてGPT-3。

NeurIPS は、2014 年に初めて機械学習におけるデータチャレンジ (CIML) ワークショップを開催し、2017 年からはコンペティションコンポーネントを開催しています。それ以来、競争と賞金総額は増え続け、2022 年 12 月には 40 万ドル近くに達しました。

CVPR、ICPR、IJCAI、ICRA、ECCV、PCIC、AutoML など、他の機械学習カンファレンスでもコンテストが開催されます。

賞金

すべての機械学習コンテストの約半数には、賞金総額が 10,000 ドルを超えています。多くの興味深いコンテストには少額の賞が設けられていることに疑いの余地はなく、このレポートでは賞金や学術的栄誉のあるコンテストのみを対象としています。多くの場合、権威ある学術会議に関連したデータコンテストでは、優勝者に会議に出席するための交通費が支給されます。

一部のトーナメントプラットフォームは他のトーナメントプラットフォームよりも平均して賞金プールが大きい傾向がありますが (プラットフォーム比較表を参照)、多くのプラットフォームは 2022 年の非常に大きなコンテストで少なくとも 1 つの賞金プールを主催しています。賞金総額のトップ 10 コンテストには、DrivenData、Kaggle、CodaLab、AIcrowd で開催されたコンテストが含まれます。

勝利する方法

この調査では、アンケートとコード観察を通じて、勝利アルゴリズムで使用されているテクニックを分析します。

まったく一貫して、コンテストの勝者が選んだ言語は Python でしたが、これは人々にとって予想外の結果ではないかもしれません。 Python を使用するユーザーのうち、約半数は主に Jupyter Notebook を使用し、残りの半数は標準の Python スクリプトを使用します。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

主に R を使用した勝利のソリューションは次のとおりです: Amir Ghazi が Kaggle で勝利し、2022 年のアメリカ男子大学バスケットボールトーナメントの優勝者を予測しましたゲーム。彼は、Kaggle グランドマスターである Darius Barušauskas が作成した 2018 年のコンテストで優勝したソリューションのコードを使用して (明らかにそのままコピーして) これを実行しました。信じられないことに、ダリウスは2022年にもこのレースに出場し、新たなアプローチを用いて593位でフィニッシュした。

受賞者が使用した Python パッケージ

受賞ソリューションで使用されたパッケージを見ると、結果は、すべての受賞者が Python をある程度 PyData スタックを使用していることを示しました。

最も人気のあるソフトウェアパッケージは、コアツールキット、NLP カテゴリ、およびコンピュータービジョンカテゴリの 3 つのカテゴリに分類されます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

その中でも、ディープラーニングフレームワーク PyTorch の成長は安定しており、2021 年から 2022 年にかけての飛躍は非常に明白です。勝利のソリューションであることが 77% から 96% に増加しました。

ディープラーニングを使用した受賞ソリューション 46 件のうち、44 件は主要なフレームワークとして PyTorch を使用し、TensorFlow を使用したのは 2 件だけでした。さらに顕著なのは、TensorFlow を使用して優勝した 2 つのコンテストのうちの 1 つである Kaggle のグレートバリアリーフコンペティションでは、TensorFlow を使用した優勝チームに追加の賞金 50,000 ドルが提供されているということです。 TensorFlow を使用して優勝した別のコンテストでは、高レベルの Keras API が使用されていました。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

pytorch-lightning を使用した勝者が 3 名、fastai を使用した勝者が 1 名でしたが、両方とも上記の PyTorch 上に構築されましたが、大多数の人は PyTorch を直接使用します。

少なくともデータ競争においては、PyTorch が機械学習フレームワークの戦いに勝利したと言えるかもしれません。これは、より広範な機械学習研究の傾向と一致しています。

注目すべきことに、JAX (Google が構築し DeepMind が使用)、PaddlePaddle (Baidu が開発)、MindSpore (ファーウェイが開発）。

コンピュータビジョン

ツールは世界を支配する傾向がありますが、テクノロジーはそうではありません。 CVPR 2022 では、ConvNext アーキテクチャが「2020 年代の ConvNet」として紹介され、最近の Transformer ベースのモデルを上回るパフォーマンスを発揮することが証明されました。 CNN は、少なくとも 2 つのコンペティションで優勝したコンピュータービジョンソリューションで使用されており、全体として、現在に至るまでコンピュータービジョンコンペティションの勝者の間で最も人気のあるニューラルネットワークアーキテクチャであり続けています。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

#コンピュータビジョンは、ImageNet などの公開データセットでの事前トレーニング済みモデルの使用における言語モデリングと非常に似ています。）で訓練されたわかりやすいアーキテクチャ。最も人気のあるリポジトリは Hugging Face Hub で、timm を通じてアクセスでき、数十の異なるコンピュータービジョンモデルの事前トレーニング済みバージョンをロードするのが非常に便利です。

事前トレーニングされたモデルを使用する利点は明らかです。現実世界の画像と人間が生成したテキストにはいくつかの共通の特徴があり、事前トレーニングされたモデルを使用すると、同様の常識的な知識を得ることができます。 to Yu は、より大規模でより一般的なトレーニングデータセットを使用しました。

通常、事前トレーニングされたモデルは、タスク固有のデータ (競技主催者によって提供されるデータなど) に基づいて微調整され、さらにトレーニングされますが、常にそうとは限りません。イメージマッチングチャレンジの優勝者は、微調整をまったく行わずに事前トレーニングされたモデルを使用しました。「このコンテストではトレーニングデータとテストデータの (異なる) 品質のため、提供されたトレーニングを使用して微調整しませんでした。あまり効果的ではないと思いました。」この決断は功を奏しました。

これまでのところ、2022 年の受賞者の中で最も人気のある事前トレーニング済みコンピュータービジョンモデルタイプは EfficientNet で、その名前が示すように、他の多くのモデルよりもリソースの消費が少ないという利点があります。モデル。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

自然言語処理

トランスフォーマーベースのモデルは、2017 年の開始以来、自然言語処理の主流を占めてきました。言語処理 (NLP) の分野。 Transformer は BERT と GPT の「T」であり、ChatGPT の中核でもあります。

したがって、自然言語処理コンテストで優勝したすべてのソリューションの中核に Transformer ベースのモデルがあることは驚くべきことではありません。それらがすべて PyTorch で実装されていることは驚くべきことではありません。これらはすべて、Hugging Face の Transformers ライブラリを使用して読み込まれた事前トレーニング済みモデルを使用し、ほとんどすべてが Microsoft Research の DeBERTa モデル (通常は deberta-v3-large) バージョンを使用していました。

それらの多くは、大量のコンピューティングリソースを必要とします。たとえば、Google AI4Code の勝者は、A100 (80GB) を約 10 日間実行して、最終ソリューション用に単一の deberta-v3-large をトレーニングしました。このアプローチは例外です (単一マスターモデルと固定トレイン/評価分割を使用)。他のすべてのソリューションではアンサンブルモデルが多用され、ほとんどすべてのソリューションで何らかの形式の k 分割相互検証が使用されます。たとえば、Jigsaw Toxic Comments コンテストの優勝者は、15 のモデルの出力の加重平均を使用しました。

Transformer ベースのアンサンブルは、LSTM または LightGBM と組み合わせて使用されることがあります。また、優れたソリューションに効果的に使用された疑似ラベル付けのインスタンスが少なくとも 2 つあります。

XGBoost はかつて Kaggle の代名詞でした。ただし、LightGBM が 2022 年の勝者にとってお気に入りの GBDT ライブラリであることは明らかです。勝者は、CatBoost と XGBoost を合わせた数と同じくらい多くの回数、ソリューションレポートやアンケートで LightGBM について言及し、CatBoost が 2 位となり、XGBoost は驚くべきことに 3 位にランクされました。

コンピューティングとハードウェア

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

##大まかに予想したように、ほとんどの勝者はトレーニングに GPU を使用しました。勾配ブーストツリーのトレーニングパフォーマンスを向上させるもので、ディープニューラルネットワークには実際に必要です。かなりの数の受賞者が、雇用主または大学が提供するクラスター (GPU を含む) にアクセスできます。

やや意外なことに、Google のテンソル処理ユニットである TPU を使用して勝利モデルをトレーニングした例は見つかりませんでした。また、2022 年 5 月から PyTorch でサポートされている Apple の M シリーズチップでトレーニングされた優勝モデルも見つかりませんでした。

Google のクラウドノートブックソリューション Colab は人気があり、無料プランで 1 名、Pro プランで 1 名、Pro でもう 1 名が優勝しました (4 番目の優勝者は確認できません)。 Colab で使用されるパッケージ)。

ローカルのパーソナルハードウェアはクラウドハードウェアよりも人気があり、9 人の受賞者がトレーニングに使用した GPU について言及しましたが、ローカル GPU とクラウド GPU のどちらを使用したかは明らかにしませんでした。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

#最も人気のある GPU は、最新のハイエンド AI アクセラレータカード NVIDIA A100 (ここでは、A100 40GB と A100 80GB です)たとえば、Zindi の Turtle Recall コンテストの優勝者は 8 つの A100 (40GB) GPU を使用し、他の 2 つの優勝者は 4 つの A100 を使用しました。

チーム編成

多くのコンテストでは、1 チームあたり最大 5 人の参加者が許可されており、チームは結果提出期限前の時点で個人またはより小規模なチームで構成できます。チームを「統合」します。締め切り前に一緒に。

一部の競技会では、より大規模なチームが参加できます。たとえば、Waymo のオープンデータチャレンジでは、1 チームあたり最大 10 人が参加できます。

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点 #結論

これは、2022 年の機械学習コンペティションの大まかな概要です。役立つ情報が見つかることを願っています。

2023 年には多くのエキサイティングな新しいコンテストが予定されており、その終了に合わせてさらに詳しい情報を公開できることを楽しみにしています。

以上がデータ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7719

Java チュートリアル

1641

CakePHP チュートリアル

1396

Laravel チュートリアル

1289

PHP チュートリアル

1233

Related knowledge

ddrescue を使用して Linux 上のデータを回復する Mar 20, 2024 pm 01:37 PM

DDREASE は、ハードドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージデバイスなどのファイルデバイスまたはブロックデバイスからデータを回復するためのツールです。あるブロックデバイスから別のブロックデバイスにデータをコピーし、破損したデータブロックを残して正常なデータブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

オープンソース！ゾーイデプスを超えて！ DepthFM: 高速かつ正確な単眼深度推定! Apr 03, 2024 pm 12:04 PM

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Excelのフィルター機能を複数条件で使う方法 Feb 26, 2024 am 10:19 AM

Excel で複数の条件によるフィルタリングを使用する方法を知る必要がある場合は、次のチュートリアルで、データを効果的にフィルタリングおよび並べ替えできるようにするための手順を説明します。 Excel のフィルタリング機能は非常に強力で、大量のデータから必要な情報を抽出するのに役立ちます。設定した条件でデータを絞り込み、条件に合致した部分のみを表示することができ、データ管理を効率化できます。フィルター機能を利用すると、目的のデータを素早く見つけることができ、データの検索や整理の時間を節約できます。この機能は、単純なデータリストに適用できるだけでなく、複数の条件に基づいてフィルタリングすることもできるため、必要な情報をより正確に見つけることができます。全体として、Excel のフィルタリング機能は非常に実用的です。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhoneのセルラーデータインターネット速度が遅い：修正 May 03, 2024 pm 09:01 PM

iPhone のモバイルデータ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラーインターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください修正 2 – データモードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

超知性の生命力が覚醒する！しかし、自己更新 AI の登場により、母親はデータのボトルネックを心配する必要がなくなりました。 Apr 29, 2024 pm 06:55 PM

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニングモデルは「ハンガーゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダルタスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダルモデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

柔軟かつ高速な 5 本の指を備え、人間のタスクを自律的に完了する初のロボットが登場、大型モデルが仮想空間トレーニングをサポート Mar 11, 2024 pm 12:10 PM

今週、OpenAI、Microsoft、Bezos、Nvidiaが投資するロボット企業FigureAIは、7億ドル近くの資金調達を受け、来年中に自立歩行できる人型ロボットを開発する計画であると発表した。そしてテスラのオプティマスプライムには繰り返し良い知らせが届いている。今年が人型ロボットが爆発的に普及する年になることを疑う人はいないだろう。カナダに拠点を置くロボット企業 SanctuaryAI は、最近新しい人型ロボット Phoenix をリリースしました。当局者らは、多くのタスクを人間と同じ速度で自律的に完了できると主張している。人間のスピードでタスクを自律的に完了できる世界初のロボットである Pheonix は、各オブジェクトを優しくつかみ、動かし、左右にエレガントに配置することができます。自律的に物体を識別できる

See all articles

データ競争での勝利の秘密を明らかにする: 200 試合で分析した A100 の利点

コンテストとトレンド

プラットフォーム

学術界

賞金

勝利する方法

受賞者が使用した Python パッケージ

コンピュータ ビジョン

コンピューティングとハードウェア

これは、2022 年の機械学習コンペティションの大まかな概要です。役立つ情報が見つかることを願っています。

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

コンピュータビジョン