ホームページ テクノロジー周辺機器 AI ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

Apr 12, 2023 pm 05:46 PM
ai モデル

以前、ImageNet はラベル エラーの問題で話題になりましたが、この数字を聞いて驚かれるかもしれませんが、問題のあるラベルは少なくとも 100,000 件あります。誤ったラベルに基づいた研究は、覆され、繰り返される必要があるかもしれません。

この観点からすると、データセットの品質管理は依然として非常に重要です。

多くの人は ImageNet データセットをベンチマークとして使用しますが、ImageNet の事前トレーニング済みモデルに基づくと、最終結果はデー​​タの品質によって異なる場合があります。

この記事では、Adansons Company のエンジニア、樋口 健一が、「ImageNet はもう終わりですか?」の記事で述べた ImageNet データ セットを再調査し、間違ったラベル データを削除した後、 -それを評価し、torchvision モデルで公開します。

ImageNet から誤ったデータを削除し、モデルを再評価する

このペーパーでは、ImageNet のラベル付けエラーを次の 3 つのカテゴリに分類します。

(1) ラベル付けが正しくないデータ

(2) 複数のラベルに対応するデータ

(3) どのラベルにも属さないデータ

ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

まとめると、誤ったデータは約 14,000 件以上あり、評価データ数が 50,000 件であることを考えると、誤ったデータの割合が非常に高いことがわかります。 。以下の図は、いくつかの代表的なエラー データを示しています。

ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

方法

モデルを再トレーニングせずに、この研究では、誤ってラベル付けされたデータのみを除外します。つまり、上記上記のタイプの(1) 誤ったデータを評価データから除外し、モデルの精度を再確認するために、(1) ~ (3) の誤ったデータを評価データから除外します。

エラーデータを削除するには、ラベルエラー情報を記述したメタデータファイルが必要です。このメタデータファイルには、(1)~(3)のエラーが含まれる場合、その情報が「correction」属性に記述されます。

ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

この調査では、データセットをメタデータにリンクすることでデータをフィルタリングする、Adansons Base と呼ばれるツールが使用されました。ここでは以下に示すように 10 モデルがテストされました。

ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

#テストに使用した 10 個の画像分類モデル


結果

結果を以下の表に示します (数値は精度 (%)、括弧内の数字はランキングです)


ImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されました

10 個の分類モデルの結果


すべての Eval データがベースラインです。誤ったデータ型 (1) を除くと、精度は平均 3.122 ポイント増加します。すべての誤ったデータ (1) ~ (3) を除くと、精度は平均 11.743 ポイント増加します。


予想通り、誤ったデータを除けば軒並み正解率が向上していますが、きれいなデータに比べて誤ったデータは間違いが発生しやすいのは間違いありません。


誤ったデータを除外せずに評価した場合と、誤ったデータ(1)~(3)を全て除外した場合では、モデルの精度順位が変化しました。


この記事では、全データ50,000件のうち7.34%にあたる3,670件の誤ったデータ(1)が存在しており、削除後は正解率が平均約3.22ポイント向上しました。誤ったデータが除去されるとデータのスケールが変化し、単純な正解率の比較では偏りが生じる可能性があります。


#結論


特に強調されていませんが、評価トレーニングを行う際には、正確にラベル付けされたデータを使用することが重要です。


これまでの研究では、モデル間の精度を比較する際に誤った結論を導き出した可能性があります。したがって、最初にデータを評価する必要がありますが、これは本当にモデルのパフォーマンスの評価に使用できるのでしょうか?


ディープラーニングを使用する多くのモデルは、データを反映することを軽視することが多く、評価データに誤ったデータが含まれている場合でも、モデルのパフォーマンスを通じて精度やその他の評価指標を向上させることに熱心です。正確に。


AIをビジネスに活用する場合など、独自のデータセットを作成する場合、高品質なデータセットを作成することはAIの精度や信頼性の向上に直結します。この論文の実験結果は、データ品質を向上させるだけで精度が約 10 パーセント向上する可能性があることを示しており、AI システムを開発する際にはモデルだけでなくデータセットも改善することの重要性を示しています。

ただし、データセットの品質を確保するのは簡単ではありません。 AI モデルとデータの品質を適切に評価するにはメタデータの量を増やすことが重要ですが、特に非構造化データの場合は管理が面倒になる場合があります。

以上がImageNet ラベル エラーが削除され、モデルのランキングが大幅に変更されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debian Readdirによるファイルソートを実装する方法 Debian Readdirによるファイルソートを実装する方法 Apr 13, 2025 am 09:06 AM

Debian Systemsでは、Readdir関数はディレクトリコンテンツを読み取るために使用されますが、それが戻る順序は事前に定義されていません。ディレクトリ内のファイルを並べ替えるには、最初にすべてのファイルを読み取り、QSORT関数を使用してソートする必要があります。次のコードは、debianシステムにreaddirとqsortを使用してディレクトリファイルを並べ替える方法を示しています。

Debian Apacheログレベルを設定する方法 Debian Apacheログレベルを設定する方法 Apr 13, 2025 am 08:33 AM

この記事では、DebianシステムのApachewebサーバーのロギングレベルを調整する方法について説明します。構成ファイルを変更することにより、Apacheによって記録されたログ情報の冗長レベルを制御できます。方法1:メイン構成ファイルを変更して、構成ファイルを見つけます。Apache2.xの構成ファイルは、通常/etc/apache2/ディレクトリにあります。ファイル名は、インストール方法に応じて、apache2.confまたはhttpd.confである場合があります。構成ファイルの編集:テキストエディターを使用してルートアクセス許可を使用して構成ファイルを開く(nanoなど):sudonano/etc/apache2/apache2.conf

Debian Readdirのパフォーマンスを最適化する方法 Debian Readdirのパフォーマンスを最適化する方法 Apr 13, 2025 am 08:48 AM

Debian Systemsでは、Directoryコンテンツを読み取るためにReadDirシステム呼び出しが使用されます。パフォーマンスが良くない場合は、次の最適化戦略を試してください。ディレクトリファイルの数を簡素化します。大きなディレクトリをできる限り複数の小さなディレクトリに分割し、Readdirコールごとに処理されたアイテムの数を減らします。ディレクトリコンテンツのキャッシュを有効にする:キャッシュメカニズムを構築し、定期的にキャッシュを更新するか、ディレクトリコンテンツが変更されたときに、頻繁な呼び出しをreaddirに削減します。メモリキャッシュ(memcachedやredisなど)またはローカルキャッシュ(ファイルやデータベースなど)を考慮することができます。効率的なデータ構造を採用する:ディレクトリトラバーサルを自分で実装する場合、より効率的なデータ構造(線形検索の代わりにハッシュテーブルなど)を選択してディレクトリ情報を保存およびアクセスする

Debian Mail Serverファイアウォールの構成のヒント Debian Mail Serverファイアウォールの構成のヒント Apr 13, 2025 am 11:42 AM

Debian Mail Serverのファイアウォールの構成は、サーバーのセキュリティを確保するための重要なステップです。以下は、iPtablesやFirewalldの使用を含む、一般的に使用されるファイアウォール構成方法です。 iPtablesを使用してファイアウォールを構成してIPTablesをインストールします(まだインストールされていない場合):sudoapt-getupdatesudoapt-getinstalliptablesview現在のiptablesルール:sudoiptables-l configuration

Debian Mail Server SSL証明書のインストール方法 Debian Mail Server SSL証明書のインストール方法 Apr 13, 2025 am 11:39 AM

Debian Mail ServerにSSL証明書をインストールする手順は次のとおりです。1。最初にOpenSSL Toolkitをインストールすると、OpenSSLツールキットがシステムに既にインストールされていることを確認してください。インストールされていない場合は、次のコマンドを使用してインストールできます。sudoapt-getUpdatesudoapt-getInstalopenssl2。秘密キーと証明書のリクエストを生成次に、OpenSSLを使用して2048ビットRSA秘密キーと証明書リクエスト(CSR)を生成します:Openss

Debian Readdirが他のツールと統合する方法 Debian Readdirが他のツールと統合する方法 Apr 13, 2025 am 09:42 AM

DebianシステムのReadDir関数は、ディレクトリコンテンツの読み取りに使用されるシステムコールであり、Cプログラミングでよく使用されます。この記事では、ReadDirを他のツールと統合して機能を強化する方法について説明します。方法1:C言語プログラムを最初にパイプラインと組み合わせて、cプログラムを作成してreaddir関数を呼び出して結果をinclude#include#include inctargc、char*argv []){dir*dir; structdireant*entry; if(argc!= 2){(argc!= 2){

Debian OpenSSLがどのように中間の攻撃を防ぐか Debian OpenSSLがどのように中間の攻撃を防ぐか Apr 13, 2025 am 10:30 AM

Debian Systemsでは、OpenSSLは暗号化、復号化、証明書管理のための重要なライブラリです。中間の攻撃(MITM)を防ぐために、以下の測定値をとることができます。HTTPSを使用する:すべてのネットワーク要求がHTTPの代わりにHTTPSプロトコルを使用していることを確認してください。 HTTPSは、TLS(Transport Layer Security Protocol)を使用して通信データを暗号化し、送信中にデータが盗まれたり改ざんされたりしないようにします。サーバー証明書の確認:クライアントのサーバー証明書を手動で確認して、信頼できることを確認します。サーバーは、urlsessionのデリゲート方法を介して手動で検証できます

Debian Hadoopログ管理を行う方法 Debian Hadoopログ管理を行う方法 Apr 13, 2025 am 10:45 AM

DebianでHadoopログを管理すると、次の手順とベストプラクティスに従うことができます。ログ集約を有効にするログ集約を有効にします。Yarn.log-Aggregation-set yarn-site.xmlファイルでは、ログ集約を有効にします。ログ保持ポリシーの構成:yarn.log-aggregation.retain-secondsを設定して、172800秒(2日)などのログの保持時間を定義します。ログストレージパスを指定:Yarn.Nを介して

See all articles