大規模モデルは非常に強力ですが、実際の問題の解決は必ずしも大規模モデルに完全に依存するわけではありません。必ずしも量子力学を使用せずに現実の物理現象を説明するための、あまり正確ではないアナロジー。いくつかの比較的単純な問題の場合は、おそらく統計的分布で十分でしょう。機械学習にはディープラーニングやニューラルネットワークが必要なのは言うまでもありませんが、重要なのは問題の境界を明確にすることです。
では、ML を使用して比較的単純な問題を解決する場合、機械学習モデルのパフォーマンスをどのように評価すればよいでしょうか?産業界や研究生の参考になればと思い、比較的よく使われる10の評価指標を紹介します。
精度は機械学習の分野における基本的な評価指標であり、通常、モデルのパフォーマンスを迅速に理解するために使用されます。精度は、データセット内のインスタンスの総数に対するモデルによって正しく予測されたインスタンス数の比率を単純に計算することで、モデルの精度を測定する直感的な方法を提供します。
写真
ただし、不均衡なデータセットを扱う場合、評価指標としての精度が不十分になる可能性があります。不均衡なデータ セットとは、特定のカテゴリのインスタンス数が他のカテゴリのインスタンス数を大幅に上回っているデータ セットを指します。この場合、モデルはより多くのカテゴリを予測する傾向があり、その結果、誤って高い精度が得られる可能性があります。
さらに、精度からは偽陽性と偽陰性に関する情報は得られません。偽陽性は、モデルが陰性インスタンスを陽性インスタンスとして誤って予測する場合であり、偽陰性は、モデルが陽性インスタンスを陰性インスタンスとして誤って予測する場合です。モデルのパフォーマンスを評価する場合、偽陽性と偽陰性はモデルのパフォーマンスに異なる影響を与えるため、これらを区別することが重要です。
要約すると、精度はシンプルでわかりやすい評価指標ですが、不均衡なデータセットを扱う場合は、精度の結果を解釈する際により注意する必要があります。
精度は重要な評価指標であり、陽性サンプルに対するモデルの予測精度の測定に焦点を当てています。精度とは異なり、精度は、モデルによって正であると予測されたインスタンスのうち、実際に正であるインスタンスの割合を計算します。言い換えれば、精度は、「モデルがインスタンスを正であると予測するとき、この予測が正確である確率はどのくらいですか?」という質問に答えます。高精度モデルとは、インスタンスが正であると予測するときに、このインスタンスが実際に陽性サンプルである可能性が非常に高いです。
写真
医療診断や不正行為検出などの一部のアプリケーションでは、モデルの精度が特に重要です。これらのシナリオでは、偽陽性 (つまり、陰性サンプルを陽性サンプルとして誤って予測すること) の結果が非常に深刻になる可能性があります。例えば、医療診断においては、偽陽性の診断により不必要な治療や検査が行われ、患者に不必要な精神的・身体的ストレスを与える可能性がある。不正検出では、誤検知により、無実のユーザーが不正行為者として誤ってラベル付けされ、ユーザー エクスペリエンスと会社の評判に影響を与える可能性があります。
したがって、これらのアプリケーションでは、モデルの精度が高いことを確認することが重要です。精度を向上させることによってのみ、誤検知のリスクを軽減し、誤検知による悪影響を軽減することができます。
再現率は重要な評価指標であり、すべての実際の陽性サンプルを正確に予測するモデルの能力を測定するために使用されます。具体的には、再現率は、モデルによって真陽性であると予測されたインスタンスの実際の陽性例の総数に対する比率として計算されます。このメトリクスは、「モデルは実際の肯定的な例のうちいくつを正確に予測しましたか?」という質問に答えます。
精度とは異なり、再現率は、実際の肯定的な例を想起するモデルの能力に焦点を当てます。モデルの特定の陽性サンプルに対する予測確率が低い場合でも、そのサンプルが実際に陽性サンプルであり、モデルによって陽性サンプルとして正しく予測されている限り、この予測は再現率の計算に含まれます。 。したがって、再現率では、予測確率が高いサンプルだけでなく、モデルができるだけ多くの陽性サンプルを見つけられるかどうかがより重要になります。
図
一部のアプリケーション シナリオでは、再現率の重要性が特に顕著になります。たとえば、病気の検出において、モデルが実際の病気の患者を見逃した場合、病気の遅延や悪化を引き起こし、患者に重大な結果をもたらす可能性があります。別の例として、顧客の離脱予測において、モデルが離脱する可能性の高い顧客を正確に特定できない場合、企業は維持策を講じる機会を失い、その結果、重要な顧客を失う可能性があります。
したがって、これらのシナリオでは、再現率が重要な指標になります。再現率が高いモデルは、実際の陽性サンプルをより適切に検出できるため、漏れのリスクが軽減され、起こり得る深刻な結果を回避できます。
F1 スコアは、適合率と再現率のバランスをとることを目的とした総合的な評価指標です。これは実際には適合率と再現率の調和平均であり、これら 2 つの指標を 1 つのスコアに組み合わせて、偽陽性と偽陰性の両方を考慮した評価方法を提供します。
図
多くの実際のアプリケーションでは、多くの場合、精度と再現率の間でトレードオフを行う必要があります。精度はモデルの予測の正しさに焦点を当て、再現率はモデルが実際のすべての陽性サンプルを見つけることができるかどうかに焦点を当てます。ただし、一方の指標を強調しすぎると、もう一方の指標のパフォーマンスが損なわれる場合があります。たとえば、再現率を向上させるために、モデルは陽性サンプルの予測を増やすことができますが、これにより偽陽性の数も増えるため、精度が低下する可能性があります。
F1 スコアリングは、この問題を解決するために設計されました。精度と再現率が考慮され、別のメトリクスを最適化するためにあるメトリクスを犠牲にすることがなくなります。精度と再現率の調和平均を計算することにより、F1 スコアは 2 つのバランスをとり、どちらの側にも有利になることなくモデルのパフォーマンスを評価できるようになります。
したがって、F1 スコアは、精度と再現率を考慮したメトリクスが必要で、一方のメトリクスを他方よりも優先したくない場合に非常に便利なツールです。これは、モデルのパフォーマンスを評価するプロセスを簡素化する単一のスコアを提供し、現実世界のアプリケーションでモデルがどのように実行されるかをより深く理解するのに役立ちます。
ROC-AUC は、バイナリ分類問題で広く使用されているパフォーマンス測定方法です。これは、ROC 曲線の下の面積を測定します。ROC 曲線は、さまざまなしきい値での真陽性率 (感度またはリコールとも呼ばれます) と偽陽性率の関係を示します。
図
ROC 曲線は、さまざまなしきい値設定の下でモデルのパフォーマンスを観察する直感的な方法を提供します。しきい値を変更することで、モデルの真陽性率と偽陽性率を調整して、異なる分類結果を取得できます。 ROC 曲線が左上隅に近づくほど、陽性サンプルと陰性サンプルを区別する際のモデルのパフォーマンスが向上します。
AUC (曲線下面積) は、モデルの識別能力を評価するための定量的な指標を提供します。 AUC 値は 0 から 1 の間です。1 に近いほど、モデルの識別能力が強くなります。 AUC スコアが高いということは、モデルが陽性サンプルと陰性サンプルを適切に区別できること、つまり、モデルによる陽性サンプルの予測確率が陰性サンプルの予測確率よりも高いことを意味します。
したがって、ROC-AUC は、クラスを区別するモデルの能力を評価する場合に非常に便利なメトリクスです。他の指標と比較して、ROC-AUC にはいくつかの独自の利点があります。しきい値の選択に影響されず、さまざまなしきい値の下でのモデルのパフォーマンスを包括的に考慮できます。さらに、ROC-AUC はクラスの不均衡問題に対して比較的堅牢であり、正サンプルと負サンプルの数が不均衡な場合でも、意味のある評価結果を与えることができます。
ROC-AUC は非常に価値のあるパフォーマンス指標であり、特にバイナリ分類問題に適しています。さまざまなモデルの ROC-AUC スコアを観察して比較することで、モデルのパフォーマンスをより包括的に理解し、より優れた識別能力を持つモデルを選択できます。
PR-AUC (適合率-再現率曲線下の面積) は ROC-AUC に似たパフォーマンス測定方法ですが、焦点が少し異なります。 PR-AUC は、適合率と再現率の曲線の下の面積を測定します。これは、さまざまなしきい値での適合率と再現率の関係を示します。
写真
ROC-AUC と比較して、PR-AUC は精度と再現率の間のトレードオフにさらに注意を払っています。適合率は、モデルが陽性であると予測したインスタンスのうち、実際に陽性であるインスタンスの割合を測定します。一方、再現率は、実際に陽性であるすべてのインスタンスのうち、モデルが陽性であると正しく予測したインスタンスの割合を測定します。精度と再現率のトレードオフは、不均衡なデータセットの場合、または偽陰性よりも偽陽性の方が懸念される場合に特に重要です。
不均衡なデータセットでは、あるカテゴリのサンプル数が別のカテゴリのサンプル数をはるかに超える可能性があります。この場合、ROC-AUC はクラスの不均衡を直接考慮せず、主に真陽性率と偽陽性率の関係に焦点を当てているため、ROC-AUC はモデルのパフォーマンスを正確に反映していない可能性があります。対照的に、PR-AUC は、精度と再現率の間のトレードオフを通じてモデルのパフォーマンスをより包括的に評価し、不均衡なデータセットに対するモデルの効果をより適切に反映できます。
さらに、PR-AUC は、偽陰性よりも偽陽性が懸念される場合にも、より適切な指標となります。一部のアプリケーション シナリオでは、陰性サンプルを陽性サンプルとして誤って予測する (偽陽性) と、より大きな損失や悪影響が生じる可能性があるためです。たとえば、医療診断において、健康な人を病気の人として誤って診断すると、不必要な治療や不安を引き起こす可能性があります。この場合、誤検知の数を減らすために、モデルの精度が高いことが望ましいと考えられます。
要約すると、PR-AUC は、不均衡なデータセットや誤検知が懸念されるシナリオに適したパフォーマンス測定方法です。これは、モデルの精度と再現率の間のトレードオフをより深く理解し、実際のニーズを満たす適切なモデルを選択するのに役立ちます。
偽陽性率 (FPR) は、実際のすべての陰性サンプルのうち、モデルが誤って陽性と予測したサンプルの割合を測定する重要な指標です。これは特異性の補足的な指標であり、真陰性率 (TNR) に対応します。 FPR は、モデルの誤検知を回避する能力を評価する場合に重要な要素になります。誤検知は不必要な心配やリソースの無駄につながる可能性があるため、実際のアプリケーションにおけるモデルの信頼性を判断するには、モデルの FPR を理解することが重要です。 FPR を減らすことで、モデルの精度と精度を向上させ、陽性サンプルが実際に存在する場合にのみ陽性予測が発行されるようにすることができます。
図
一方、特異性とも呼ばれる真陰性率 (TNR) は、モデルがどの程度正確に識別しているかを示す尺度です。ネガティブサンプルのインデックス。実際の合計陰性に対する、モデルによって真陰性であると予測されたインスタンスの割合を計算します。モデルを評価するとき、多くの場合、モデルが陽性サンプルを識別する能力に焦点を当てますが、同様に重要なのは、陰性サンプルを識別するモデルのパフォーマンスです。高い TNR は、モデルが陰性サンプルを正確に識別できることを意味します。つまり、実際に陰性サンプルであるインスタンスの中で、モデルはより高い割合の陰性サンプルを予測します。これは、誤検知を回避し、モデルの全体的なパフォーマンスを向上させるために非常に重要です。
MCC (マシューズ相関係数) は、二値分類問題で使用される尺度であり、真陽性と真陰性の関係について包括的な考慮を提供します。 、偽陽性と偽陰性が評価されます。他の測定方法と比較した場合、MCC の利点は、-1 から 1 の範囲の単一の値であることです。-1 はモデルの予測が実際の結果と完全に一致しないことを意味し、1 はモデルの予測が完全に一致することを意味します実際の結果です。
写真
さらに重要なのは、MCC はバイナリ分類の品質を測定するバランスの取れた方法を提供することです。バイナリ分類問題では、通常、陽性サンプルと陰性サンプルを識別するモデルの能力に焦点を当てますが、MCC は両方の側面を考慮します。これは、モデルが陽性サンプル (つまり、真陽性) を正確に予測する能力だけでなく、モデルが陰性サンプル (つまり、真陰性) を正確に予測する能力にも焦点を当てています。同時に、MCC はモデルのパフォーマンスをより包括的に評価するために、偽陽性と偽陰性も考慮します。
実際のアプリケーションでは、MCC は不均衡なデータ セットを処理するのに特に適しています。不均衡なデータセットでは、あるカテゴリのサンプル数が別のカテゴリのサンプル数よりもはるかに大きいため、多くの場合、より大きな数を持つカテゴリを予測する方向にモデルが偏ります。ただし、MCC は 4 つの指標 (真陽性、真陰性、偽陽性、偽陰性) をすべてバランスよく考慮できるため、一般に不均衡なデータ セットに対してより正確かつ包括的なパフォーマンス評価を提供できます。
一般に、MCC は強力かつ包括的なバイナリ分類パフォーマンス測定ツールです。考えられるすべての予測結果を考慮するだけでなく、予測と実際の結果の一貫性を測定するための直感的で明確に定義された数値も提供します。バランスのとれたデータセットであっても、アンバランスなデータセットであっても、MCC はモデルのパフォーマンスをより深く理解するのに役立つ便利なメトリクスです。
クロス エントロピー ロスは、特にモデルの出力が確率値である場合に、分類問題で一般的に使用されるパフォーマンス メトリックです。この損失関数は、モデルによって予測された確率分布と実際のラベル分布の間の差異を定量化するために使用されます。
図
分類問題では、通常、モデルの目標は、サンプルが異なるカテゴリに属する確率を予測することです。クロスエントロピー損失は、モデルの予測確率と実際のバイナリ結果の間の一貫性を評価するために使用されます。予測された確率の対数を取得し、それを実際のラベルと比較することで損失値を導き出します。したがって、クロスエントロピー損失は対数損失とも呼ばれます。
クロスエントロピー損失の利点は、確率分布のモデルの予測精度を適切に測定できることです。モデルの予測確率分布が実際のラベル分布と類似している場合、クロスエントロピー損失の値は低くなり、逆に、予測確率分布が実際のラベル分布と大きく異なる場合、クロスエントロピー損失の値は高い。したがって、クロスエントロピー損失値が低いということは、モデルの予測がより正確であること、つまりモデルのキャリブレーション パフォーマンスが高いことを意味します。
実際のアプリケーションでは、通常、より低いクロスエントロピー損失値を追求します。これは、分類問題に対するモデルの予測がより正確で信頼できることを意味するためです。クロスエントロピー損失を最適化することで、モデルのパフォーマンスを向上させ、実際のアプリケーションでの汎化能力を向上させることができます。したがって、クロスエントロピー損失は、分類モデルのパフォーマンスを評価するための重要な指標の 1 つであり、モデルの予測精度や、モデルのパラメーターと構造のさらなる最適化が必要かどうかをさらに理解するのに役立ちます。
コーエンのカッパ係数は、モデルの予測と実際のラベルの間の一貫性を測定するために使用される統計ツールであり、分類タスクの評価に特に適しています。他の測定方法と比較して、モデルの予測と実際のラベルの単純な一致を計算するだけでなく、偶然に発生する可能性のある一致を補正するため、より正確で信頼性の高い評価結果が得られます。
実際のアプリケーションでは、特に複数の評価者が同じサンプル セットの分類に関与する場合、コーエンのカッパ係数は非常に役立ちます。この場合、モデル予測と実際のラベルの一貫性に焦点を当てる必要があるだけでなく、異なる評価者間の一貫性も考慮する必要があります。評価者間に大きなばらつきがあると、モデルの性能の評価結果が評価者の主観に左右され、不正確な評価結果が得られる可能性があるためです。
コーエンのカッパ係数を使用すると、偶然に発生する可能性のあるこの一貫性を補正でき、モデルのパフォーマンスをより正確に評価できるようになります。具体的には、-1 から 1 までの値を計算します。1 は完全な一貫性を表し、-1 は完全な不一貫性を表し、0 はランダムな一貫性を表します。したがって、カッパ値が高いということは、モデルの予測と実際のラベルの間の一致が、偶然に予想される一致を超えていることを意味し、モデルのパフォーマンスが優れていることを示します。
図
コーエンのカッパ係数は、分類タスクの一貫性におけるモデルの予測と実際のラベルの間のギャップをより正確に評価するのに役立ちます。偶然に発生する可能性のある一貫性を修正しながら。より客観的で正確な評価を提供できるため、複数の評価者が関与するシナリオでは特に重要です。
機械学習モデルの評価には多くの指標があります。この記事では主な指標のいくつかを示します:
上記の各インジケーターには独自の特性があり、さまざまな問題シナリオに適しています。実際のアプリケーションでは、モデルのパフォーマンスを包括的に評価するために複数の指標を組み合わせる必要がある場合があります。
以上が機械学習モデルのパフォーマンスを示す 10 の指標の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。