Die Genauigkeitsmetrik ist ein Maß dafür, wie oft das Modell den gesamten Datensatz richtig vorhergesagt hat. Diese Metrik ist jedoch nur dann zuverlässig, wenn der Datensatz klassenausgeglichen ist. Das heißt, es gibt für jede Kategorie im Datensatz die gleiche Anzahl an Stichproben. Allerdings sind reale Datensätze oft stark unausgewogen, sodass Genauigkeitsmetriken nicht mehr möglich sind. Um dieses Problem zu lösen, wurde der F1-Score als umfassendere und vollständigere Bewertungsmetrik für maschinelles Lernen eingeführt. Der F1-Score kombiniert die Präzision und den Rückruf des Modells und kann die Genauigkeit des Modells besser bewerten. Präzision bezieht sich darauf, wie viele der vom Modell als positiv vorhergesagten Stichproben echte Positive sind, während sich Recall darauf bezieht, wie viele echte Positive das Modell korrekt vorhersagen kann. Die Berechnungsformel des F1-Scores lautet: 2 * (Präzisionsrate * Rückrufrate) / (Präzisionsrate + Rückrufrate). Durch die umfassende Berücksichtigung von Präzision und Erinnerung kann der F1-Score die Leistung des Modells genauer bewerten, insbesondere im
F1-Score steht in engem Zusammenhang mit der Verwirrungsmatrix, die zur Bewertung der Genauigkeit verwendet wird des Klassifikators. Durch die Kombination von Präzision und Erinnerung liefert der F1-Score eine Bewertung der Gesamtleistung des Modells.
Präzision misst, wie viele der „positiven“ Vorhersagen eines Modells richtig sind.
Recall misst, wie viele im Datensatz vorhandene positive Proben vom Modell korrekt erkannt werden.
Präzision und Rückruf stellen eine Kompromissbeziehung dar, bei der die Verbesserung einer Metrik auf Kosten der anderen geht. Eine höhere Genauigkeit bedeutet einen strengeren Klassifikator, der die tatsächlichen positiven Proben im Datensatz in Frage stellt und somit die Rückrufrate senkt. Andererseits erfordert ein höherer Rückruf einen gelockerten Klassifikator, der jede Stichprobe, die der positiven Klasse ähnelt, durchlässt, wodurch einige negative Stichproben im Randfall fälschlicherweise als „positive Klasse“ klassifiziert werden und somit die Genauigkeit verringert wird. Im Idealfall möchten wir die Präzision und die Rückrufmetriken maximieren, um einen perfekten Klassifikator zu erhalten.
Der F1-Score kombiniert Präzision und Erinnerung anhand ihres harmonischen Mittelwerts. Die Maximierung des F1-Scores bedeutet gleichzeitige Maximierung von Präzision und Erinnerung.
Um die Berechnung des F1-Scores zu verstehen, müssen Sie zunächst die Verwirrungsmatrix verstehen. Wir haben oben erwähnt, dass der F1-Score anhand von Präzision und Erinnerung definiert wird. Die Formel lautet wie folgt:
Präzision
Der F1-Score wird als harmonisches Mittel der Präzisions- und Recall-Scores berechnet, wie unten gezeigt. Er liegt zwischen 0 und 100 %, wobei ein höherer F1-Score auf eine bessere Klassifikatorqualität hinweist.
Um den F1-Score für einen Datensatz mit mehreren Klassen zu berechnen, wird eine Eins-zu-eins-Technik verwendet, um die einzelnen Scores für jede Klasse im Datensatz zu berechnen. Nehmen Sie das harmonische Mittel der Klassenpräzision und der Erinnerungswerte. Der Netto-F1-Score wird dann mithilfe verschiedener Mittelungstechniken berechnet.
Makro-durchschnittlicher F1-Score
Der mikro-durchschnittliche F1-Score ist ein aussagekräftiger Indikator für die Datenverteilung in mehreren Klassen. Zur Berechnung des Indikators werden „Netto“-TP-, FP- und FN-Werte verwendet.
Net TP bezieht sich auf die Summe der Klassen-TP-Werte des Datensatzes, die durch Zerlegen der Verwirrungsmatrix in eine Eins-gegen-Alle-Matrix entsprechend jeder Klasse berechnet wird.
Stichprobengewichteter F1-Score
Der Fβ-Score ist eine generische Version des F1-Scores. Es berechnet den harmonischen Mittelwert, genau wie der F1-Score, priorisiert jedoch Präzision oder Erinnerung. „β“ stellt den Gewichtskoeffizienten dar, bei dem es sich um einen vom Benutzer festgelegten Hyperparameter handelt, der immer größer als 0 ist.
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung des F1-Score-Indikators für die Bewertung des maschinellen Lernens. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!