


Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen
In den letzten zehn Jahren war ImageNet im Grunde das „Barometer“ im Bereich Computer Vision. Wenn sich die Genauigkeitsrate verbessert hat, wissen Sie, ob eine neue Technologie auf den Markt kommt.
„Brushing the List“ war schon immer die treibende Kraft für Modellinnovationen und hat die Top-1-Genauigkeit des Modells auf über 90 % gesteigert, was höher ist als die des Menschen.
Aber ist der ImageNet-Datensatz wirklich so nützlich, wie wir denken?
Viele Artikel haben ImageNet in Frage gestellt, beispielsweise hinsichtlich der Datenabdeckung, Verzerrungsproblemen, der Vollständigkeit der Etiketten usw.
Das Wichtigste ist, ist die 90-prozentige Genauigkeit des Modells wirklich korrekt?
Kürzlich haben Forscher des Google Brain-Teams und der University of California, Berkeley, die Vorhersageergebnisse mehrerer Sota-Modelle erneut untersucht und festgestellt, dass die tatsächliche Genauigkeit der Modelle möglicherweise unterschätzt wurde!
Link zum Papier: https://arxiv.org/pdf/2205.04596.pdf
Die Forscher gewannen Einblicke in die lange Geschichte der Benchmark-Datensätze, indem sie jeden Fehler einiger der Top-Tail-Modelle manuell überprüften und klassifizierten Fehler.
Der Schwerpunkt liegt auf der Multi-Label-Teilmengenbewertung von ImageNet. Das beste Modell konnte eine Top-1-Genauigkeit von 97 % erreichen.
Die Analyse der Studie ergab, dass fast die Hälfte der sogenannten Vorhersagefehler überhaupt keine Fehler waren und auch neue Mehrfachbezeichnungen in den Bildern gefunden wurden, was bedeutet, dass, wenn kein Mensch die Vorhersagen überprüft hätte Daher kann es sein, dass die Leistung dieser Modelle „unterschätzt“ wird!
Unqualifizierte Crowdsourcing-Datenannotatoren kennzeichnen Daten häufig falsch, was die Authentizität der Modellgenauigkeit stark beeinträchtigt.
Um den ImageNet-Datensatz zu kalibrieren und gute Fortschritte in der Zukunft zu fördern, stellen die Forscher im Artikel eine aktualisierte Version des Multi-Label-Bewertungssatzes bereit und kombinieren 68 Beispiele mit offensichtlichen Fehlern in den Sota-Modellvorhersagen zu neuen Daten Stellen Sie ImageNet-Major ein, um zukünftigen CV-Forschern die Bewältigung dieser schlimmen Fälle zu erleichtern
und die Tilgung „technischer Schulden“
Aus dem Titel des Artikels „Wann wird aus Teig Bagel?“ geht hervor, dass es dem Autor hauptsächlich darum geht über Kennzeichnungsprobleme in ImageNet Dies ist auch ein Problem, das aus der Geschichte übrig geblieben ist.
Das Bild unten ist ein sehr typisches Beispiel für die Mehrdeutigkeit der Bezeichnung. Die Bezeichnung im Bild ist „Teig“ und das Vorhersageergebnis des Modells ist „Bagel“.
Theoretisch hat dieses Modell keinen Vorhersagefehler, da der Teig backt und dabei ist, ein Bagel zu werden, es ist also sowohl Teig als auch Bagel.
Man erkennt, dass das Modell tatsächlich vorhersagen konnte, dass aus diesem Teig ein Bagel „wird“, diese Punktzahl jedoch in puncto Genauigkeit nicht erreicht hat.
Tatsächlich sind bei Verwendung der Klassifizierungsaufgabe des Standard-ImageNet-Datensatzes als Bewertungskriterium Probleme wie das Fehlen mehrerer Beschriftungen, Beschriftungsrauschen und nicht spezifizierte Kategorien unvermeidlich.
Aus Sicht der Crowdsourcing-Annotatoren, die für die Identifizierung solcher Objekte verantwortlich sind, handelt es sich um ein semantisches und sogar philosophisches Problem, das nur durch Mehrfachbeschriftung gelöst werden kann. Daher wird es hauptsächlich im abgeleiteten Datensatz von ImageNet verbessert der Kennzeichnung.
Es sind 16 Jahre seit der Gründung von ImageNet vergangen. Die damaligen Annotatoren und Modellentwickler verfügten sicherlich nicht über ein so umfassendes Datenverständnis wie heute, und ImageNet war ein frühes, relativ gut annotiertes Datensystem mit großer Kapazität festgelegt, so dass sich ImageNet natürlich zum Standard für Lebenslauf-Rankings etabliert hat.
Aber das Budget für die Kennzeichnung von Daten ist offensichtlich nicht so groß wie das für die Entwicklung von Modellen, sodass die Verbesserung des Kennzeichnungsproblems zu einer Art technischer Schuld geworden ist.
Um die verbleibenden Fehler in ImageNet herauszufinden, verwendeten die Forscher ein Standard-ViT-3B-Modell mit 3 Milliarden Parametern (das eine Genauigkeit von 89,5 % erreichen kann), mit JFT-3B als vorab trainiertem Modell und auf ImageNet- Fine- Die Abstimmung erfolgte auf 1K.
Mit dem ImageNet2012_multilabel-Datensatz als Testsatz erreichte ViT-3B zunächst eine Genauigkeit von 96,3 %, wobei das Modell offensichtlich 676 Bilder falsch vorhersagte, und führte dann eine eingehende Untersuchung dieser Beispiele durch.
Bei der Neukennzeichnung der Daten hat sich der Autor nicht für Crowdsourcing entschieden, sondern ein Team aus 5 Gutachtern zusammengestellt, um die Kennzeichnung durchzuführen, da diese Art von Kennzeichnungsfehlern für Laien schwer zu erkennen sind.
In Bild (a) schreiben normale Kommentatoren beispielsweise möglicherweise nur „Tisch“, tatsächlich sind jedoch viele andere Objekte auf dem Bild zu sehen, z. B. Bildschirme, Monitore, Tassen usw.
Das Motiv auf Bild (b) sind zwei Personen, aber die Beschriftung ist Lattenzaun (Zaun), was offensichtlich unvollkommen ist. Zu den möglichen Beschriftungen gehören Fliege, Uniform usw.
Bild (c) ist ebenfalls ein offensichtliches Beispiel. Wenn nur „Afrikanischer Elefant“ markiert ist, kann das Elfenbein ignoriert werden.
Bild (d) trägt die Bezeichnung „Seeufer“, aber es ist eigentlich nichts Falsches daran, es „Meeresufer“ zu nennen.
Um die Effizienz der Annotation zu steigern, haben die Forscher außerdem ein spezielles Tool entwickelt, das gleichzeitig die vom Modell vorhergesagten Kategorien, Vorhersagewerte, Beschriftungen und Bilder anzeigen kann.
In einigen Fällen kann es zwischen den Expertengruppen noch zu Streitigkeiten über die Kennzeichnung kommen. Zur Unterstützung der Kennzeichnung werden die Bilder zu diesem Zeitpunkt in die Google-Suche eingestellt.
In einem Beispiel umfassen die Vorhersageergebnisse des Modells beispielsweise Taxis, aber auf dem Bild ist außer „ein bisschen gelb“ keine Taximarke zu sehen.
Die Anmerkung zu diesem Bild basierte hauptsächlich auf der Google-Bildersuche und ergab, dass der Hintergrund des Bildes eine ikonische Brücke ist. Dann lokalisierten die Forscher die Stadt, in der sich das Bild befindet, und nachdem sie Taxibilder in der Stadt abgerufen hatten, erkannten sie sie Dieses Bild zeigt ein Taxi und kein normales Auto. Und auch ein Vergleich des Kennzeichendesigns bestätigte, dass die Vorhersage des Modells richtig war.
Nach einer vorläufigen Überprüfung der in mehreren Phasen der Forschung gefundenen Fehler teilten die Autoren sie zunächst nach ihrem Schweregrad in zwei Kategorien ein:
1 Hauptsächlich: Menschen sind in der Lage, die Bedeutung der Etiketten und des Modells zu verstehen Die Vorhersage hat nichts mit der Beschriftung zu tun;
2. Geringfügiger Fehler (Minor): Die Beschriftung kann aufgrund von Vorhersagefehlern falsch oder unvollständig sein. Korrekturen erfordern eine fachmännische Prüfung der Daten.
Für die 155 Hauptfehler des ViT-3B-Modells fanden die Forscher drei weitere Modelle, die sie gemeinsam vorhersagen konnten, um die Vielfalt der Vorhersageergebnisse zu erhöhen.
Es gibt 68 Hauptfehler, die alle vier Modelle nicht vorhersagen konnten. Anschließend wurden die Vorhersagen aller Modelle für diese Beispiele analysiert und überprüft, dass keiner von ihnen für das neue Multi-Label korrekt war, d. h. die Vorhersageergebnisse jedes Modells waren in der Tat schwerwiegende Fehler.
Diese 68 Beispiele weisen mehrere gemeinsame Merkmale auf. Das erste ist, dass die auf unterschiedliche Weise trainierten Sota-Modelle bei dieser Teilmenge Fehler gemacht haben und Expertengutachter auch glauben, dass die Vorhersageergebnisse völlig irrelevant sind.
Der Datensatz von 68 Bildern ist auch klein genug, um die manuelle Auswertung durch nachfolgende Forscher zu erleichtern. Wenn diese 68 Beispiele in Zukunft erobert werden, kann das CV-Modell neue Durchbrüche erzielen.
Durch die Analyse der Daten haben die Forscher Vorhersagefehler in vier Typen unterteilt:
1 Feinkörnige Fehler, bei denen die vorhergesagten Kategorien den tatsächlichen Bezeichnungen ähneln, aber nicht genau gleich sind; -Vokabularfehler (OOV), bei denen das Modell eine Klasse identifiziert, deren Kategorie für das Objekt in ImageNet nicht vorhanden ist; falsche Korrelation, bei der die vorhergesagte Bezeichnung aus dem Kontext des Bildes gelesen wird; 4. Nicht-Prototyp, wobei das Objekt im Etikett dem vorhergesagten Etikett ähnelt, aber nicht genau dasselbe ist.
Nach der Überprüfung der ursprünglichen 676 Fehler stellten die Forscher fest, dass 298 davon korrekt sein sollten, oder es wurde festgestellt, dass die ursprüngliche Bezeichnung falsch oder problematisch war.2. Modelle mit höherer Genauigkeit zeigen keine klare Korrelation zwischen Kategorien und Fehlerschwere.
3 menschliche Leistung;
4. Verrauschte Trainingsdaten und nicht spezifizierte Kategorien können ein Faktor sein, der die effektive Messung von Bildklassifizierungsverbesserungen einschränkt.
Vielleicht muss das Problem der Bildkennzeichnung noch darauf warten, dass die Technologie zur Verarbeitung natürlicher Sprache gelöst wird?
Das obige ist der detaillierte Inhalt vonDie Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.
