Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen-KI-php.cn

Heim

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 11:46 PM

谷歌模型 cv

In den letzten zehn Jahren war ImageNet im Grunde das „Barometer“ im Bereich Computer Vision. Wenn sich die Genauigkeitsrate verbessert hat, wissen Sie, ob eine neue Technologie auf den Markt kommt.

„Brushing the List“ war schon immer die treibende Kraft für Modellinnovationen und hat die Top-1-Genauigkeit des Modells auf über 90 % gesteigert, was höher ist als die des Menschen.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Aber ist der ImageNet-Datensatz wirklich so nützlich, wie wir denken?

Viele Artikel haben ImageNet in Frage gestellt, beispielsweise hinsichtlich der Datenabdeckung, Verzerrungsproblemen, der Vollständigkeit der Etiketten usw.

Das Wichtigste ist, ist die 90-prozentige Genauigkeit des Modells wirklich korrekt?

Kürzlich haben Forscher des Google Brain-Teams und der University of California, Berkeley, die Vorhersageergebnisse mehrerer Sota-Modelle erneut untersucht und festgestellt, dass die tatsächliche Genauigkeit der Modelle möglicherweise unterschätzt wurde!

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Link zum Papier: https://arxiv.org/pdf/2205.04596.pdf

Die Forscher gewannen Einblicke in die lange Geschichte der Benchmark-Datensätze, indem sie jeden Fehler einiger der Top-Tail-Modelle manuell überprüften und klassifizierten Fehler.

Der Schwerpunkt liegt auf der Multi-Label-Teilmengenbewertung von ImageNet. Das beste Modell konnte eine Top-1-Genauigkeit von 97 % erreichen.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Die Analyse der Studie ergab, dass fast die Hälfte der sogenannten Vorhersagefehler überhaupt keine Fehler waren und auch neue Mehrfachbezeichnungen in den Bildern gefunden wurden, was bedeutet, dass, wenn kein Mensch die Vorhersagen überprüft hätte Daher kann es sein, dass die Leistung dieser Modelle „unterschätzt“ wird!

Unqualifizierte Crowdsourcing-Datenannotatoren kennzeichnen Daten häufig falsch, was die Authentizität der Modellgenauigkeit stark beeinträchtigt.

Um den ImageNet-Datensatz zu kalibrieren und gute Fortschritte in der Zukunft zu fördern, stellen die Forscher im Artikel eine aktualisierte Version des Multi-Label-Bewertungssatzes bereit und kombinieren 68 Beispiele mit offensichtlichen Fehlern in den Sota-Modellvorhersagen zu neuen Daten Stellen Sie ImageNet-Major ein, um zukünftigen CV-Forschern die Bewältigung dieser schlimmen Fälle zu erleichtern

und die Tilgung „technischer Schulden“

Aus dem Titel des Artikels „Wann wird aus Teig Bagel?“ geht hervor, dass es dem Autor hauptsächlich darum geht über Kennzeichnungsprobleme in ImageNet Dies ist auch ein Problem, das aus der Geschichte übrig geblieben ist.

Das Bild unten ist ein sehr typisches Beispiel für die Mehrdeutigkeit der Bezeichnung. Die Bezeichnung im Bild ist „Teig“ und das Vorhersageergebnis des Modells ist „Bagel“.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Theoretisch hat dieses Modell keinen Vorhersagefehler, da der Teig backt und dabei ist, ein Bagel zu werden, es ist also sowohl Teig als auch Bagel.

Man erkennt, dass das Modell tatsächlich vorhersagen konnte, dass aus diesem Teig ein Bagel „wird“, diese Punktzahl jedoch in puncto Genauigkeit nicht erreicht hat.

Tatsächlich sind bei Verwendung der Klassifizierungsaufgabe des Standard-ImageNet-Datensatzes als Bewertungskriterium Probleme wie das Fehlen mehrerer Beschriftungen, Beschriftungsrauschen und nicht spezifizierte Kategorien unvermeidlich.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Aus Sicht der Crowdsourcing-Annotatoren, die für die Identifizierung solcher Objekte verantwortlich sind, handelt es sich um ein semantisches und sogar philosophisches Problem, das nur durch Mehrfachbeschriftung gelöst werden kann. Daher wird es hauptsächlich im abgeleiteten Datensatz von ImageNet verbessert der Kennzeichnung.

Es sind 16 Jahre seit der Gründung von ImageNet vergangen. Die damaligen Annotatoren und Modellentwickler verfügten sicherlich nicht über ein so umfassendes Datenverständnis wie heute, und ImageNet war ein frühes, relativ gut annotiertes Datensystem mit großer Kapazität festgelegt, so dass sich ImageNet natürlich zum Standard für Lebenslauf-Rankings etabliert hat.

Aber das Budget für die Kennzeichnung von Daten ist offensichtlich nicht so groß wie das für die Entwicklung von Modellen, sodass die Verbesserung des Kennzeichnungsproblems zu einer Art technischer Schuld geworden ist.

Um die verbleibenden Fehler in ImageNet herauszufinden, verwendeten die Forscher ein Standard-ViT-3B-Modell mit 3 Milliarden Parametern (das eine Genauigkeit von 89,5 % erreichen kann), mit JFT-3B als vorab trainiertem Modell und auf ImageNet- Fine- Die Abstimmung erfolgte auf 1K.

Mit dem ImageNet2012_multilabel-Datensatz als Testsatz erreichte ViT-3B zunächst eine Genauigkeit von 96,3 %, wobei das Modell offensichtlich 676 Bilder falsch vorhersagte, und führte dann eine eingehende Untersuchung dieser Beispiele durch.

Bei der Neukennzeichnung der Daten hat sich der Autor nicht für Crowdsourcing entschieden, sondern ein Team aus 5 Gutachtern zusammengestellt, um die Kennzeichnung durchzuführen, da diese Art von Kennzeichnungsfehlern für Laien schwer zu erkennen sind.

In Bild (a) schreiben normale Kommentatoren beispielsweise möglicherweise nur „Tisch“, tatsächlich sind jedoch viele andere Objekte auf dem Bild zu sehen, z. B. Bildschirme, Monitore, Tassen usw.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Das Motiv auf Bild (b) sind zwei Personen, aber die Beschriftung ist Lattenzaun (Zaun), was offensichtlich unvollkommen ist. Zu den möglichen Beschriftungen gehören Fliege, Uniform usw.

Bild (c) ist ebenfalls ein offensichtliches Beispiel. Wenn nur „Afrikanischer Elefant“ markiert ist, kann das Elfenbein ignoriert werden.

Bild (d) trägt die Bezeichnung „Seeufer“, aber es ist eigentlich nichts Falsches daran, es „Meeresufer“ zu nennen.

Um die Effizienz der Annotation zu steigern, haben die Forscher außerdem ein spezielles Tool entwickelt, das gleichzeitig die vom Modell vorhergesagten Kategorien, Vorhersagewerte, Beschriftungen und Bilder anzeigen kann.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

In einigen Fällen kann es zwischen den Expertengruppen noch zu Streitigkeiten über die Kennzeichnung kommen. Zur Unterstützung der Kennzeichnung werden die Bilder zu diesem Zeitpunkt in die Google-Suche eingestellt.

In einem Beispiel umfassen die Vorhersageergebnisse des Modells beispielsweise Taxis, aber auf dem Bild ist außer „ein bisschen gelb“ keine Taximarke zu sehen.

Die Anmerkung zu diesem Bild basierte hauptsächlich auf der Google-Bildersuche und ergab, dass der Hintergrund des Bildes eine ikonische Brücke ist. Dann lokalisierten die Forscher die Stadt, in der sich das Bild befindet, und nachdem sie Taxibilder in der Stadt abgerufen hatten, erkannten sie sie Dieses Bild zeigt ein Taxi und kein normales Auto. Und auch ein Vergleich des Kennzeichendesigns bestätigte, dass die Vorhersage des Modells richtig war.

Nach einer vorläufigen Überprüfung der in mehreren Phasen der Forschung gefundenen Fehler teilten die Autoren sie zunächst nach ihrem Schweregrad in zwei Kategorien ein:

1 Hauptsächlich: Menschen sind in der Lage, die Bedeutung der Etiketten und des Modells zu verstehen Die Vorhersage hat nichts mit der Beschriftung zu tun;

2. Geringfügiger Fehler (Minor): Die Beschriftung kann aufgrund von Vorhersagefehlern falsch oder unvollständig sein. Korrekturen erfordern eine fachmännische Prüfung der Daten.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Für die 155 Hauptfehler des ViT-3B-Modells fanden die Forscher drei weitere Modelle, die sie gemeinsam vorhersagen konnten, um die Vielfalt der Vorhersageergebnisse zu erhöhen.

Es gibt 68 Hauptfehler, die alle vier Modelle nicht vorhersagen konnten. Anschließend wurden die Vorhersagen aller Modelle für diese Beispiele analysiert und überprüft, dass keiner von ihnen für das neue Multi-Label korrekt war, d. h. die Vorhersageergebnisse jedes Modells waren in der Tat schwerwiegende Fehler.

Diese 68 Beispiele weisen mehrere gemeinsame Merkmale auf. Das erste ist, dass die auf unterschiedliche Weise trainierten Sota-Modelle bei dieser Teilmenge Fehler gemacht haben und Expertengutachter auch glauben, dass die Vorhersageergebnisse völlig irrelevant sind.

Der Datensatz von 68 Bildern ist auch klein genug, um die manuelle Auswertung durch nachfolgende Forscher zu erleichtern. Wenn diese 68 Beispiele in Zukunft erobert werden, kann das CV-Modell neue Durchbrüche erzielen.

Durch die Analyse der Daten haben die Forscher Vorhersagefehler in vier Typen unterteilt:

1 Feinkörnige Fehler, bei denen die vorhergesagten Kategorien den tatsächlichen Bezeichnungen ähneln, aber nicht genau gleich sind; -Vokabularfehler (OOV), bei denen das Modell eine Klasse identifiziert, deren Kategorie für das Objekt in ImageNet nicht vorhanden ist; falsche Korrelation, bei der die vorhergesagte Bezeichnung aus dem Kontext des Bildes gelesen wird; 4. Nicht-Prototyp, wobei das Objekt im Etikett dem vorhergesagten Etikett ähnelt, aber nicht genau dasselbe ist.

Nach der Überprüfung der ursprünglichen 676 Fehler stellten die Forscher fest, dass 298 davon korrekt sein sollten, oder es wurde festgestellt, dass die ursprüngliche Bezeichnung falsch oder problematisch war.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen

Generell lassen sich aus den Forschungsergebnissen des Artikels vier Schlussfolgerungen ziehen:

1 Wenn ein groß angelegtes, hochpräzises Modell neue Vorhersagen macht, die andere Modelle nicht haben, dann etwa 50 % sind korrekt.

Die Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen 2. Modelle mit höherer Genauigkeit zeigen keine klare Korrelation zwischen Kategorien und Fehlerschwere.

3 menschliche Leistung;

4. Verrauschte Trainingsdaten und nicht spezifizierte Kategorien können ein Faktor sein, der die effektive Messung von Bildklassifizierungsverbesserungen einschränkt.

Vielleicht muss das Problem der Bildkennzeichnung noch darauf warten, dass die Technologie zur Verarbeitung natürlicher Sprache gelöst wird?

Das obige ist der detaillierte Inhalt vonDie Zukunft des Lebenslaufs liegt auf diesen 68 Bildern? Google Brain wirft einen tiefen Blick auf ImageNet: Alle Topmodels können keine Vorhersagen treffen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vor By DDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vor By DDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

3 Wochen vor By DDD

Ersparnis in R.E.P.O. Erklärt (und speichern Dateien)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassins Creed Shadows - So finden Sie den Schmied und entsperren Sie die Waffen- und Rüstungsanpassung

4 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7569

CakePHP-Tutorial

1386

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

107

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

See all articles