Eine kleine Handarbeitswerkstatt ist letztendlich nicht mit dem Fließband der Fabrik zu vergleichen.
Wenn die aktuelle generative KI ein Kind ist, das kräftig wächst, dann sind die kontinuierlichen Daten die Nahrung, die sein Wachstum fördert.
Datenannotation ist der Prozess der Herstellung dieses „Lebensmittels“
Allerdings ist dieser Prozess wirklich mühsam und ermüdend.
Der „Annotator“, der Anmerkungen durchführt, muss nicht nur wiederholt verschiedene Objekte, Farben, Formen usw. im Bild identifizieren, sondern manchmal sogar die Daten bereinigen und vorverarbeiten.
Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz werden die Grenzen der manuellen Datenanmerkung immer deutlicher. Manuelle Datenanmerkungen kosten nicht nur Zeit und Mühe, sondern manchmal ist es auch schwierig, die Qualität sicherzustellen
Um diese Probleme zu lösen, hat Google kürzlich eine Methode namens AI Feedback Reinforcement Learning (RLAIF) vorgeschlagen, bei der große Modelle verwendet werden, um Menschen für die Präferenzanmerkung zu ersetzen.
Forschungsergebnisse zeigen, dass RLAIF vergleichbare Verbesserungen wie Reinforcement Learning with Human Feedback (RLHF) erzielen kann, ohne auf menschliche Anmerkungen angewiesen zu sein, und die Erfolgsquote bei beiden beträgt 50 %. Darüber hinaus ergab die Studie, dass sowohl RLAIF als auch RLHF der Basisstrategie des Supervised Fine-Tuning (SFT) überlegen sind
Diese Ergebnisse zeigen, dass RLAIF nicht auf manuelle Annotation angewiesen ist und eine praktikable Alternative zu RLHF darstellt.
Wenn diese Technologie in Zukunft wirklich umfassend gefördert und populär gemacht wird, werden dann viele Unternehmen, die bei der Datenanmerkung auf manuelle „Pulling Boxes“ angewiesen sind, in eine verzweifelte Situation geraten?
01 Aktueller Status der Datenanmerkung
Wenn wir den aktuellen Stand der inländischen Annotationsbranche einfach zusammenfassen wollen, ist das so: Die Arbeitsbelastung ist groß, aber die Effizienz ist nicht sehr hoch, und es ist ein undankbarer Zustand.
Markierte Unternehmen werden im KI-Bereich als Datenfabriken bezeichnet und konzentrieren sich normalerweise auf Gebiete mit reichen Humanressourcen wie Südostasien, Afrika oder Chinas Henan, Shanxi und Shandong.
Um die Kosten zu senken, werden die Chefs des Etikettierungsunternehmens einen Raum im Landkreis anmieten, um Computerausrüstung unterzubringen. Sobald eine Bestellung vorliegt, werden in der Nähe Teilzeitkräfte eingestellt, die diese bearbeiten. Wenn keine Bestellungen vorliegen, werden sie aufgelöst und eine Pause eingelegt
Vereinfacht ausgedrückt ähnelt diese Art von Arbeit ein wenig den temporären Dekorationsarbeitern am Straßenrand.
Am Arbeitsplatz übergibt das System dem „Annotator“ nach dem Zufallsprinzip einen Datensatz, der in der Regel mehrere Fragen und mehrere Antworten umfasst.
Danach muss der „Annotator“ zunächst markieren, zu welchem Typ die Frage gehört, und dann die Antworten bewerten und sortieren.
Wenn früher über die Kluft zwischen inländischen Großmodellen und fortgeschrittenen Großmodellen wie GPT-4 gesprochen wurde, fassten sie die Gründe für die geringe Qualität inländischer Daten zusammen.
Warum ist die Datenqualität nicht hoch? Ein Teil des Grundes liegt in der „Pipeline“ der Datenannotation
Derzeit gibt es zwei Arten von Datenquellen für chinesische Großmodelle: eine sind Open-Source-Datensätze, die andere sind chinesische Internetdaten, die durch Crawler gecrawlt werden.
Einer der Hauptgründe, warum die Leistung chinesischer Großmodelle nicht gut genug ist, ist die Qualität der Internetdaten. Profis nutzen beispielsweise Baidu bei der Informationssuche im Allgemeinen nicht.
Daher ist es bei eher beruflichen und vertikalen Datenproblemen wie medizinischer Versorgung, Finanzen usw. notwendig, mit einem professionellen Team zusammenzuarbeiten.
Aber zu diesem Zeitpunkt tritt das Problem erneut auf: Für professionelle Teams ist nicht nur die Amortisationszeit für Daten lang, sondern es ist auch wahrscheinlich, dass First Mover Verluste erleiden.
Zum Beispiel hat ein bestimmtes Annotationsteam viel Geld und Zeit ausgegeben, um viele Daten zu erstellen, während andere sie möglicherweise einfach verpacken und für einen kleinen Geldbetrag kaufen.
Angesichts dieses „Trittbrettfahrer-Dilemmas“ sind viele große inländische Modelle in eine seltsame Situation geraten, in der zwar viele Daten vorhanden sind, deren Qualität jedoch nicht hoch ist
Wie lösen in diesem Fall einige der führenden ausländischen KI-Unternehmen wie OpenAI dieses Problem?
OpenAI hat den Einsatz billiger und intensiver Arbeitskräfte nicht aufgegeben, um die Kosten bei der Datenannotation zu senken
Zum Beispiel wurde zuvor bekannt, dass das Unternehmen eine große Anzahl kenianischer Arbeiter eingestellt hatte, um giftige Informationen zu einem Preis von 2 US-Dollar pro Stunde zu kennzeichnen.
Der wichtige Unterschied besteht jedoch darin, wie die Probleme der Datenqualität und Annotationseffizienz gelöst werden können
Der größte Unterschied zwischen OpenAI und inländischen Unternehmen besteht in dieser Hinsicht insbesondere darin, wie die Auswirkungen der „Subjektivität“ und „Instabilität“ der manuellen Annotation verringert werden können.
02 Der Ansatz von OpenAI Beim Umschreiben des Inhalts muss die Sprache ins Chinesische umgeschrieben werden und der Originalsatz muss nicht erscheinen
Um die „Subjektivität“ und „Instabilität“ solcher menschlichen Annotatoren zu verringern, verfolgt OpenAI grob zwei Hauptstrategien:
1. Kombination aus künstlichem Feedback und verstärkendem Lernen
Beim Umschreiben muss der Originalinhalt ins Chinesische konvertiert werden. So sieht es nach dem Umschreiben aus: Lassen Sie uns zunächst über die Kennzeichnung sprechen. Der größte Unterschied zwischen dem künstlichen Feedback von OpenAI und dem heimischen Feedback besteht darin, dass es hauptsächlich das Verhalten des intelligenten Systems sortiert oder bewertet, anstatt seine Ausgabe zu modifizieren oder zu kennzeichnen
Das Verhalten eines intelligenten Systems bezieht sich auf eine Reihe von Aktionen oder Entscheidungen, die ein intelligentes System in einer komplexen Umgebung auf der Grundlage seiner eigenen Ziele und Strategien trifft
Zum Beispiel Spiele spielen, Roboter steuern, mit Menschen sprechen usw.
Der Output eines intelligenten Systems bezieht sich auf die Generierung eines Ergebnisses oder einer Antwort basierend auf Eingabedaten in einer einfachen Aufgabe, wie zum Beispiel dem Schreiben eines Artikels oder dem Zeichnen eines Gemäldes.
Generell lässt sich das Verhalten intelligenter Systeme oft nur schwer nach „richtig“ oder „falsch“ beurteilen, sondern muss eher nach Präferenz oder Zufriedenheit beurteilt werden
Diese Art von Bewertungssystem, das auf „Präferenz“ oder „Zufriedenheit“ basiert, erfordert keine Änderung oder Annotation spezifischer Inhalte, wodurch der Einfluss menschlicher Subjektivität, Wissensstand und anderer Faktoren auf die Qualität und Genauigkeit der Datenannotation verringert wird
Es ist wahr, dass inländische Unternehmen bei der Kennzeichnung auch Systeme verwenden werden, die dem „Sortieren“ und „Scoring“ ähneln. Aufgrund des Fehlens eines „Belohnungsmodells“ wie OpenAI als Belohnungsfunktion zur Optimierung der Strategie des intelligenten Systems. Eine solche „Sortierung“ und „Bewertung“ ist immer noch im Wesentlichen eine Methode zur Änderung oder Kennzeichnung der Ausgabe.
2. Diversifizierte und groß angelegte Datenquellenkanäle
Die Hauptquellen für die Datenannotation in China sind externe Annotationsunternehmen oder selbst zusammengestellte Teams von Technologieunternehmen. Diese Teams bestehen größtenteils aus Studenten und verfügen nicht über ausreichende Professionalität und Erfahrung, um qualitativ hochwertiges und effizientes Feedback zu geben.
Im Gegensatz dazu wird das menschliche Feedback von OpenAI über mehrere Kanäle und Teams eingeholt
OpenAI kooperiert mit mehreren Datenunternehmen und -institutionen wie Scale AI, Appen, Lionbridge AI usw. und nutzt nicht nur Open-Source-Datensätze und Internet-Crawler zur Datenbeschaffung, sondern engagiert sich auch für die Beschaffung vielfältigerer und qualitativ hochwertigerer Daten
Die Kennzeichnungsmethoden dieser Datenunternehmen und -institutionen sind „automatisierter“ und „intelligenter“ als ihre inländischen Pendants
Zum Beispiel nutzt Scale AI eine Technologie namens Snorkel, eine Datenkennzeichnungsmethode, die auf schwach überwachtem Lernen basiert und hochwertige Kennzeichnungen aus mehreren ungenauen Datenquellen generieren kann.
Gleichzeitig kann Snorkel auch eine Vielzahl von Signalen wie Regeln, Modelle und Wissensdatenbanken verwenden, um Daten Beschriftungen hinzuzufügen, ohne dass jeder Datenpunkt manuell direkt beschriftet werden muss. Dadurch können Kosten und Zeit für manuelle Anmerkungen erheblich reduziert werden.
Da die Kosten für die Datenannotation gesenkt und der Zyklus verkürzt werden, können diese Datenunternehmen mit Wettbewerbsvorteilen hochwertige, schwierige und hochschwellige Unterteilungen wie autonomes Fahren, große Sprachmodelle, synthetische Daten usw. kontinuierlich auswählen Verbessern Sie die eigene Kernwettbewerbsfähigkeit und differenzierte Vorteile
Auf diese Weise wurde auch das Trittbrettfahrer-Dilemma „First Mover werden leiden“ durch starke technische und branchenspezifische Barrieren beseitigt.
Vergleich zwischen Standardisierung und kleinen Werkstätten
Es ist ersichtlich, dass die KI-Technologie zur automatischen Etikettierung nur diejenigen Etikettierungsunternehmen wirklich eliminieren wird, die noch eine rein manuelle Etikettierung verwenden.
Obwohl die Datenannotation nach einer „arbeitsintensiven“ Branche klingt, werden Sie, sobald Sie sich mit den Details befassen, feststellen, dass die Suche nach qualitativ hochwertigen Daten keine leichte Aufgabe ist.
Vertreten durch Scale AI, das Einhorn der Datenannotation im Ausland, nutzt Scale AI nicht nur billige Arbeitskräfte aus Afrika und anderen Ländern, sondern rekrutiert auch Dutzende von Doktoranden, die sich mit professionellen Daten in verschiedenen Branchen befassen.
Der größte Wert, den Scale AI großen Modellunternehmen wie OpenAI bietet, ist die Qualität der Datenannotation
Um die Datenqualität bestmöglich zu gewährleisten, ist neben dem bereits erwähnten Einsatz von KI-gestützter Annotation Eine weitere große Innovation von Scale AI eine einheitliche Datenplattform.
Diese Plattformen umfassen Scale Audit, Scale Analytics, ScaleData Quality usw. Über diese Plattformen können Kunden verschiedene Indikatoren im Annotationsprozess überwachen und analysieren, die Annotationsdaten überprüfen und optimieren sowie die Genauigkeit, Konsistenz und Vollständigkeit der Annotation bewerten.
Man kann sagen, dass solche standardisierten und einheitlichen Werkzeuge und Prozesse zu einem Schlüsselfaktor bei der Unterscheidung von „Fließbandfabriken“ und „Handwerkstätten“ in Etikettierunternehmen geworden sind.
In diesem Zusammenhang verwenden die meisten inländischen Annotationsunternehmen immer noch die „manuelle Überprüfung“, um die Qualität der Datenannotation zu überprüfen. Nur wenige Giganten wie Baidu haben fortschrittlichere Verwaltungs- und Bewertungstools wie die intelligente Datendienstplattform EasyData eingeführt.
Wenn es keine speziellen Tools zur Überwachung und Analyse von Annotationsergebnissen und -indikatoren gibt, kann die Datenqualitätskontrolle im Hinblick auf die Überprüfung wichtiger Daten nur auf manueller Erfahrung basieren. Diese Methode kann immer noch nur ein Workshop-ähnliches Niveau erreichen
Daher beginnen immer mehr chinesische Unternehmen wie Baidu, My Neighbor Totoro Data usw., maschinelles Lernen und Technologien der künstlichen Intelligenz zu nutzen, um die Effizienz und Qualität der Datenanmerkung zu verbessern und ein Modell der Mensch-Maschine-Zusammenarbeit zu realisieren
Aus dieser Perspektive bedeutet das Aufkommen der Etikettierung mit künstlicher Intelligenz nicht das Ende inländischer Etikettierungsunternehmen, sondern das Ende der traditionellen ineffizienten, billigen und arbeitsintensiven Etikettierungsmethoden, denen es an technischem Inhalt mangelt
Das obige ist der detaillierte Inhalt vonWie viele KI-Kennzeichnungsunternehmen wird Googles „großer Schachzug' töten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!