Obwohl die Menschen in ganz China Chinesisch sprechen, unterscheiden sich die spezifischen Dialekte an verschiedenen Orten geringfügig. Wenn Sie beispielsweise „Hutong“ sagen, wissen Sie, dass es sich um das alte Peking handelt, aber im Süden heißt es „Nong“ .
Solche subtilen regionalen Unterschiede spiegeln sich in der Aufgabe „Maschinelle Übersetzung“ wider, wodurch die Übersetzungsergebnisse nicht „authentisch“ genug sind. Allerdings berücksichtigen fast alle aktuellen maschinellen Übersetzungssysteme nicht den Einfluss regionaler Sprachen (d. h. Dialekte).
Dieses Phänomen gibt es auch auf der ganzen Welt. Die offizielle Sprache Brasiliens ist beispielsweise Portugiesisch, und es gibt einige regionale Unterschiede zum Portugiesischen in Europa.
Kürzlich hat Google einen brandneuen Datensatz und Bewertungsbenchmark FRMT veröffentlicht, der für die regionalbezogene maschinelle Übersetzung mit wenigen Schüssen verwendet werden kann und hauptsächlich das Problem der Dialektübersetzung löst. Das Papier wurde auf TACL (Transactions of the) veröffentlicht Verein für Computerlinguistik).
Papierlink: https://arxiv.org/pdf/2210.00193.pdf
Open-Source-Link: https://github.com/google-research/google-research/tree/master/frmt
Dieser Datensatz umfasst professionelle Übersetzungen aus dem Englischen in zwei regionale Varianten des Portugiesischen und des Mandarin-Chinesisch. Die Quelldokumente sollen eine detaillierte Analyse der interessierenden Phänomene ermöglichen, einschließlich lexikalisch unterschiedlicher Begriffe und Interferenzbegriffe.
Forscher untersuchten automatische Bewertungsmetriken für FRMT und überprüften deren Korrelation mit der manuellen Bewertung durch Experten unter regionalen Übereinstimmungs- und Nichtübereinstimmungsszenarien.
Abschließend werden für diese Aufgabe einige Basismodelle vorgeschlagen und Forschern Anleitungsvorschläge zum Trainieren, Bewerten und Vergleichen ihrer eigenen Modelle gegeben. Der Datensatz und der Bewertungscode sind Open Source.
Die meisten modernen maschinellen Übersetzungssysteme werden auf Millionen oder Milliarden von Übersetzungsbeispielen trainiert, wobei die Eingabedaten aus englischen Eingabesätzen und den entsprechenden portugiesischen Übersetzungen bestehen.
Allerdings berücksichtigen die meisten verfügbaren Trainingsdaten nicht die regionalen Übersetzungsunterschiede.
Angesichts dieser Datenknappheit positionierten die Forscher FRMT als Maßstab für die Übersetzung mit wenigen Schüssen und missten, wie gut ein maschinelles Übersetzungsmodell eine bestimmte regionale Sprachvariante identifiziert, wenn nicht mehr als 100 gekennzeichnete Beispiele pro Sprachfähigkeit vorliegen.
Maschinelle Übersetzungsmodelle müssen ähnliche Muster in anderen unbeschrifteten Trainingsbeispielen identifizieren, basierend auf den Sprachmustern, die in einer kleinen Anzahl beschrifteter Beispiele (d. h. Beispielen) gezeigt werden. Das Modell muss auf diese Weise verallgemeinert werden, um „idiomatische“ Übersetzungen für Bereiche zu erstellen, die im Modell nicht explizit spezifiziert sind.
Geben Sie zum Beispiel den Satz ein: „Der Bus ist angekommen“ und anhand einiger Beispiele in brasilianischem Portugiesisch sollte das Modell in der Lage sein, „O ônibus chegou“ zu übersetzen; wenn die angegebenen Beispiele in europäischem Portugiesisch vorliegen, ist dies die Übersetzung des Modells Die Ergebnisse sollten lauten: Es wird „O autocarro chegou“.
Die Methode der maschinellen Übersetzung mit wenigen Schüssen ist von großem Forschungswert und kann auf sehr einfache Weise die Unterstützung weiterer Regionalsprachen zu bestehenden Systemen hinzufügen.
Während sich die derzeit von Google veröffentlichte Arbeit auf regionale Varianten zweier Sprachen bezieht, gehen die Forscher davon aus, dass ein guter Ansatz problemlos auf andere Sprachen und regionale Varianten anwendbar sein wird.
Grundsätzlich sind diese Methoden auch auf andere sprachliche Differenzphänomene, wie Etikette und Stil, anwendbar.
Der FRMT-Datensatz enthält einige englische Wikipedia-Artikel, die aus dem Wiki40b-Datensatz abgeleitet sind und von bezahlten professionellen Übersetzern in verschiedene regionale Portugiesische und Chinesische Sprachen übersetzt wurden.
Um die wichtigsten bereichsbezogenen Übersetzungsschwierigkeiten hervorzuheben, verwendeten die Forscher drei Inhaltsbereiche zum Entwerfen des Datensatzes:
Achten Sie hauptsächlich auf die Unterschiede in Wenn Sie beispielsweise einen Satz mit dem Wort „bus“ ins brasilianische bzw. europäische Portugiesisch übersetzen, muss das Modell in der Lage sein, den Unterschied zwischen „ônibus“ und „autocarro“ zu erkennen.
Die Forscher sammelten manuell 20–30 regionalspezifische übersetzte Begriffe auf der Grundlage von Blogs und Bildungswebsites und filterten und überprüften die Übersetzungen auf der Grundlage des Feedbacks von muttersprachlichen Freiwilligen aus jeder Region.
Basierend auf der erhaltenen Liste englischer Begriffe extrahieren Sie 100 Sätze aus relevanten englischen Wikipedia-Artikeln (z. B. Bus). Wiederholen Sie für Mandarin den gleichen Erfassungsvorgang wie oben.
Entitätsbereiche werden auf ähnliche Weise mit Personen, Orten oder anderen Entitäten gefüllt, die eng mit einem der beiden Bereiche verbunden sind, die von einer bestimmten Sprache abgedeckt werden.
Bei einem erklärenden Satz wie „In Lissabon bin ich oft mit dem Bus gefahren.“ (In Lissabon bin ich oft mit dem Bus gefahren.) muss das Muster lauten, um ihn korrekt ins brasilianische Portugiesisch zu übersetzen in der Lage, zwei potenzielle Fallstricke zu identifizieren:
1) Die engere geografische Verbindung zwischen Lissabon und Portugal kann die Wahl der Modellübersetzung beeinflussen und dem Modell bei der Entscheidung helfen, dass es ins europäische Portugiesisch statt ins brasilianische Portugiesisch übersetzt werden sollte. Das heißt, wählen Sie „ autocarro“ statt „ônibus“.
2) Das Ersetzen von „Lissabon“ durch „Brasilia“ kann für dasselbe Modell eine relativ einfache Möglichkeit sein, die Ausgabe in brasilianisches Portugiesisch zu lokalisieren, selbst wenn das Übersetzungsergebnis noch reibungslos ist, was zu einer ungenauen Semantik führen kann.
Der Zufallseimer wird verwendet, um zu überprüfen, ob ein Modell andere unterschiedliche Phänomene korrekt verarbeitet. Er enthält 100 Artikel, die zufällig aus den empfohlenen und guten Sammlungen von Wikipedia ausgewählt wurden.
Um zu überprüfen, ob die für den FRMT-Datensatz gesammelten Übersetzungen regionalspezifische Phänomene erfassen konnten, führten die Forscher eine manuelle Bewertung der Datenqualität durch.
Kompetente Annotatoren aus den jeweiligen Regionen identifizieren und klassifizieren Übersetzungsfehler mithilfe eines MQM-Frameworks (Multidimensional Quality Measurement): Das Framework umfasst ein Klassifizierungsgewichtungsschema, das die identifizierten Fehler in eine einzige Bewertung umwandelt, die grob die Anzahl der schwerwiegenden Fehler darstellt pro Satz, d. h. je kleiner die Zahl, desto besser die Übersetzung.
Für jede Region baten die Forscher MQM-Bewerter, Übersetzungen aus ihrer Region und Übersetzungen aus anderen Regionen ihrer Sprache zu bewerten.
Zum Beispiel bewerteten portugiesische Bewerter in Brasilien sowohl brasilianische als auch europäische portugiesische Übersetzungen, und der Unterschied zwischen den beiden Bewertungen zeigt die Allgemeingültigkeit des sprachlichen Phänomens an, d. h. ob die Sprachvariante akzeptabel ist und nicht eine andere Sprache.
Experimentelle Ergebnisse ergaben, dass die Bewerter im Portugiesischen und Chinesischen im Durchschnitt etwa zwei größere Fehler pro Satz fanden als in den abgeglichenen Übersetzungen, was darauf hindeutet, dass der FRMT-Datensatz tatsächlich in der Lage ist, regionalspezifische sprachliche Phänomene zu erfassen.
Die manuelle Bewertung ist zwar der beste Weg, um die Modellqualität sicherzustellen, sie ist jedoch oft langsam und teuer.
Daher hoffen die Forscher, eine vorgefertigte automatische Metrik zu finden, mit der die Leistung des Modells im Benchmark bewertet werden kann. Die Forscher erwägen die Verwendung von chrF, BLEU und BLEURT
Laut MQM bewerteten Evaluatoren die Übersetzungsergebnisse mehrerer Basismodelle und stellten fest, dass BLEURT die beste Korrelation mit dem menschlichen Urteilsvermögen aufweist und die Stärke dieser Korrelation (0,65 Pearson-Korrelationskoeffizient, ρ) mit der Inter-Annotator-Konsistenz (0,70 intra) übereinstimmt -Klassenkorrelationsgeschlecht) durchaus.Systemleistung
In diesem Artikel werden einige kürzlich veröffentlichte Modelle mit Wenig-Schuss-Kontrollfunktionen bewertet.
Basierend auf der menschlichen Bewertung von MQM zeigen alle Basismethoden eine gewisse Fähigkeit zur Lokalisierung der portugiesischen Ausgabe, aber für Chinesisch (Mandarin) nutzen die meisten nicht die Kenntnisse der Zielregion, um hervorragende lokale Übersetzungsergebnisse zu erzielen.
Googles Sprachmodell PaLM schnitt unter den bewerteten Benchmarks am besten ab. Um mit PaLM regionalspezifische Übersetzungen zu generieren, wird zunächst eine instruktive Eingabeaufforderung in das Modell eingespeist und daraus dann Text generiert, um die Lücken zu schließen.
PaLM erzielt mit nur einem Beispiel auf Portugiesisch sehr gute Ergebnisse, und bei einer Erhöhung auf 10 Beispiele verbessert sich die Qualität leicht, wenn man bedenkt, dass PaLM unbeaufsichtigt ist. Für das Training unter solchen Bedingungen ist diese Leistung geeignet schon sehr gut. Die Ergebnisse deuten auch darauf hin, dass Sprachmodelle wie PaLM möglicherweise besonders gut darin sind, sich regionalspezifische lexikalische Entscheidungen zu merken, die für eine flüssige Übersetzung erforderlich sind. Allerdings besteht immer noch eine erhebliche Leistungslücke zwischen PaLM und Menschen. Referenz:https://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html
Das obige ist der detaillierte Inhalt vonGoogle stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!