Heim Schlagzeilen „Unüberwachte' maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

„Unüberwachte' maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

Feb 28, 2018 pm 06:40 PM
机器翻译

Deep Learning wird häufig bei verschiedenen täglichen Aufgaben eingesetzt, insbesondere in Bereichen, die ein gewisses Maß an „Menschlichkeit“ erfordern, wie etwa der Bilderkennung. Im Gegensatz zu anderen Algorithmen für maschinelles Lernen besteht das hervorstechendste Merkmal tiefer Netzwerke darin, dass ihre Leistung mit zunehmender Datengewinnung weiter verbessert werden kann. Je mehr Daten verfügbar sind, desto besser ist daher die erwartete Leistung.

Eine der Aufgaben, die tiefe Netzwerke am besten beherrschen, ist die maschinelle Übersetzung. Derzeit handelt es sich um die fortschrittlichste Technologie, die diese Aufgabe bewältigen kann, und sie ist so machbar, dass sogar Google Translate sie verwendet. Bei der maschinellen Übersetzung werden parallele Daten auf Satzebene benötigt, um das Modell zu trainieren, d. h. für jeden Satz in der Ausgangssprache muss es sich um die übersetzte Sprache in der Zielsprache handeln. Es ist nicht schwer, sich vorzustellen, warum dies ein Problem sein sollte. Denn für einige Sprachpaare ist es schwierig, große Datenmengen zu erhalten (daher die Möglichkeit, Deep Learning zu nutzen).

Wie dieser Artikel aufgebaut ist

Dieser Artikel basiert auf einem kürzlich von Facebook veröffentlichten Artikel mit dem Titel „Unüberwachte maschinelle Übersetzung, die nur einsprachige Korpora verwendet“. Dieser Artikel folgt nicht vollständig der Struktur des Artikels. Ich habe einige meiner eigenen Interpretationen hinzugefügt, um den Artikel verständlicher zu machen.

Das Lesen dieses Artikels erfordert einige Grundkenntnisse über neuronale Netze, wie Verlustfunktionen, Autoencoder usw.

Probleme mit maschineller Übersetzung

Wie oben erwähnt besteht das größte Problem bei der Verwendung neuronaler Netze in der maschinellen Übersetzung darin, dass ein Datensatz von Satzpaaren in zwei Sprachen erforderlich ist. Es funktioniert für weit verbreitete Sprachen wie Englisch und Französisch, jedoch nicht für Satzpaare in anderen Sprachen. Wenn die Sprache in den Daten verfügbar ist, wird dies zu einer überwachten Aufgabe.

Lösung

Die Autoren dieses Artikels haben herausgefunden, wie diese Aufgabe in eine unbeaufsichtigte Aufgabe umgewandelt werden kann. Für diese Aufgabe sind lediglich zwei Korpora in jeder der beiden Sprachen erforderlich, beispielsweise ein Roman auf Englisch und ein Roman auf Spanisch. Zu beachten ist, dass die beiden Romane nicht unbedingt identisch sind.

Aus der intuitivsten Perspektive entdeckte der Autor, wie man einen latenten Raum zwischen zwei Sprachen lernt.

Übersicht über Autoencoder

Autoencoder sind eine breite Klasse neuronaler Netze, die für unbeaufsichtigte Aufgaben verwendet werden. Es funktioniert durch die Neuerstellung einer Eingabe, die mit der ursprünglichen Eingabe identisch ist. Der Schlüssel dazu ist eine Netzwerkschicht in der Mitte des Netzwerks, die sogenannte Engpassschicht. Diese Netzwerkschicht wird verwendet, um alle nützlichen Informationen über die Eingabe zu erfassen und nutzlose Informationen zu verwerfen.

„Unüberwachte maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

Konzeptioneller Autoencoder, das Zwischenmodul ist die Engpassschicht, die die komprimierte Darstellung speichert

Kurz gesagt, in der Engpassschicht die Eingabe in der Engpassschicht (Der nun vom Encoder transformierte Raum) wird latenter Raum genannt.

Autoencoder entrauschen

Wenn ein Autoencoder darauf trainiert ist, die Eingabe genau so zu rekonstruieren, wie sie eingegeben wurde, kann er möglicherweise nichts tun. In diesem Fall wird die Ausgabe perfekt rekonstruiert, jedoch ohne nützliche Funktionen in der Engpassschicht. Um dieses Problem zu lösen, verwenden wir einen Entrauschungs-Autoencoder. Erstens wird die eigentliche Eingabe durch das Hinzufügen von etwas Rauschen leicht gestört. Das Netzwerk wird dann verwendet, um das Originalbild (nicht die verrauschte Version) zu rekonstruieren. Auf diese Weise kann das Netzwerk nützliche Merkmale des Bildes lernen, indem es lernt, was Rauschen ist (und welche wirklich nützlichen Merkmale es hat).

„Unüberwachte maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

Ein konzeptionelles Beispiel eines rauschunterdrückenden Autoencoders. Verwenden Sie ein neuronales Netzwerk, um das linke Bild zu rekonstruieren und das rechte Bild zu generieren. In diesem Fall bilden die grünen Neuronen zusammen die Engpassschicht

Warum einen gemeinsamen latenten Raum lernen?

Latenter Raum kann die Eigenschaften der Daten erfassen (in unserem Beispiel sind die Daten Sätze). Wenn es also möglich ist, einen Raum zu erhalten, der bei Eingabe in Sprache A dieselben Merkmale erzeugt wie bei Eingabe in Sprache B, dann ist es uns möglich, zwischen ihnen zu übersetzen. Da das Modell bereits über die richtigen „Merkmale“ verfügt, wird es vom Encoder der Sprache A codiert und vom Decoder der Sprache B decodiert, wodurch beide eine effiziente Übersetzungsarbeit leisten können.

Vielleicht, wie Sie vielleicht denken, verwendet der Autor einen Autoencoder zur Rauschunterdrückung, um einen Feature-Space zu lernen. Sie fanden auch heraus, wie man den Autoencoder dazu bringen kann, einen gemeinsamen latenten Raum (den sie einen ausgerichteten latenten Raum nennen) zu lernen, um eine unbeaufsichtigte maschinelle Übersetzung durchzuführen.

Entrauschen von Autoencodern in der Sprache

Die Autoren verwenden Entrauschen von Encodern, um Funktionen auf unbeaufsichtigte Weise zu erlernen. Die von ihnen definierte Verlustfunktion ist:

„Unüberwachte maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

Gleichung 1.0 Automatische Entrauschungs-Encoder-Verlustfunktion

Interpretation von Gleichung 1.0

I ist die Sprache (für diese Einstellung kann es zwei Sprachen geben). X ist die Eingabe und C(x) ist das Ergebnis nach dem Hinzufügen von Rauschen zu x. Wir werden bald die durch das Rauschen erzeugte Funktion C erhalten. e() ist der Encoder und d() ist der Decoder. Der letzte Term Δ(x hat,x) ist die Summe der Kreuzentropiefehlerwerte auf Token-Ebene. Da wir eine Eingabesequenz haben und eine Ausgabesequenz erhalten, möchten wir sicherstellen, dass jedes Token in der richtigen Reihenfolge ist. Daher wird diese Verlustfunktion verwendet. Wir können es uns als Multi-Label-Klassifizierung vorstellen, bei der das Label des i-ten Inputs mit dem i-ten Output-Label verglichen wird. Unter ihnen ist der Token eine Grundeinheit, die nicht weiter zerstört werden kann. In unserem Beispiel ist das Token ein Wort. Gleichung 1.0 ist eine Verlustfunktion, die das Netzwerk dazu veranlasst, die Differenz zwischen der Ausgabe (bei einer verrauschten Eingabe) und dem ursprünglichen, unbeeinflussten Satz zu minimieren. Die symbolische Darstellung von

□ mit ~

□ ist die Darstellung, die wir erwarten, was in diesem Fall bedeutet, dass die Verteilung der Eingabe von der Sprache l abhängt und der Mittelwert des Verlusts ist genommen. Dies ist nur eine mathematische Form, der tatsächliche Verlust während der Operation (Summe der Kreuzentropie) wird wie üblich sein.

Dieses Sonderzeichen ~ bedeutet „aus einer Wahrscheinlichkeitsverteilung“.

Auf dieses Detail gehen wir in diesem Artikel nicht ein. Mehr über dieses Symbol erfahren Sie in Kapitel 8.1 des Artikels „Deep Learning Book“.

So fügen Sie Rauschen hinzu

Bei Bildern können Sie Rauschen hinzufügen, indem Sie den Pixeln einfach Gleitkommazahlen hinzufügen. Für Sprachen müssen Sie jedoch andere Methoden verwenden. Daher entwickelten die Autoren ein eigenes System zur Geräuscherzeugung. Sie bezeichnen ihre Rauschfunktion als C(). Es nimmt einen Satz als Eingabe und gibt eine verrauschte Version des Satzes aus.

Es gibt zwei verschiedene Möglichkeiten, Rauschen hinzuzufügen.

Erstens kann man einfach ein Wort mit der Wahrscheinlichkeit P_wd aus der Eingabe entfernen.

Zweitens kann jedes Wort mit der folgenden Einschränkung von seiner ursprünglichen Position verschoben werden:

„Unüberwachte maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

σ stellt das i-te dar verschobene Position des Markers. Daher bedeutet Gleichung 2.0: „Ein Token kann sich bis zu k Token-Positionen nach links oder rechts bewegen“

Der Autor setzt den K-Wert auf 3 und den P_wd-Wert auf 1 .

Domänenübergreifendes Training

Um die Übersetzung zwischen zwei Sprachen zu lernen, sollte der Eingabesatz (Sprache A) durch eine Verarbeitung dem Ausgabesatz (Sprache B) zugeordnet werden. Der Autor nennt diesen Prozess domänenübergreifendes Training. Zunächst wird der Eingabesatz (x) abgetastet. Anschließend wird das Modell aus der vorherigen Iteration (M()) verwendet, um die übersetzte Ausgabe (y) zu generieren. Wenn wir sie zusammenfügen, erhalten wir y=M(x). Anschließend wird dieselbe Rauschfunktion C() wie oben verwendet, um mit y zu interferieren, und C(y) wird erhalten. Der Encoder für Sprache A codiert diese gestörte Version, und der Decoder für Sprache B decodiert die Ausgabe des Encoders für Sprache A und rekonstruiert eine saubere Version von C(y). Das Modell wird mit der gleichen Summe der Kreuzentropiefehlerwerte wie in Gleichung 1.0 trainiert.

Erlernen eines gemeinsamen latenten Raums durch kontradiktorisches Training

Bisher wird nicht erwähnt, wie ein gemeinsamer latenter Raum erlernt werden kann. Das oben erwähnte domänenübergreifende Training hilft dabei, einen ähnlichen Raum zu lernen, es sind jedoch stärkere Einschränkungen erforderlich, um das Modell dazu zu bringen, einen ähnlichen latenten Raum zu lernen.

Der Autor nutzt kontradiktorisches Training. Sie verwendeten ein anderes Modell (Diskriminator genannt), das die Ausgabe jedes Encoders nahm und vorhersagte, zu welcher Sprache die codierten Sätze gehörten. Dann werden die Gradienten aus dem Diskriminator extrahiert und der Encoder wird darauf trainiert, den Diskriminator zu täuschen. Dies unterscheidet sich konzeptionell nicht von einem Standard-GAN (Generative Adversarial Network). Der Diskriminator empfängt den Merkmalsvektor bei jedem Zeitschritt (da ein RNN verwendet wird) und sagt voraus, aus welcher Sprache er stammt.

Kombiniert man sie

Addiert man die oben genannten drei verschiedenen Verluste (Autoencoder-Verlust, Übersetzungsverlust und Diskriminatorverlust), werden die Gewichte aller Modelle gleichzeitig aktualisiert.

Da es sich um ein Sequenz-zu-Sequenz-Problem handelt, verwendet der Autor ein langes Kurzzeitgedächtnisnetzwerk (LSTM). Es ist zu beachten, dass es zwei LSTM-basierte Autoencoder gibt, einen für jede Sprache .

Auf hohem Niveau erfordert das Training dieser Architektur drei Hauptschritte. Sie folgen einem iterativen Trainingsprozess. Der Trainingsschleifenprozess sieht in etwa so aus:

1. Holen Sie sich die Übersetzung mit einem Encoder für Sprache A und einem Decoder für Sprache B.

2. Trainieren Sie jeden Autoencoder so, dass er in der Lage ist, einen unbeschädigten Satz neu zu generieren, wenn ihm ein beschädigter Satz gegeben wird.

3. Verbessern Sie die Übersetzung und erstellen Sie sie neu, indem Sie die in Schritt 1 erhaltene Übersetzung zerstören. Für diesen Schritt wird der Encoder für Sprache A zusammen mit dem Decoder für Sprache B trainiert (der Encoder für Sprache B wird zusammen mit dem Decoder für Sprache A trainiert).

Es ist zu beachten, dass die Gewichte auch dann zusammen aktualisiert werden, wenn Schritt 2 und Schritt 3 separat aufgeführt werden.

So starten Sie dieses Framework

Wie oben erwähnt, verwendet das Modell seine eigenen Übersetzungen aus früheren Iterationen, um seine Übersetzungsfähigkeiten zu verbessern. Daher ist es wichtig, über einige Übersetzungskenntnisse zu verfügen, bevor der Recyclingprozess beginnt. Der Autor verwendet FastText, um zweisprachige Wörterbücher auf Wortebene zu lernen. Beachten Sie, dass diese Methode sehr einfach ist und dem Modell lediglich einen Ausgangspunkt geben muss.

Das gesamte Framework ist im Flussdiagramm unten dargestellt

„Unüberwachte maschinelle Übersetzung? Kann sie auch ohne Daten übersetzt werden?

Die allgemeine Arbeit des gesamten Übersetzungsframeworks

Dieser Artikel erklärt eine Methode, die neue Techniken zur Durchführung unbeaufsichtigter maschineller Übersetzungsaufgaben ermöglichen kann. Es nutzt mehrere unterschiedliche Verluste, um eine einzelne Aufgabe zu verbessern, und nutzt gleichzeitig gegnerisches Training, um Einschränkungen für das Verhalten der Architektur durchzusetzen.

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie die Baidu AI-Schnittstelle maschinelle Übersetzungseffekte in Java-Projekten optimiert und verbessert Wie die Baidu AI-Schnittstelle maschinelle Übersetzungseffekte in Java-Projekten optimiert und verbessert Aug 26, 2023 pm 07:04 PM

Wie die Baidu-KI-Schnittstelle die Effektivität der maschinellen Übersetzung in Java-Projekten optimiert und verbessert. Einführung: Mit der kontinuierlichen Weiterentwicklung der Technologie der künstlichen Intelligenz ist die maschinelle Übersetzung zu einem wichtigen Werkzeug zur Verbesserung der Effizienz der sprachübergreifenden Kommunikation geworden. Die Baidu AI-Schnittstelle bietet bequeme und effiziente maschinelle Übersetzungsdienste, die in verschiedenen Anwendungsszenarien verwendet werden können. In diesem Artikel wird erläutert, wie der maschinelle Übersetzungseffekt der Baidu-KI-Schnittstelle in Java-Projekten optimiert und verbessert werden kann, und es werden entsprechende Codebeispiele bereitgestellt. 1. Einführung in die maschinelle Übersetzung der Baidu AI-Schnittstelle. Optimieren und verbessern Sie die maschinelle Übersetzung zu Beginn.

[Python NLTK] Maschinelle Übersetzung, einfache Konvertierung zwischen Sprachen [Python NLTK] Maschinelle Übersetzung, einfache Konvertierung zwischen Sprachen Feb 25, 2024 am 10:07 AM

PythonNLTK ist ein leistungsstarkes Toolkit zur Verarbeitung natürlicher Sprache, das eine Vielzahl von Sprachverarbeitungsfunktionen bietet, einschließlich maschineller Übersetzung. Unter maschineller Übersetzung versteht man die Verwendung von Computern zur Übersetzung von Text aus einer Sprache in Text in einer anderen Sprache. Um PythonNLTK für die maschinelle Übersetzung zu verwenden, müssen Sie zunächst NLTK installieren. NLTK kann über den folgenden Befehl installiert werden: fromnltk.translate.apiimportNLTKTranslatortranslator=NLTKTranslator() Anschließend können Sie die Übersetzungsmethode für die maschinelle Übersetzung verwenden. Die Übersetzungsmethode akzeptiert zwei Parameter. Der erste Parameter ist der, der übersetzt werden muss.

Was ist maschinelle Übersetzungstechnologie in Python? Was ist maschinelle Übersetzungstechnologie in Python? Aug 25, 2023 am 10:13 AM

Was ist maschinelle Übersetzungstechnologie in Python? Mit zunehmender Globalisierung wird die Kommunikation zwischen Sprachen immer wichtiger. Bei der maschinellen Übersetzung handelt es sich um eine Technologie zur automatischen Textübersetzung, mit der Texte aus einer Sprache automatisch in eine andere Sprache umgewandelt werden können. Mit der kontinuierlichen Weiterentwicklung der Deep-Learning- und Natural-Language-Processing-Technologie hat die maschinelle Übersetzungstechnologie in den letzten Jahren erhebliche Fortschritte bei der Anwendungsverbesserung gemacht. Als effizient interpretierte Sprache bietet Python leistungsstarke Unterstützung für die Entwicklung maschineller Übersetzung. In diesem Artikel wird die maschinelle Übersetzung in Python vorgestellt

Ein Anfängerleitfaden zur maschinellen Übersetzung in PHP Ein Anfängerleitfaden zur maschinellen Übersetzung in PHP Jun 11, 2023 pm 12:29 PM

PHP ist eine sehr beliebte Entwicklungssprache, die im Bereich der Webentwicklung weit verbreitet ist. Maschinelle Übersetzung ist eine aufstrebende Technologie, die Texte automatisch von einer Sprache in eine andere übersetzt. In diesem Artikel stellen wir Ihnen die maschinelle Übersetzung in PHP vor und helfen Ihnen dabei, ihre Grundprinzipien zu verstehen und sie zur Implementierung von Übersetzungsfunktionen zu verwenden. Das Prinzip der maschinellen Übersetzung Bei der maschinellen Übersetzung handelt es sich um eine Technologie der künstlichen Intelligenz. Ihr Hauptprinzip besteht darin, mithilfe von Computern Texte in der Ausgangssprache zu analysieren und zu verarbeiten und anschließend äquivalente Texte in der Zielsprache zu generieren. maschinelle Übersetzung

Maschinelle Übersetzungstechnologie in C++ Maschinelle Übersetzungstechnologie in C++ Aug 22, 2023 pm 12:37 PM

C++ war schon immer ein leistungsstarkes Werkzeug für die Softwareentwicklung, das sich nicht nur auf die Entwicklung von Systemsoftware beschränkte, sondern auch häufig bei der Entwicklung künstlicher Intelligenz eingesetzt wurde. Maschinelle Übersetzung ist eine der wichtigen Anwendungen. In diesem Artikel werden die Grundprinzipien, Implementierungsmethoden, der aktuelle Status und die Zukunftsaussichten der maschinellen Übersetzungstechnologie in C++ erläutert. 1. Grundprinzipien Das Grundprinzip der maschinellen Übersetzung besteht darin, mithilfe von Computerprogrammen Sätze in der Ausgangssprache (normalerweise Englisch) in Sätze in der Zielsprache (z. B. Chinesisch) umzuwandeln, um eine sprachübergreifende Kommunikation zu erreichen. Die Grundlage der maschinellen Übersetzung sind Linguistik und Informatik

Maschinelle Übersetzungstechnologie und in Java implementierte Anwendungen Maschinelle Übersetzungstechnologie und in Java implementierte Anwendungen Jun 18, 2023 am 10:40 AM

Java ist derzeit die beliebteste Programmiersprache. Dank seiner leistungsstarken plattformübergreifenden Funktionen und umfangreichen Klassenbibliotheken können Entwickler problemlos verschiedene Anwendungen implementieren. Die maschinelle Übersetzungstechnologie ist ein wichtiger Zweig im Bereich der künstlichen Intelligenz. Ihre Anwendung hat sich in Bereichen wie der Webseitenübersetzung und maschinellen Übersetzungssoftware durchgesetzt und ist zu einem unverzichtbaren Übersetzungswerkzeug in der modernen Gesellschaft geworden. In diesem Artikel werden hauptsächlich die in Java implementierte maschinelle Übersetzungstechnologie und ihre Anwendung vorgestellt. 1. Maschinelle Übersetzungstechnologie Unter maschineller Übersetzungstechnologie versteht man die Verwendung von Computerprogrammen zur automatischen Übersetzung eines Textes in natürlicher Sprache

Exklusives Interview mit ByteDance Wang Mingxuan: Maschinelle Übersetzung und manuelle Übersetzung sind im Wesentlichen zwei Tracks | Exklusives Interview mit ByteDance Wang Mingxuan: Maschinelle Übersetzung und manuelle Übersetzung sind im Wesentlichen zwei Tracks | May 24, 2023 pm 09:37 PM

Der technologische Fortschritt bedeutet oft, dass die Entwicklung der Branche eine neue Richtung eingeschlagen hat. Die Übersetzungsbranche ist keine Ausnahme. Da sich der Prozess der Globalisierung immer weiter beschleunigt, können Menschen bei Aktivitäten im Ausland nicht auf eine sprachübergreifende Kommunikation verzichten. Das Aufkommen der maschinellen Übersetzung hat die Anwendungsszenarien der Übersetzung erheblich erweitert. Obwohl sie noch lange nicht perfekt ist, hat sie der Herausforderung der Menschheit für den Turmbau zu Babel einen großen Schritt näher gebracht. 51CTO hat Wang Mingxuan, Leiter der maschinellen Übersetzung bei ByteDance AILab, ausdrücklich eingeladen, über die Entwicklung der maschinellen Übersetzung im Laufe der Jahre zu sprechen. Die Entwicklung der maschinellen Übersetzung von der regelbasierten über die auf statistischen Modellen basierende bis hin zur auf neuronalen Netzwerken basierenden maschinellen Übersetzung steht in engem Zusammenhang mit der Entwicklung der Computertechnologie, der Informationstheorie, der Linguistik und anderen Disziplinen. Nach dem Eintritt in das 21. Jahrhundert, mit der Verbesserung der Hardwarefähigkeiten und der Optimierung von Algorithmen, kam die maschinelle Übersetzungstechnologie zum Einsatz

Google stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer Google stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer Apr 08, 2023 am 10:51 AM

Obwohl die Menschen in ganz China Chinesisch sprechen, unterscheiden sich die spezifischen Dialekte an verschiedenen Orten geringfügig. Wenn Sie beispielsweise „Hutong“ sagen, wissen Sie, dass es sich um das alte Peking handelt, aber wenn Sie in den Süden gehen , es heißt „Nong“. Wenn solch subtile regionale Unterschiede in der Aufgabe „maschinelle Übersetzung“ berücksichtigt werden, erscheinen die Übersetzungsergebnisse nicht ausreichend „authentisch“. Allerdings berücksichtigen fast alle aktuellen maschinellen Übersetzungssysteme nicht den Einfluss regionaler Sprachen (d. h. Dialekte). Dieses Phänomen gibt es auch auf der ganzen Welt. Beispielsweise ist die offizielle Sprache Brasiliens Portugiesisch, und es gibt einige regionale Unterschiede zum Portugiesischen in Europa. Kürzlich hat Google einen neuen FRMT-Datensatz und Bewertungsbenchmark veröffentlicht, der für die regionalbezogene maschinelle Übersetzung mit wenigen Schüssen verwendet werden kann, hauptsächlich zur Lösung der Dialektübersetzung.