Inhaltsverzeichnis
Few-Shot-Generalisierung
Datenerfassung
1. Lexikalisch
2. Entität Entität
3. Zufällig Zufällig
Systemleistung
Heim Technologie-Peripheriegeräte KI Google stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Google stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Apr 08, 2023 am 10:51 AM
谷歌 数据集 机器翻译

Obwohl die Menschen in ganz China Chinesisch sprechen, unterscheiden sich die spezifischen Dialekte an verschiedenen Orten geringfügig. Wenn Sie beispielsweise „Hutong“ sagen, wissen Sie, dass es sich um das alte Peking handelt, aber im Süden heißt es „Nong“ .

Solche subtilen regionalen Unterschiede spiegeln sich in der Aufgabe „Maschinelle Übersetzung“ wider, wodurch die Übersetzungsergebnisse nicht „authentisch“ genug sind. Allerdings berücksichtigen fast alle aktuellen maschinellen Übersetzungssysteme nicht den Einfluss regionaler Sprachen (d. h. Dialekte).

Dieses Phänomen gibt es auch auf der ganzen Welt. Die offizielle Sprache Brasiliens ist beispielsweise Portugiesisch, und es gibt einige regionale Unterschiede zum Portugiesischen in Europa.

Kürzlich hat Google einen brandneuen Datensatz und Bewertungsbenchmark FRMT veröffentlicht, der für die regionalbezogene maschinelle Übersetzung mit wenigen Schüssen verwendet werden kann und hauptsächlich das Problem der Dialektübersetzung löst. Das Papier wurde auf TACL (Transactions of the) veröffentlicht Verein für Computerlinguistik).

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Papierlink: https://arxiv.org/pdf/2210.00193.pdf

Open-Source-Link: https://github.com/google-research/google-research/tree/master/frmt

Dieser Datensatz umfasst professionelle Übersetzungen aus dem Englischen in zwei regionale Varianten des Portugiesischen und des Mandarin-Chinesisch. Die Quelldokumente sollen eine detaillierte Analyse der interessierenden Phänomene ermöglichen, einschließlich lexikalisch unterschiedlicher Begriffe und Interferenzbegriffe.

Forscher untersuchten automatische Bewertungsmetriken für FRMT und überprüften deren Korrelation mit der manuellen Bewertung durch Experten unter regionalen Übereinstimmungs- und Nichtübereinstimmungsszenarien.

Abschließend werden für diese Aufgabe einige Basismodelle vorgeschlagen und Forschern Anleitungsvorschläge zum Trainieren, Bewerten und Vergleichen ihrer eigenen Modelle gegeben. Der Datensatz und der Bewertungscode sind Open Source.

Few-Shot-Generalisierung

Die meisten modernen maschinellen Übersetzungssysteme werden auf Millionen oder Milliarden von Übersetzungsbeispielen trainiert, wobei die Eingabedaten aus englischen Eingabesätzen und den entsprechenden portugiesischen Übersetzungen bestehen.

Allerdings berücksichtigen die meisten verfügbaren Trainingsdaten nicht die regionalen Übersetzungsunterschiede.

Angesichts dieser Datenknappheit positionierten die Forscher FRMT als Maßstab für die Übersetzung mit wenigen Schüssen und missten, wie gut ein maschinelles Übersetzungsmodell eine bestimmte regionale Sprachvariante identifiziert, wenn nicht mehr als 100 gekennzeichnete Beispiele pro Sprachfähigkeit vorliegen.

Maschinelle Übersetzungsmodelle müssen ähnliche Muster in anderen unbeschrifteten Trainingsbeispielen identifizieren, basierend auf den Sprachmustern, die in einer kleinen Anzahl beschrifteter Beispiele (d. h. Beispielen) gezeigt werden. Das Modell muss auf diese Weise verallgemeinert werden, um „idiomatische“ Übersetzungen für Bereiche zu erstellen, die im Modell nicht explizit spezifiziert sind.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Geben Sie zum Beispiel den Satz ein: „Der Bus ist angekommen“ und anhand einiger Beispiele in brasilianischem Portugiesisch sollte das Modell in der Lage sein, „O ônibus chegou“ zu übersetzen; wenn die angegebenen Beispiele in europäischem Portugiesisch vorliegen, ist dies die Übersetzung des Modells Die Ergebnisse sollten lauten: Es wird „O autocarro chegou“.

Die Methode der maschinellen Übersetzung mit wenigen Schüssen ist von großem Forschungswert und kann auf sehr einfache Weise die Unterstützung weiterer Regionalsprachen zu bestehenden Systemen hinzufügen.

Während sich die derzeit von Google veröffentlichte Arbeit auf regionale Varianten zweier Sprachen bezieht, gehen die Forscher davon aus, dass ein guter Ansatz problemlos auf andere Sprachen und regionale Varianten anwendbar sein wird.

Grundsätzlich sind diese Methoden auch auf andere sprachliche Differenzphänomene, wie Etikette und Stil, anwendbar.

Datenerfassung

Der FRMT-Datensatz enthält einige englische Wikipedia-Artikel, die aus dem Wiki40b-Datensatz abgeleitet sind und von bezahlten professionellen Übersetzern in verschiedene regionale Portugiesische und Chinesische Sprachen übersetzt wurden.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Um die wichtigsten bereichsbezogenen Übersetzungsschwierigkeiten hervorzuheben, verwendeten die Forscher drei Inhaltsbereiche zum Entwerfen des Datensatzes:

1. Lexikalisch

Achten Sie hauptsächlich auf die Unterschiede in Wenn Sie beispielsweise einen Satz mit dem Wort „bus“ ins brasilianische bzw. europäische Portugiesisch übersetzen, muss das Modell in der Lage sein, den Unterschied zwischen „ônibus“ und „autocarro“ zu erkennen.

Die Forscher sammelten manuell 20–30 regionalspezifische übersetzte Begriffe auf der Grundlage von Blogs und Bildungswebsites und filterten und überprüften die Übersetzungen auf der Grundlage des Feedbacks von muttersprachlichen Freiwilligen aus jeder Region.

Basierend auf der erhaltenen Liste englischer Begriffe extrahieren Sie 100 Sätze aus relevanten englischen Wikipedia-Artikeln (z. B. Bus). Wiederholen Sie für Mandarin den gleichen Erfassungsvorgang wie oben.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

2. Entität Entität

Entitätsbereiche werden auf ähnliche Weise mit Personen, Orten oder anderen Entitäten gefüllt, die eng mit einem der beiden Bereiche verbunden sind, die von einer bestimmten Sprache abgedeckt werden.

Bei einem erklärenden Satz wie „In Lissabon bin ich oft mit dem Bus gefahren.“ (In Lissabon bin ich oft mit dem Bus gefahren.) muss das Muster lauten, um ihn korrekt ins brasilianische Portugiesisch zu übersetzen in der Lage, zwei potenzielle Fallstricke zu identifizieren:

1) Die engere geografische Verbindung zwischen Lissabon und Portugal kann die Wahl der Modellübersetzung beeinflussen und dem Modell bei der Entscheidung helfen, dass es ins europäische Portugiesisch statt ins brasilianische Portugiesisch übersetzt werden sollte. Das heißt, wählen Sie „ autocarro“ statt „ônibus“.

2) Das Ersetzen von „Lissabon“ durch „Brasilia“ kann für dasselbe Modell eine relativ einfache Möglichkeit sein, die Ausgabe in brasilianisches Portugiesisch zu lokalisieren, selbst wenn das Übersetzungsergebnis noch reibungslos ist, was zu einer ungenauen Semantik führen kann.

3. Zufällig Zufällig

Der Zufallseimer wird verwendet, um zu überprüfen, ob ein Modell andere unterschiedliche Phänomene korrekt verarbeitet. Er enthält 100 Artikel, die zufällig aus den empfohlenen und guten Sammlungen von Wikipedia ausgewählt wurden.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Systemleistung

Um zu überprüfen, ob die für den FRMT-Datensatz gesammelten Übersetzungen regionalspezifische Phänomene erfassen konnten, führten die Forscher eine manuelle Bewertung der Datenqualität durch.

Kompetente Annotatoren aus den jeweiligen Regionen identifizieren und klassifizieren Übersetzungsfehler mithilfe eines MQM-Frameworks (Multidimensional Quality Measurement): Das Framework umfasst ein Klassifizierungsgewichtungsschema, das die identifizierten Fehler in eine einzige Bewertung umwandelt, die grob die Anzahl der schwerwiegenden Fehler darstellt pro Satz, d. h. je kleiner die Zahl, desto besser die Übersetzung.

Für jede Region baten die Forscher MQM-Bewerter, Übersetzungen aus ihrer Region und Übersetzungen aus anderen Regionen ihrer Sprache zu bewerten.

Zum Beispiel bewerteten portugiesische Bewerter in Brasilien sowohl brasilianische als auch europäische portugiesische Übersetzungen, und der Unterschied zwischen den beiden Bewertungen zeigt die Allgemeingültigkeit des sprachlichen Phänomens an, d. h. ob die Sprachvariante akzeptabel ist und nicht eine andere Sprache.

Experimentelle Ergebnisse ergaben, dass die Bewerter im Portugiesischen und Chinesischen im Durchschnitt etwa zwei größere Fehler pro Satz fanden als in den abgeglichenen Übersetzungen, was darauf hindeutet, dass der FRMT-Datensatz tatsächlich in der Lage ist, regionalspezifische sprachliche Phänomene zu erfassen.

Die manuelle Bewertung ist zwar der beste Weg, um die Modellqualität sicherzustellen, sie ist jedoch oft langsam und teuer.

Daher hoffen die Forscher, eine vorgefertigte automatische Metrik zu finden, mit der die Leistung des Modells im Benchmark bewertet werden kann. Die Forscher erwägen die Verwendung von chrF, BLEU und BLEURT

Laut MQM bewerteten Evaluatoren die Übersetzungsergebnisse mehrerer Basismodelle und stellten fest, dass BLEURT die beste Korrelation mit dem menschlichen Urteilsvermögen aufweist und die Stärke dieser Korrelation (0,65 Pearson-Korrelationskoeffizient, ρ) mit der Inter-Annotator-Konsistenz (0,70 intra) übereinstimmt -Klassenkorrelationsgeschlecht) durchaus.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischerSystemleistung

In diesem Artikel werden einige kürzlich veröffentlichte Modelle mit Wenig-Schuss-Kontrollfunktionen bewertet.

Basierend auf der menschlichen Bewertung von MQM zeigen alle Basismethoden eine gewisse Fähigkeit zur Lokalisierung der portugiesischen Ausgabe, aber für Chinesisch (Mandarin) nutzen die meisten nicht die Kenntnisse der Zielregion, um hervorragende lokale Übersetzungsergebnisse zu erzielen.

Googles Sprachmodell PaLM schnitt unter den bewerteten Benchmarks am besten ab. Um mit PaLM regionalspezifische Übersetzungen zu generieren, wird zunächst eine instruktive Eingabeaufforderung in das Modell eingespeist und daraus dann Text generiert, um die Lücken zu schließen.

PaLM erzielt mit nur einem Beispiel auf Portugiesisch sehr gute Ergebnisse, und bei einer Erhöhung auf 10 Beispiele verbessert sich die Qualität leicht, wenn man bedenkt, dass PaLM unbeaufsichtigt ist. Für das Training unter solchen Bedingungen ist diese Leistung geeignet schon sehr gut.

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer

Die Ergebnisse deuten auch darauf hin, dass Sprachmodelle wie PaLM möglicherweise besonders gut darin sind, sich regionalspezifische lexikalische Entscheidungen zu merken, die für eine flüssige Übersetzung erforderlich sind.

Allerdings besteht immer noch eine erhebliche Leistungslücke zwischen PaLM und Menschen.

Referenz:

Google stellt seinen ersten „Dialekt-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischerhttps://ai.googleblog.com/2023/02/frmt-benchmark-for-few-shot-region.html

Das obige ist der detaillierte Inhalt vonGoogle stellt seinen ersten „Dialekt'-Datensatz als Open-Source-Quelle zur Verfügung: Dadurch wird die maschinelle Übersetzung authentischer. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie man Deepseek kommentiert Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Gate.io Exchange Official Registration Portal Gate.io Exchange Official Registration Portal Feb 20, 2025 pm 04:27 PM

Gate.io ist ein führender Kryptowährungsaustausch, der eine breite Palette von Krypto -Vermögenswerten und Handelspaaren bietet. Registrierung von Gate.io ist sehr einfach. Vervollständigen Sie die Registrierung. Mit Gate.io können Benutzer ein sicheres und bequemes Kryptowährungshandelserlebnis genießen.

Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Top 10 für Crypto Digital Asset Trading App (2025 Global Ranking) empfohlen Mar 18, 2025 pm 12:15 PM

Dieser Artikel empfiehlt die Top Ten Ten Cryptocurrency -Handelsplattformen, die es wert sind, auf Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI und Xbit -dezentrale Börsen geachtet zu werden. Diese Plattformen haben ihre eigenen Vorteile in Bezug auf Transaktionswährungsmenge, Transaktionstyp, Sicherheit, Konformität und Besonderheiten. Die Auswahl einer geeigneten Plattform erfordert eine umfassende Überlegung, die auf eigener Handelserfahrung, Risikotoleranz und Investitionspräferenzen basiert. Ich hoffe, dieser Artikel hilft Ihnen dabei, den besten Anzug für sich selbst zu finden

Binance Binance Offizielle Website Neueste Version Anmeldeportal Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

See all articles