メタの言語翻訳に関する大規模研究、結果はすべて「日常的」
今年 7 月初旬、Meta AI は、No Language Left Behind (NLLB) と呼ばれる新しい翻訳モデルをリリースしました。これは、文字通り「言語が取り残されない」と訳せます。
名前が示すように、NLLB は 200 言語間の任意の翻訳をサポートでき、Meta AI によってオープンソース化もされています。ルガンダ語、ウルドゥー語など、これまで見たことのない言語も翻訳できます。
- #論文アドレス: https://research.facebook.com/publications/no- language-left-behind/
- #オープンソース アドレス: https://github.com/facebookresearch/fairseq/tree/nllb
懐疑論者は、翻訳技術に精通した自然言語処理研究科学者のベンジャミン マリーです。彼が疑問に思ったことは、spBLEUとBLEUを並べて比較したメタAIとして要約できます。
私たちの論文では、表 30 と表31 同じトークナイザーが spBLEU 評価 (FLORES-101 spm トークナイザー) に特に比較のために使用されています。FLORES-200 spm トークナイザーは使用しません。これについては、表 30 のタイトルとセクション 8.3.1 で詳しく説明します。同様に、表 35、36、37、38 はすべて、適切な比較のために比較可能なメトリクス/トークナイザーを使用しています。論文を更新しました
一般的に、現在の機械翻訳では評価方法がまだ完全ではありません。であり、論文ごとに異なる方法が使用されています。"
## 具体的な内容:
評価方法に欠陥があります
###まず、簡単な例え:############ポールはバナナを 25 個、ビルはトマトを 30 個持っています。ビルはポールよりバナナを5本多く持っていると思いますか? ############BLEU はバナナのようなもの、spBLEU はトマトのようなものです。 Paul を以前の作品に置き換え、Bill を NLLB に置き換えます。次のようなものを書くことができます: ############前の作業は 25 BLEU で実行され、NLLB は 30 spBLEU で実行されました。 NLLB は前作より 5 BLEU ポイント優れていると思いますか? ######上記の例えで、以下に紹介する内容も理解しやすいかもしれません。
以前、Meta AI は NLLB を包括的に説明および評価した論文を発表しました。論文の要約では、このモデルは以前の SOTA 手法と比較して 44% の BLEU 改善を達成すると主張しています。言い換えれば、NLLB は以前の研究よりも良い結果を生み出すでしょう。
BLEU に関しては、BLEU が以前の SOTA テクノロジーと比較して 44% 向上したことは、機械翻訳研究の歴史の中でもまれです。つまり、論文にあるこの単純な一文は科学の進歩を表しているということになります。一部のメディアはこの声明を直接報道し、さらなる検証も行わずに、メタ AI を言語機械翻訳の頂点に位置づけました。
Meta AI がこのような大規模な技術研究を発表することを選択した場合、非常に信頼できる科学的証拠を提供する必要があります。そうでなければ、何の証拠もないのに、他の研究機関よりも優れているというメタ AI の主張は、他の研究機関がこれまで行ってきた、そして現在も行っている非常に熱心な研究を台無しにするだけです。
マリー NLLB エラーの問題を説明するために、彼はメタ AI が自身の結果によってどのように誤解されるかを実証しようとしました。 NLLB の簡単な例と、彼女自身が見つけた同様の例を使用して、マリーは、NLLB の欠陥のある評価方法を使用すると、SOTA を超えることがいかに簡単かを実証します。最後に、マリーは評価における主な間違いを特定し、具体的に説明します。
Meta AI は、そのモデルを 20 以上の以前の研究のデータと比較し、NLLB が以前の研究を大幅に上回っていると結論付けました。このような多数の比較を実現するために、機械翻訳評価の自動評価メトリクス、主に BLEU と spBLEU に依存しています。
BLEU には欠点があるにもかかわらず、機械翻訳では非常に人気があります。
たとえば、Google 翻訳を使用して、FLORES101 データセットにある次のフランス語のテキストを英語に翻訳したいとします。フランス語を話す人なら、これが非常に質の悪い翻訳であることに気づくでしょう。文法上の間違いや用語の一貫性がなく、自然に読むことができません。実際、データセットは英語から作成されているため、メタ AI は英語に翻訳する場合にのみ機械翻訳を評価します。
Google 翻訳のトークンがこの参照翻訳にも含まれている数を数え、それを参照翻訳と比較することでこれを行うことができます。参考訳 比較してください。ここでのトークンは、スペースで区切られた一連の文字として定義されます。オレンジ色は、上記の Google 翻訳内の、以下の参照翻訳に表示されるすべてのトークン シーケンスを強調表示します。
一致するすべてのトークンのみを考慮すると、BLEU スコアは 50.8 BLEU と計算できます。このスコアだけでは何の意味もありません。別の BLEU スコアと比較した場合にのみ意味を持ちます。
ここで理解すべき重要な点は、スコアはトークンに基づいて計算されますが、ほとんどの機械翻訳研究では無視されるということです。 BLEU スコアは SacreBLEU を使用して計算されます。SacreBLEU は独自の内部トークン化を実行し、基本的に句読点の前にスペースを追加するだけです。これは、BLEU スコアを計算する最も信頼性が高く、再現性のある方法の 1 つです。メタ AI は spBLEU を使用します。
それでは、spBLEU とは何ですか?これは BLEU ですが、異なるトークン化を使用します。以下のように Google 翻訳と参照翻訳をトークン化します。
spBLEU に関連付けられたトークンは、単語をより小さなフラグメントに分割することによってトークンを生成します (トークンに付加されています。これは重要ではありません)ここでは無視してみてください)。 spBLEU トークン化を使用することの直接的な結果として、翻訳と参照の両方でより多くのトークンが生成されることになります。より多くのトークンがあるため、Google 翻訳は参照からより多くのトークンと一致することが期待できます。そうするとスコアが伸びます。実際、ここでの spBLEU スコアは 54.8 です。
SacreBLEU 内部トークン化を使用して上記で計算された BLEU スコアよりも 4 ポイント高いと尋ねざるを得ませんか?では、翻訳はますます良くなっているのでしょうか?
どうやらそうではないようですが、翻訳は同じままです。 BLEUとspBLEUを比較するのは全く意味がありません。 BLEU と spBLEU は、Google 翻訳と参照翻訳の処理方法が異なり、評価目的のみに使用されます。これらは実際には異なる指標です。それらが同じインジケーターであれば、異なる名前を付ける必要はありません。機械翻訳研究コミュニティでよく見聞きするように、異なるトークン、あるいはほぼ同様のトークンに対して計算された BLEU スコアを使用して翻訳の品質を比較するのは公平ではなく、不公平ですらあります。研究が科学的に信頼できるものであることを望む場合は、まったく同じトークン化を使用して BLEU スコアを一貫して計算するだけです。
##Meta AI は、NLLB は以前に公開された BLEU スコアよりも常に優れた spBLEU スコアを達成できるため、以前の研究よりもはるかに優れていると主張していますが、その逆は真実です。なぜなら、特定の翻訳の BLEU スコアよりも低い spBLEU スコアを取得するのは非常に困難な作業だからです。さらに不可解なのは、最高スコアを取得することが目標である場合、なぜ単に chrBLEU メトリクスを使用しないのかということです。
たとえば、Google 翻訳やリファレンス翻訳では、各文字がトークンになります (つまり、文字の間にスペースが追加されます)。
その後、chrBLEU 値は 75.5 と計算され、spBLEU より 20.7 ポイント高くなります。 NLLB の評価によると、これは大幅な改善であり、元の Google 翻訳は変更されていないものの、機械翻訳の新たな最高点となるでしょう。
#論文の誤りの例
メタ AI は、その数値を以前に公表された数値と比較することで、以前の研究を上回ったと主張しています。この論文では、以前の研究と比較された表 30、31、32、35、36、37、および 38 から結論が導き出されます。
# は表 32 から始まります。さまざまな種類のエラーが発生する可能性があるため、これは最もわかりやすい例の 1 つです。
#表から、NLLB-200 列を除くすべての数値は、以前に公開された論文 IndicBART および IndicTrans から直接コピーされたものです。読みやすさを考慮して、Meta AI は各言語の最高スコアを太字でマークし、太字の列は対応するシステムが最高であることを示します。
表にはすべて spBLEU と記載されていますが、これは誤解を招きます。 IndicBART と IndicTrans は spBLEU ではなく BLEU を使用するため、実際には、all は NLLB-200 のみを意味します。ただし、比較すると、NLLB の spBLEU スコアが以前の研究の BLEU スコアよりも高いことがわかります。しかし、それはNLLBが優れていることを意味しますか?これはバナナ 25 本よりもトマト 30 個のほうが良いでしょうか?
#結果を説明するテキストでは次のことがわかります。
For例 (c) Google 翻訳、(d) Microsoft 翻訳。 NLLB-200 は、ほとんどの方向ですべてのモデルを大幅に上回ります。 NLLB-200 のトレーニング データセットには、(a) と (b) でカバーされる言語のほぼ 2 倍となる 25 のインド言語が含まれています。パフォーマンスの向上は、多言語送信の増加と、インド言語のマイニングおよび逆翻訳のデータ品質の向上によるものと考えられます。
言い換えれば、NLLB では、以前の研究でバナナが存在したよりも多くのトマトが存在していました。つまり、NLLBにはより多くのバナナがあります。
spBLEU スコアは、より小さく異なるトークンに基づいて計算されるため、BLEU スコアよりも高くなります。しかし、NLLB のほうが翻訳しやすいでしょうか?私たちは単純に答えることができません。さらに悪いことに、IndicBART と IndicTrans はどちらも 2 つの異なるトークン メソッドを使用しているため、比較できません。
上記のテーブルのほとんどには同様の問題があり、多かれ少なかれエラーが発生します。
IndicBART と IndicTrans が発行した論文を見て数値を確認すると、他にも問題があることがわかります。表 32 の列 (a、b) はすべて交換されており、IndicBART の数値は indicatrans の数値であり、その逆も同様です。
表 30 を見ると、問題はさらに大きくなります。 ただし、表 30 は論文で更新されており、Benjamin Marie は記事を更新してくれた Vedanuj に感謝の意を表しました。表 30 には、トークナイザーが同じであることが記載されています。私は自分の間違いを認めます。
# 表 32 に示すように、Meta AI は、さまざまな計算方法を使用して得られた BLEU を比較しながら、NLLB が以前の DeltaLM および Deepnet よりも優れていると主張しています。 。ここで新しいことは、NLLB を、同様に spBLEU を使用して評価した前作の M2M-100 と比較したことです。では、この比較には意味があるのでしょうか?いいえ。どちらも spBLEU を使用していますが、実際には異なるトークナイザーを使用しているため、比較は不可能です。彼らは脚注 28 で次の声明を行っています:
「私たちの分析は、FLORES-101 言語で実行された場合、測定したところ、FLORES-200 の SPM-200 と FLORES-101 の SPM-100 モデルの間には小さな違いがあります。SPM-200 の主な利点は、200 以上の言語をカバーしていることです。」
小さな違いも違いです。この場合、私たちは科学研究を行っているため、これらの違いが重要になります。
M2M-100 での作業と比較した NLLB の進歩の 1 つは、モデルとデータセットにさらに多くの言語が追加されたことです。これにはトークン化モデルが含まれます。技術的に言えば、語彙サイズを一定に保ちながら、このトークナイザーにさまざまな書記体系の言語を追加すると、機械的により小さなトークンの語彙が得られます。上で見たように、より小さいトークンを使用すると、より良いスコアが得られる可能性があります。これを確認してみましょう。
#以下に示すように:
次の表は、この記事の最後の表です: 表 31。
同様に、上記と同じ問題があります:
##1。 M2M-100 と NLLB はスコアリングに 2 つの異なるトークン化を使用するため、比較することはできません。 2. MMTAfrica は論文で M2M-100 トークン化を使用しているようです。 M2M-100 に匹敵しますが、NLLB には匹敵しません。
記事にはまだ問題点がいくつかあるので、ここでは一つ一つ紹介しません。 NLLB の Meta AI が犯した主な間違いは、機械翻訳の評価において非常によくある間違いですが、この作業が本当に素晴らしいものであり、多くの言語でより高い翻訳品質を提供できる可能性があることは認めるべきです。
以上がメタの言語翻訳に関する大規模研究、結果はすべて「日常的」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98%をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

WorldCoin(WLD)は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか? WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションをサポートする交換:1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao(Kernel)Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか? BNBホルダーはそれからどのような利点を得ることができますか?心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain(ACI)の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative(ACI)の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

暗号通貨の世界では、新しい機会が常に現れます。最近、Binanceによって開始されたKerneldao(Kernel)Megadropプロジェクトは、広範囲にわたる注目を集めています。このプロジェクトは、投資家に新しい投資オプションをもたらすだけでなく、BNB保有者に独自の利点を提供します。それで、カーネルダオとは正確には何ですか?このエアドロップはどのように実行されますか? 1つの記事で理解しましょう。
