メタの言語翻訳に関する大規模研究、結果はすべて「日常的」-AI-php.cn

ホームページ

テクノロジー周辺機器

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:46 PM

ai モデル meta

今年 7 月初旬、Meta AI は、No Language Left Behind (NLLB) と呼ばれる新しい翻訳モデルをリリースしました。これは、文字通り「言語が取り残されない」と訳せます。

名前が示すように、NLLB は 200 言語間の任意の翻訳をサポートでき、Meta AI によってオープンソース化もされています。ルガンダ語、ウルドゥー語など、これまで見たことのない言語も翻訳できます。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

#論文アドレス: https://research.facebook.com/publications/no- language-left-behind/
#オープンソースアドレス: https://github.com/facebookresearch/fairseq/tree/nllb

しかし、この研究は最近疑問視されており、NLLB のメタ AI による主張の多くは根拠がなく誤解を招くものであり、評価結果には重大な欠陥があると考える人もいます。さらに、懐疑論者は、メタ AI の評価手法に基づいて報告されている数値よりも高い数値を得るのは簡単だと主張しています。

懐疑論者は、翻訳技術に精通した自然言語処理研究科学者のベンジャミンマリーです。彼が疑問に思ったことは、spBLEUとBLEUを並べて比較したメタAIとして要約できます。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

この質問に関して、一部の研究者は次のように述べています。テキスト内にスペースがない限り、spBLEU は妥当な指標です (タイ語など）。しかし、spBLEU と BLEU を比較するのは明らかに間違っています。＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃これは素晴らしい指摘です。また、機械学習の研究においては、確証のない研究には十分に注意しなければならないということも学びました。ここでわかることは、人々が分数の生成方法を制御せずに分数だけを参照する場合、問題が複雑になることを示唆しています。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

この論文の著者の一人であるヴェダヌジ・ゴスワミ氏は次のように述べています。 BLEU スコアをさまざまなトークナイザーとの比較に分割することはできません。しかし、論文の結果のほとんどが比較できないという著者の主な主張は真実ではありません。

私たちの論文では、表 30 と表31 同じトークナイザーが spBLEU 評価 (FLORES-101 spm トークナイザー) に特に比較のために使用されています。FLORES-200 spm トークナイザーは使用しません。これについては、表 30 のタイトルとセクション 8.3.1 で詳しく説明します。同様に、表 35、36、37、38 はすべて、適切な比較のために比較可能なメトリクス/トークナイザーを使用しています。論文を更新しました

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」一般的に、現在の機械翻訳では評価方法がまだ完全ではありません。であり、論文ごとに異なる方法が使用されています。"

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

## 具体的な内容:

評価方法に欠陥があります

###まず、簡単な例え:############ポールはバナナを 25 個、ビルはトマトを 30 個持っています。ビルはポールよりバナナを5本多く持っていると思いますか? ############BLEU はバナナのようなもの、spBLEU はトマトのようなものです。 Paul を以前の作品に置き換え、Bill を NLLB に置き換えます。次のようなものを書くことができます: ############前の作業は 25 BLEU で実行され、NLLB は 30 spBLEU で実行されました。 NLLB は前作より 5 BLEU ポイント優れていると思いますか? ######

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

上記の例えで、以下に紹介する内容も理解しやすいかもしれません。

以前、Meta AI は NLLB を包括的に説明および評価した論文を発表しました。論文の要約では、このモデルは以前の SOTA 手法と比較して 44% の BLEU 改善を達成すると主張しています。言い換えれば、NLLB は以前の研究よりも良い結果を生み出すでしょう。

BLEU に関しては、BLEU が以前の SOTA テクノロジーと比較して 44% 向上したことは、機械翻訳研究の歴史の中でもまれです。つまり、論文にあるこの単純な一文は科学の進歩を表しているということになります。一部のメディアはこの声明を直接報道し、さらなる検証も行わずに、メタ AI を言語機械翻訳の頂点に位置づけました。

Meta AI がこのような大規模な技術研究を発表することを選択した場合、非常に信頼できる科学的証拠を提供する必要があります。そうでなければ、何の証拠もないのに、他の研究機関よりも優れているというメタ AI の主張は、他の研究機関がこれまで行ってきた、そして現在も行っている非常に熱心な研究を台無しにするだけです。

マリー NLLB エラーの問題を説明するために、彼はメタ AI が自身の結果によってどのように誤解されるかを実証しようとしました。 NLLB の簡単な例と、彼女自身が見つけた同様の例を使用して、マリーは、NLLB の欠陥のある評価方法を使用すると、SOTA を超えることがいかに簡単かを実証します。最後に、マリーは評価における主な間違いを特定し、具体的に説明します。

Meta AI は、そのモデルを 20 以上の以前の研究のデータと比較し、NLLB が以前の研究を大幅に上回っていると結論付けました。このような多数の比較を実現するために、機械翻訳評価の自動評価メトリクス、主に BLEU と spBLEU に依存しています。

BLEU には欠点があるにもかかわらず、機械翻訳では非常に人気があります。

たとえば、Google 翻訳を使用して、FLORES101 データセットにある次のフランス語のテキストを英語に翻訳したいとします。フランス語を話す人なら、これが非常に質の悪い翻訳であることに気づくでしょう。文法上の間違いや用語の一貫性がなく、自然に読むことができません。実際、データセットは英語から作成されているため、メタ AI は英語に翻訳する場合にのみ機械翻訳を評価します。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

Google 翻訳のトークンがこの参照翻訳にも含まれている数を数え、それを参照翻訳と比較することでこれを行うことができます。参考訳比較してください。ここでのトークンは、スペースで区切られた一連の文字として定義されます。オレンジ色は、上記の Google 翻訳内の、以下の参照翻訳に表示されるすべてのトークンシーケンスを強調表示します。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

一致するすべてのトークンのみを考慮すると、BLEU スコアは 50.8 BLEU と計算できます。このスコアだけでは何の意味もありません。別の BLEU スコアと比較した場合にのみ意味を持ちます。

ここで理解すべき重要な点は、スコアはトークンに基づいて計算されますが、ほとんどの機械翻訳研究では無視されるということです。 BLEU スコアは SacreBLEU を使用して計算されます。SacreBLEU は独自の内部トークン化を実行し、基本的に句読点の前にスペースを追加するだけです。これは、BLEU スコアを計算する最も信頼性が高く、再現性のある方法の 1 つです。メタ AI は spBLEU を使用します。

それでは、spBLEU とは何ですか?これは BLEU ですが、異なるトークン化を使用します。以下のように Google 翻訳と参照翻訳をトークン化します。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

spBLEU に関連付けられたトークンは、単語をより小さなフラグメントに分割することによってトークンを生成します (トークンに付加されています。これは重要ではありません)ここでは無視してみてください）。 spBLEU トークン化を使用することの直接的な結果として、翻訳と参照の両方でより多くのトークンが生成されることになります。より多くのトークンがあるため、Google 翻訳は参照からより多くのトークンと一致することが期待できます。そうするとスコアが伸びます。実際、ここでの spBLEU スコアは 54.8 です。

SacreBLEU 内部トークン化を使用して上記で計算された BLEU スコアよりも 4 ポイント高いと尋ねざるを得ませんか?では、翻訳はますます良くなっているのでしょうか？

どうやらそうではないようですが、翻訳は同じままです。 BLEUとspBLEUを比較するのは全く意味がありません。 BLEU と spBLEU は、Google 翻訳と参照翻訳の処理方法が異なり、評価目的のみに使用されます。これらは実際には異なる指標です。それらが同じインジケーターであれば、異なる名前を付ける必要はありません。機械翻訳研究コミュニティでよく見聞きするように、異なるトークン、あるいはほぼ同様のトークンに対して計算された BLEU スコアを使用して翻訳の品質を比較するのは公平ではなく、不公平ですらあります。研究が科学的に信頼できるものであることを望む場合は、まったく同じトークン化を使用して BLEU スコアを一貫して計算するだけです。

##Meta AI は、NLLB は以前に公開された BLEU スコアよりも常に優れた spBLEU スコアを達成できるため、以前の研究よりもはるかに優れていると主張していますが、その逆は真実です。なぜなら、特定の翻訳の BLEU スコアよりも低い spBLEU スコアを取得するのは非常に困難な作業だからです。さらに不可解なのは、最高スコアを取得することが目標である場合、なぜ単に chrBLEU メトリクスを使用しないのかということです。

たとえば、Google 翻訳やリファレンス翻訳では、各文字がトークンになります (つまり、文字の間にスペースが追加されます)。

その後、chrBLEU 値は 75.5 と計算され、spBLEU より 20.7 ポイント高くなります。 NLLB の評価によると、これは大幅な改善であり、元の Google 翻訳は変更されていないものの、機械翻訳の新たな最高点となるでしょう。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」 #論文の誤りの例

次に、NLLB 評価の具体的な例を見てみましょう。。

メタ AI は、その数値を以前に公表された数値と比較することで、以前の研究を上回ったと主張しています。この論文では、以前の研究と比較された表 30、31、32、35、36、37、および 38 から結論が導き出されます。

# は表 32 から始まります。さまざまな種類のエラーが発生する可能性があるため、これは最もわかりやすい例の 1 つです。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」 #表から、NLLB-200 列を除くすべての数値は、以前に公開された論文 IndicBART および IndicTrans から直接コピーされたものです。読みやすさを考慮して、Meta AI は各言語の最高スコアを太字でマークし、太字の列は対応するシステムが最高であることを示します。

表にはすべて spBLEU と記載されていますが、これは誤解を招きます。 IndicBART と IndicTrans は spBLEU ではなく BLEU を使用するため、実際には、all は NLLB-200 のみを意味します。ただし、比較すると、NLLB の spBLEU スコアが以前の研究の BLEU スコアよりも高いことがわかります。しかし、それはNLLBが優れていることを意味しますか？これはバナナ 25 本よりもトマト 30 個のほうが良いでしょうか?

#結果を説明するテキストでは次のことがわかります。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」 For例 (c) Google 翻訳、(d) Microsoft 翻訳。 NLLB-200 は、ほとんどの方向ですべてのモデルを大幅に上回ります。 NLLB-200 のトレーニングデータセットには、(a) と (b) でカバーされる言語のほぼ 2 倍となる 25 のインド言語が含まれています。パフォーマンスの向上は、多言語送信の増加と、インド言語のマイニングおよび逆翻訳のデータ品質の向上によるものと考えられます。

言い換えれば、NLLB では、以前の研究でバナナが存在したよりも多くのトマトが存在していました。つまり、NLLBにはより多くのバナナがあります。

spBLEU スコアは、より小さく異なるトークンに基づいて計算されるため、BLEU スコアよりも高くなります。しかし、NLLB のほうが翻訳しやすいでしょうか?私たちは単純に答えることができません。さらに悪いことに、IndicBART と IndicTrans はどちらも 2 つの異なるトークンメソッドを使用しているため、比較できません。

上記のテーブルのほとんどには同様の問題があり、多かれ少なかれエラーが発生します。

IndicBART と IndicTrans が発行した論文を見て数値を確認すると、他にも問題があることがわかります。表 32 の列 (a、b) はすべて交換されており、IndicBART の数値は indicatrans の数値であり、その逆も同様です。

表 30 を見ると、問題はさらに大きくなります。メタの言語翻訳に関する大規模研究、結果はすべて「日常的」ただし、表 30 は論文で更新されており、Benjamin Marie は記事を更新してくれた Vedanuj に感謝の意を表しました。表 30 には、トークナイザーが同じであることが記載されています。私は自分の間違いを認めます。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

# 表 32 に示すように、Meta AI は、さまざまな計算方法を使用して得られた BLEU を比較しながら、NLLB が以前の DeltaLM および Deepnet よりも優れていると主張しています。。ここで新しいことは、NLLB を、同様に spBLEU を使用して評価した前作の M2M-100 と比較したことです。では、この比較には意味があるのでしょうか？いいえ。どちらも spBLEU を使用していますが、実際には異なるトークナイザーを使用しているため、比較は不可能です。彼らは脚注 28 で次の声明を行っています:

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

「私たちの分析は、FLORES-101 言語で実行された場合、測定したところ、FLORES-200 の SPM-200 と FLORES-101 の SPM-100 モデルの間には小さな違いがあります。SPM-200 の主な利点は、200 以上の言語をカバーしていることです。」

小さな違いも違いです。この場合、私たちは科学研究を行っているため、これらの違いが重要になります。

M2M-100 での作業と比較した NLLB の進歩の 1 つは、モデルとデータセットにさらに多くの言語が追加されたことです。これにはトークン化モデルが含まれます。技術的に言えば、語彙サイズを一定に保ちながら、このトークナイザーにさまざまな書記体系の言語を追加すると、機械的により小さなトークンの語彙が得られます。上で見たように、より小さいトークンを使用すると、より良いスコアが得られる可能性があります。これを確認してみましょう。

#以下に示すように:

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

##このトークン化では 95 個のトークンが生成されますが、NLLB は97 個のトークンを生成します。これは微妙な違いにすぎません。spBLEU が M2M-100 トークン化を使用して計算された場合、スコアは 53.8 となり、NLLB トークン化より 1 ポイント低くなります。機械翻訳の研究文献によると、通常は 1 ポイントの差で、システムが大幅に優れていると主張できます。予想通り、NLLB は M2M-100 よりも高いスコアを生成します。

次の表は、この記事の最後の表です: 表 31。

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」同様に、上記と同じ問題があります:

##1。 M2M-100 と NLLB はスコアリングに 2 つの異なるトークン化を使用するため、比較することはできません。 2. MMTAfrica は論文で M2M-100 トークン化を使用しているようです。 M2M-100 に匹敵しますが、NLLB には匹敵しません。

記事にはまだ問題点がいくつかあるので、ここでは一つ一つ紹介しません。 NLLB の Meta AI が犯した主な間違いは、機械翻訳の評価において非常によくある間違いですが、この作業が本当に素晴らしいものであり、多くの言語でより高い翻訳品質を提供できる可能性があることは認めるべきです。

以上がメタの言語翻訳に関する大規模研究、結果はすべて「日常的」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7689

Java チュートリアル

1639

CakePHP チュートリアル

1393

Laravel チュートリアル

1287

PHP チュートリアル

1229

Related knowledge

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98％をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

Aavenomicsは、Aaveプロトコルトークンを変更し、Tokenの買戻しを導入するための推奨事項です。 Apr 21, 2025 pm 06:24 PM

Aavenomicsは、Aaveプロトコルトークンを変更し、Aavedaoの定足数を実装したToken Reposを導入する提案です。 Aave Project Chain（ACI）の創設者であるMarc Zellerは、これをXで発表し、契約の新しい時代をマークしていることに注目しました。 Aave Chain Initiative（ACI）の創設者であるMarc Zellerは、Aavenomicsの提案にAave Protocolトークンの変更とトークンリポジトリの導入が含まれていると発表しました。 Zellerによると、これは契約の新しい時代を告げています。 Aavedaoのメンバーは、水曜日の週に100でした。

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

1つの記事を理解する：Binance Kernel Airdropプロセス Apr 21, 2025 pm 01:09 PM

暗号通貨の世界では、新しい機会が常に現れます。最近、Binanceによって開始されたKerneldao（Kernel）Megadropプロジェクトは、広範囲にわたる注目を集めています。このプロジェクトは、投資家に新しい投資オプションをもたらすだけでなく、BNB保有者に独自の利点を提供します。それで、カーネルダオとは正確には何ですか？このエアドロップはどのように実行されますか？ 1つの記事で理解しましょう。

See all articles

メタの言語翻訳に関する大規模研究、結果はすべて「日常的」

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック