陳源氏：メタが主導権を握り、AI大型モデルMMSを立ち上げる-AI-php.cn

陳源氏：メタが主導権を握り、AI大型モデルMMSを立ち上げる

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2023-06-04 22:46:05

転載

969 人が閲覧しました

//チェン・ジェン

あなたは何ヶ国語を知っていますか?関連情報によると、世界には7,000以上の言語があります。ただし、私たちが知っているのはそのうちの数個か数十個だけかもしれません。現在のコンピュータの音声認識技術は100種類以上をカバーできます。多くの人にとって、これは天文学的な数字です。しかし、Meta の新しいオープンソース言語モデルはさらに大きな進歩をもたらしました。

OpenAI と Google との袂を分かち合って以来、Meta はオープンソースの大規模モデルの方向にますます深く入ってきました。最近、GitHub で新しくオープンソース化された Meta の AI 言語モデル - Massively Multilingual Speech (MMS、Massively Multilingual Speech) は、現在知られている技術の 40 倍である 4,000 以上の音声言語を認識でき、テキストおよび音声間の変換技術も拡張します。約 100 言語から 1,100 以上までの言語に及びます。それだけではなく、Meta のオープンソース MMS の最も優れた特徴は、ASR だけでなく TTS もサポートしていることです。つまり、音声をテキストに変換するだけでなく、テキストを音声に変換することもできます。

陳源氏：メタが主導権を握り、AI大型モデルMMSを立ち上げる

Meta の公式 Web サイトのブログでは、数百人しか話さない小さな言語である Tatuyo について特に言及されています。日常的にはあまり役に立ちませんが、研究には良いアシスタントです。では、数百人しか話さないこの小さな言語のデータセットを見つけて効果的に絞り込むにはどうすればよいでしょうか?

メタ氏は、数千の言語で音声データを収集する過程で、宗教文書の録音という型破りな方法を使用したと述べた。「私たちは、多くの異なる言語に翻訳され、テキストベースの言語翻訳研究のためにその翻訳が広く研究されている宗教文書（聖書など）に目を向けます。さらに、これらの翻訳には、さまざまな言語を採用した人々の記録が公開されています。読むために言語が使用される状況。」

同時に、Meta は MMS モデルのトレーニングに同社の「自己教師あり音声表現学習」モデル wav2vec 2.0 を使用し、ラベル付きトレーニングデータに依存せずに機械が学習できるようにし、音声をトレーニングすることができます。より少ないデータでの認識モデル。

このアプローチから生じる可能性のあるモデルの偏りについて、メタ氏は次のように主張しました。「これらのデータは特定の分野からのものであり、通常は男性によって読まれますが、私たちの分析では、私たちのモデルが男性の声と女性の声で同等に良好に機能することが示されています。録音の内容は宗教的なものですが、私たちの分析では、これによりモデルがより宗教的な言語を生成する方向に偏っていないことが示されています。」

wav2vec 2.0 モデルを 1B パラメーターで使用して 1,100 を超える言語の多言語音声認識モデルをトレーニングする場合、開発者は、言語の数が増えると、パフォーマンスがわずかに低下することを発見しました: 61 言語から1107 言語まで増加した場合、文字エラー率は約 0.4% しか増加しませんでしたが、言語範囲は 17 倍以上増加しました。「

この問題について、Meta は OpenAI の Whisper との詳細な比較も行っています。データでトレーニングされたモデルは単語エラー率の半分を達成しましたが、トレーニングデータはそれよりも低かったです。Meta のトレーニングデータには注釈付きデータが 45,000 時間しかなく、それにはWhisper よりも 10 倍少なく、言語サポートは 10 倍と大幅な改善です。しかし、Meta は、新しいモデルは完璧ではないとも述べ、「たとえば、音声テキスト変換モデルでは、選択した単語やフレーズを誤って転写する可能性があるリスクがあります。しかし、AI コミュニティ全体の協力が確実であると私たちは依然として信じています」と述べました。 AI テクノロジーを独自に開発することが重要です。」現在、Meta は関連するモデルとコードをオープンソース化しており、研究コミュニティの他のメンバーがこの研究に基づいて構築できるようにしています。

Meta は大規模な音声モデルの将来を完全には想像していませんが、1 つのモデルを通じてすべての言語で複数の音声タスクを解決できるようにしたいと考えています。「私たちは音声認識、音声合成、言語認識用にさまざまなモデルをトレーニングしましたが、将来的には 1 つのモデルでこれらすべてのタスクやその他のタスクを実行できるようになり、全体的なパフォーマンスの向上につながると信じる理由があります。」とメタ氏は述べました。

将来に目を向けると、Meta は MMS の対象範囲を拡大して、より多くの言語をサポートし、方言の処理を改善したいと考えています。世界中の人々の間の言語の壁をさらに取り除き、世界の隅々の人々が音を通じて通常通りコミュニケーションできるようにします。これは素晴らしいビジョンですが、遅かれ早かれその日が来ると信じています。

以上が陳源氏：メタが主導権を握り、AI大型モデルMMSを立ち上げるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。