はじめに: 対話テクノロジーは、デジタル ヒューマン インタラクションの中核となる機能の 1 つです。この共有は主にBaidu PLATO 関連の研究開発と応用から始めて、対話システムに対する大規模モデルの影響とデジタル ヒューマンにとってのいくつかの機会について話しましょうこの共有のタイトルは「大規模モデルによって促進される人間とコンピュータの対話型対話」です。
#本日は以下の内容から紹介します。
従来のタスクベースの対話の一般的なプロセスは次のとおりです。ユーザーが文を入力し、システムが解析します。自然言語理解モジュールを通じて、関連する意図とスロットと値のペア、これらのスロットは事前に定義されています。対話管理モジュールは、複数ラウンドの対話のステータスを追跡し、外部データベースと対話してシステム動作の決定を行い、その後、対話を使用します。生成モジュールでは、出力された応答がユーザーに返されます。
#近年、オープンドメインの対話技術について多くの研究が行われています。つまり、分野を限定せずにあらゆるトピックについてチャットできることを意味します。 。代表的なものとしては、Google Meena、Mata Blender、Baidu PLATO などがあり、従来のモジュール型対話システムと比較して、これらのエンドツーエンド対話システムは、対話のコンテキストに応じて対応する応答を直接生成します。
2. エンドツーエンドの対話生成 - 対話システムの新たな機会
以上to-end エンドツーエンドの対話システムは、RNN、LSTM、または Transformer に基づいて設計でき、ネットワーク アーキテクチャは主にエンコーダ Encoder とデコーダ Decoder の 2 つの部分で構成されます。
エンコーダーは対話テキストをベクトルにエンコードし、対話の内容を理解します。 デコーダは、対話ベクトルと前の隠れベクトルに基づいて、対応する応答を生成します。トレーニングコーパスは主に人人対話素材であり、公開ソーシャルメディアフォーラム(Weibo、Tieba、Twitterなど)からコメントを近似対話素材として抽出できます。トレーニングの目的は主に、負の対数尤度関数を最小化することです。
3. オープンドメイン対話が直面する課題
大規模大量のコーパスに基づいてトレーニングされたスケール モデルは、すでに比較的一貫した応答を生成できますが、まだ多くの問題があります。#最初の問題は、コンテンツが比較的空っぽで、情報が不足していることです。モデルの返信は比較的短く、実質的な内容がないため、ユーザーのチャット意欲が簡単に低下する可能性があります。
#もう 1 つの問題は知識の濫用であり、モデルから返される詳細情報の一部が間違っていたり、捏造されている場合があります。
Baidu PLATO は、上記の 2 種類の問題について技術的な調査を行いました。
#コンテンツホールを考慮して、オープンドメインの合理的で多様な生成を達成するために、離散潜在変数に基づく事前トレーニング対話生成技術が提案されていますと答える。知識濫用の問題に関しては、知識を統合する弱教師あり対話生成モデルが提案されており、これにより知識濫用の問題がある程度緩和され、対話の豊かさと知識の精度が向上します。
なぜ対話モデルは「空のコンテンツ「安全な返信」?
本質的に、オープン ドメインの対話は 1 対多の問題です。通常、1 つの対話では、さまざまな背景や経験を持つ多くの合理的な応答が得られます。シナリオによっては、与えられる応答が異なる場合があります。ニューラル ネットワークのトレーニングは通常、1 つずつマッピングされ、学習されるのは、安全で有益ではない応答である「とても良い」や「ははは」などの応答の平均状態です。
##PLATO - 1 離散的な潜在変数に基づいた対話の 1 対多の関係のモデル化を提案します。
これには、元の対話コンテキストと対話応答を潜在変数潜在アクションにマッピングし、次に潜在変数生成に基づいて応答を学習するという 2 つのタスクが含まれます。 PLATO は、同じネットワークを使用して 2 つのタスクを共同モデル化します。最初に潜在変数の分布を推定し、Gumbel Softmax を通じて潜在変数をサンプリングし、次に応答を生成することを学習します。このようにして、異なる潜在変数をサンプリングすることで多様な応答を生成できます。
#このケースは、異なる応答効果を生み出すために異なる潜在変数が選択されることを示しています。これらの回答はすべて上記の回答に基づいており、質が高く、適切で有益なものです。
#3. PLATO-2 コース学習に基づく普遍的な対話モデル
さらに、PLATO-2 は、対話の理解と応答生成を学習しながら、統合ネットワーク設計 PrefixLM を引き続き使用します。コース学習に基づいたトレーニングは非常に効率的であり、統合されたネットワークベースのトレーニングは非常に費用対効果が高くなります。
PLATO-2 第 1 段階では単純化された一般的な応答生成を訓練し、第 2 段階では多様な応答生成、潜在変数を訓練します。この段階で追加されます。第 2 段階では、対話一貫性評価訓練も導入しており、共通生成確率ランキングと比較して応答選択の品質を効果的に向上させます。
PLATO-2 は普遍的な対話フレームワークとして機能できますか? 対話分野は、タスクベース対話、ナレッジ対話、オープンドメインチャットシステムの 3 つのカテゴリに大別されることがわかっています。さまざまなタイプの対話システムを個別に事前トレーニングするにはコストがかかりすぎますが、PLATO-2 のコース学習メカニズムは、PLATO-2 を普遍的な対話フレームワークにするのに役立ちます。タスクベースの対話は比較的焦点が当てられています。コース学習の最初の段階における 1 対 1 のマッピング モデルはまさにこの状況に当てはまります。知識対話とカジュアル チャットの両方に 1 対多の状況があります。知識対話では、さまざまな知識を使用してユーザーに返信できます。また、カジュアル チャット ダイアログでは、さまざまな返信方向があるため、コース学習の第 2 段階モデルを知識ダイアログやチャット システムに適用できます。
この機能を検証するために、PLATO-2 が参加しましたDSTCは、さまざまな対話分野を総合的に扱う対話分野の国際コンテストで、PLATO-2が統一された技術枠組みで6課題において5回の優勝を果たし、DSTC史上初の快挙を達成しました。
PLATO モデルのパラメーター スケールを増加し続けると、どのような効果が得られるでしょうか? 2021年9月には、世界初の数百億規模の中国語・英会話生成モデル「PLATO-XL」を発売しました。
中国語と英語で、いくつかの一般的な商品を合理性、豊かさ、魅力の観点から比較します。他の角度から見ると、PLATO の効果ははるかに先を行っています。
## WeChat パブリック アカウント「Baidu PLATO」は PLATO-XL モデルに接続されており、誰もがそれを試してみることができます。それを体験してください。
PLATO モデル パラメーターの数は、1 億から 10 億、さらには数百億に及びます。会話はますますスムーズになり、モデルの論理機能は数百億の規模に達すると大幅に向上しました。
大規模なモデルにはすべて知識濫用の問題があります。 ?私たち人間は理解できない問題をどのように解決すればよいのでしょうか?検索エンジンで調べてみるとよいと思いますが、この外部知識の検索方法はモデルでも利用できるのでしょうか?
# 外部の知識を統合して返信生成を支援することは、知識の濫用を軽減するための有望な方向性です。しかし、大規模な対話素材の場合、対話テキストと応答情報しか存在せず、あるコーパスと外部知識との対応関係を知ることができず、知識選択のためのラベル情報が不足している。
#7.事後指導に基づく PostKS 知識の選択
#推論段階では事後情報がないため、モデルは事前知識を使用して応答を生成する必要があります。トレーニングと推論のフェーズでは不一致が発生します。トレーニングは事後情報に基づいていますが、推論は事前情報にのみ基づいています。 PLATO-KAG 教師なしモデル、知識選択と応答生成は共同でモデル化されます。上位 k 個の知識がアプリオリに基づいて選択され、エンドツーエンドの共同トレーニングのために生成モデルに送信されます。知識が正確に選択されていれば、それは目的の応答を生成するのに非常に役立ち、生成確率は比較的高くなります。共同最適化はこの選択を促進し、与えられた知識を活用します。知識の選択が適切でないと、ターゲット応答の生成に影響を与えず、生成確率は比較的高くなります。低い場合、結合最適化はこの選択を抑制し、与えられた知識を無視します。これにより、ナレッジの選択と応答の生成の両方が最適化されます。 人間の知識学習経験から判断すると、私たちは多くの知識を脳内に記憶していますが、PLATOは知識の外部応用と知識の内部化を行いながら、包括的な知識の強化を試みました。一方では、外部の一般的な非構造化知識とポートレート知識を使用し、他方では、事前トレーニングを通じて大量の質問と回答の知識をモデルパラメータに内部化します。このような包括的な知識の強化により、一般的な対話知識の誤り率は 30% から 17% に減少し、ポートレートの一貫性は 7.1% から 80% に増加し、質疑応答の精度は 3.2% から増加しました。改善は非常に明らかです。 #下の図は、包括的な知識強化後の効果の比較です。 効果は大幅に改善されましたが、知識濫用の問題は完全に解決されていないことに注目する価値があります。軽減されただけです。モデルの規模が数千億のパラメータに拡張されたとしても、知識の濫用の問題は依然として存在します。 私たちが継続的に取り組む価値のあるポイントはまだいくつかあります。 1 つ目は、外部知識をいつ確認するか、いつ外部知識を確認するかという外部知識のトリガーのタイミングです。会話の流れとエンゲージメントに影響を与える内部知識、つまり知識を使用します。 2つ目は検索技術による知識選択の精度ですが、中国語の知識コーパスは数十億規模で構築されており、会話から適切な知識を正確に検索することはそれほど簡単ではありません。 3 つ目は、知識活用の合理性と忠実性ですが、場合によってはモデルが知識を正確に理解できなかったり、不正確な応答を混乱させてつなぎ合わせたりすることがあります。 #3. 大規模対話モデルの実装、課題、展望 #1. 実装アプリケーション PLATO はスマート スピーカーやバーチャル ヒューマン 、コミュニティ チャットなどの複数のシナリオでオープン ドメイン チャット機能を提供します。
左側はデジタル担当者の Du Xiaoxiao です。Baidu APP で Du Xiaoxiao を検索するか、直接「Hello」と入力してデジタル担当者に電話してください。チャットを通じてデジタル担当者に伝え、便利な検索プロセスと回答や情報への効率的なアクセスを実現します。右側は百度入力方式の仮想人物で、見た目も良く、チャットも上手です。 ランディング アプリケーションの最初の課題は、推論のパフォーマンスです。 、16億パラメータPLATOの性能データを図に示します。演算子の数は演算子の融合によって 98% 削減され、モデル推論時間は元の v100 の 1.2 秒から A10 カードでは 300 ミリ秒未満に短縮されました。計算精度の最適化によりビデオメモリを40%削減し、推論カードをv100からA10に変更してコストを削減するとともに、アーキテクチャの最適化とプラットフォームの移行によりリンクオーバーヘッドを削減しました。 #2 番目の課題は、会話のセキュリティです。。たとえば、有害な言論、政治的配慮、地域差別、プライバシー、その他多くの側面には細心の注意が必要です。 PLATO は、展開後にコーパスを徹底的にクリーンアップし、安全でないサンプルを削除し、安全な判別モデルを使用して安全でない候補応答を削除します。同時に、キーワード テーブルが維持され、ギャップを検出して埋めるための敵対的トレーニングが追加され、セキュリティが向上します。 以前は、Outlook はオープンであると考えられていました。近年の大規模モデルの開発により、対話の分野で大きな進歩が見られ、現在、モデルは一貫性があり、スムーズで豊かな、ドメインを超えた対話を生成できますが、まだ大きな課題が残っています。感情、キャラクターデザイン、性格、推測などの側面に改善の余地があります。 道は長くて険しいですが、道は近づいています、歩き続ければ未来は期待できます。また、対話分野の同僚が協力して、人間とコンピューターの対話の頂点に達することを願っています。 #4. 5 を引用します。質疑応答8. 共同最適化に基づく PLATO-KAG 教師なし知識対話
#9. PLATO の包括的な知識強化ダイアログ
#以上、大規模モデルの導入、対話の豊かさを向上させるための離散潜在変数の追加、教師なし導入による知識乱用を軽減するための外部知識の導入など、PLATO対話の技術をいくつか紹介しましたが、実際の制作ではどのような応用ができるのでしょうか。
2. ランディング アプリケーションで遭遇する課題
#Q: 対話の効果はどのように評価されていますか?
#A: 現在、対話システムには手動評価とより一貫性のある自動指標はなく、依然として手動評価がゴールドスタンダードです。開発段階では、複雑さを参照しながら反復できますが、最終的な包括的な評価では、依然として多数のクラウドソーシング業者にさまざまなマシンと対話し、いくつかの指標について手動評価を実行するよう依頼する必要があります。評価指標も技術の発展に応じて変化し、例えば流暢さだけが問題でなくなると、安全性や知識の正確さなどの指標を加えて、より高度な能力を評価することもできます。
以上が大型モデルによる人間とコンピューターの対話型対話の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。