大規模言語モデル (LLM) は、モデルの微調整を必要とせずに、文脈学習を通じて少数の例から学習できることはよく知られています。現在、この文脈学習現象は大規模モデルでのみ観察できます。たとえば、GPT-4 や Llama などの大規模モデルは多くの分野で優れたパフォーマンスを示していますが、リソースの制約や高いリアルタイム要件のため、大規模なモデルは多くのシナリオで使用できません
#では、通常サイズのモデルにもこの機能はあるのでしょうか?小型モデルのコンテキスト学習機能を調査するために、Byte 大学と華東師範大学の研究チームは、シーン テキスト認識タスクに関する研究を実施しました。
現在、実際の応用シナリオでは、シーン テキスト認識は、さまざまなシーン、テキスト レイアウト、変形、照明の変更、ぼやけた書き込み、フォントの多様性など、さまざまな課題に直面しています。すべてのシナリオを処理できる統合テキスト認識モデルをトレーニングするのは困難です。
#この問題を解決する直接的な方法は、対応するデータを収集し、特定のシナリオでモデルを微調整することです。ただし、このプロセスにはモデルの再トレーニングが必要であり、計算量が多く、さまざまなシナリオに適応するために複数のモデルの重みを保存する必要があります。テキスト認識モデルにコンテキスト学習機能があれば、新しいシナリオに直面したときに、新しいシナリオでのパフォーマンスを向上させるためのプロンプトとして少量の注釈付きデータのみが必要となり、上記の問題が解決されます。ただし、シーンのテキスト認識はリソースに依存するタスクであり、大規模なモデルをテキスト認識装置として使用すると、大量のリソースが消費されます。研究者らは、予備的な実験観察を通じて、従来の大規模モデルのトレーニング方法がシーンのテキスト認識タスクには適していないことを発見しました。この問題を解決するために、ByteDance と華東師範大学の研究チームは、自己進化型テキスト認識装置 E2STR (Ego-Evolving Scene Text Recognizer) を提案しました。これは、コンテキスト学習機能を組み込んだ通常サイズのテキスト認識ツールであり、微調整を必要とせずに、さまざまなテキスト認識シナリオにすぐに適応できます。論文リンク: https://arxiv.org/pdf/2311.13120.pdf
E2STR には、従来のデータで SOTA レベルに達するだけでなく、コンテキスト トレーニングおよびコンテキスト推論モードが装備されています。を設定しており、単一のモデルを使用してさまざまなシナリオでの認識パフォーマンスを向上させ、新しいシナリオへの迅速な適応を達成でき、微調整後の専用モデルの認識パフォーマンスを超えることさえあります。 E2STR は、テキスト認識タスクで効果的なコンテキスト学習機能を実現するには通常サイズのモデルで十分であることを示しています。 #方法
図 1 に、E2STR のトレーニングと推論のプロセスを示します。
#基本的なテキスト認識トレーニング フェーズでは、自己回帰フレームワークを使用してビジュアル エンコーダーと言語デコーダ、目的はテキスト認識機能を取得することです:
#2. コンテキスト トレーニング
コンテキスト トレーニング フェーズ E2STR は、この記事で提案されているコンテキスト トレーニング パラダイムに従ってさらにトレーニングされます。この段階で、E2STR はさまざまなサンプル間のつながりを理解し、文脈上の手がかりから推論する能力を獲得します。
#図 2 に示すように、この記事では、シーン テキスト データをランダムにセグメント化して変換し、一連の「サブサンプル」を生成する ST 戦略を提案します。 。サブサンプルは視覚的にも言語的にも本質的にリンクされています。これらの本質的に関連するサンプルはシーケンスに結合され、モデルはこれらの意味的に豊富なシーケンスからコンテキストの知識を学習し、それによってコンテキストを学習する能力を獲得します。このステージでは、トレーニングに自己回帰フレームワークも使用します:
書き直す必要がある内容は次のとおりです: 3. 文脈に基づく推論
書き換えられた内容: 3. コンテキストに基づく推論 #テスト サンプルの場合、フレームワークは、視覚的潜在空間にあるコンテキスト キュー プールから N 個のサンプルを選択します。テストサンプルとの類似性が最も高くなります。具体的には、この記事では、ビジュアル トークン シーケンスのプーリングを平均することで画像埋め込み I を計算します。次に、画像埋め込みと I の間のコサイン類似度が最も高い上位 N 個のサンプルがコンテキスト プールから選択され、コンテキスト キューが形成されます。 コンテキスト キューとテスト サンプルが結合されてモデルに供給されると、E2STR はトレーニングなしでコンテキスト キューから新しい知識を学習します。これにより、テストサンプルの認識精度が向上します。コンテキスト キュー プールはビジュアル エンコーダーによって出力されたトークンのみを保持するため、コンテキスト キューの選択プロセスが非常に効率的になることに注意することが重要です。さらに、コンテキスト ヒント プールが小さく、E2STR では推論のトレーニングが必要ないため、追加の計算オーバーヘッドも最小限に抑えられます。 実験は主に 3 つの側面から実行されます: 従来のテキスト認識セット、クロスドメイン シーン認識、および困難なサンプル修正 #1. 従来のデータ セット トレーニング セットからランダムにいくつかのサンプル (1000、トレーニング セット内のサンプル数の 0.025%) を選択してコンテキスト プロンプト プールを形成し、それを 12 の一般的なシーン テキスト認識テスト セットでテストします。 ##E2STR は認識性能がほぼ飽和している従来のデータセットをさらに改善し、SOTA の性能を上回っていることがわかります。モデル 。 書き直す必要がある内容は次のとおりです。 2. クロスドメイン シナリオ 各テスト セットは、クロスドメインシナリオ ドメイン内トレーニングサンプルは 100 個のみ提供 トレーニングなしと微調整の比較結果は以下の通り E2STR は SOTA 法の微調整結果をも上回ります。 #書き直す必要がある内容は次のとおりです。 3. 難しいサンプルを修正します。 今後の見通し実験
E2STR は、適切なトレーニングと推論戦略を使用すると、小規模モデルでも LLM と同様のコンテキスト内学習機能を備えられることを証明しています。リアルタイム要件が強い一部のタスクでは、小さなモデルを使用して新しいシナリオに迅速に適応することもできます。さらに重要なのは、単一モデルを使用して新しいシナリオへの迅速な適応を達成するこの方法により、統合された効率的な小規模モデルの構築に一歩近づくことができます。
以上が言い換えられたタイトルは次のとおりです: ByteDance と華東師範大学との協力: 小型モデルの文脈学習機能の探索の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。