著者| ラーフル・プラダン
##出典| https: / /www.infoworld.com/article/3708254/addressing-ai-hallucinations-with-retrieval-augmented-generation.html
人工知能は、私たちの社会で最も影響力のあるテクノロジーになると予想されています。時間 。 トランスフォーマーテクノロジーと生成人工知能の最近の進歩は、イノベーションと創意工夫を大規模に解き放つ可能性を実証しました。
ただし、生成 AI にも課題がないわけではありません。この革新的なテクノロジーの導入と価値創造を深刻に妨げる可能性さえある課題があります。生成 AI モデルは複雑さと機能が増大し続けるにつれて、入力データに基づいていない出力を生成するなど、特有の課題も抱えています。 「イリュージョン」とは、モデルによって生成された出力結果が、一貫性はあるものの、事実や入力されたコンテキストから切り離されていること。この記事では、生成人工知能の変革的影響を簡単に紹介し、このテクノロジーの欠点と課題を検討し、幻覚を軽減するために使用できる技術について説明します。
生成型人工知能の変革的効果
大規模言語モデルの欠点
# #LLM は基本的に確率的かつ非決定的。特定の単語シーケンスが次に出現する可能性に基づいてテキストを生成します。 LLM には知識の概念がなく、推奨エンジンとしてトレーニング済みデータのコーパスを介したナビゲーションに完全に依存しています。通常、生成されるテキストは文法的および意味論的な規則に従いますが、完全にプロンプトとの統計的一貫性に基づいています。
ただし、目標に関係なく、LLM モデルの出力を信頼できない場合は、重大な結果を招く可能性があります。これは、これらのシステムの機能に対する信頼を損なうだけでなく、人間の生産性とイノベーションの加速における AI の影響も大幅に減少させることになります。
最終的に、人工知能の性能は、トレーニングに使用されたデータによって決まります。
LLM の錯覚は、主にデータセットとトレーニングの欠陥によって引き起こされます。これには、次のような側面が含まれます。:
過学習: 過学習は、モデルがトレーニング データ (ノイズや外れ値を含む) を学習しすぎると発生します。モデルの複雑さ、ノイズの多いトレーニング データ、または不十分なトレーニング データはすべて、過学習につながる可能性があります。その結果、モデルが新しいデータに対して適切に一般化されず、低品質のパターン認識が発生し、分類エラーや予測エラー、事実に反する出力、低い信号対雑音比の出力、または完全な幻覚につながります。
検索拡張生成は、データを改善するための最も有望な手法の 1 つです。 1.大規模な言語モデルの精度。 RAG をリアルタイム データと組み合わせると、幻覚を大幅に軽減できることがわかりました。
RAG を使用すると、企業は最新の独自データとコンテキスト データを活用して LLM を活用できます。さらに、RAG は入力コンテンツを特定のコンテキスト情報で強化することもできるため、言語モデルがより正確でコンテキストに関連した応答を生成するのに役立ちます。エンタープライズ環境では、微調整は現実的ではないことがよくありますが、RAG は、パーソナライズされた情報に基づいたユーザー エクスペリエンスを提供するための、低コストで高収益の代替手段を提供します
#効率を向上させるためRAG モデルの場合、エンコードされたテキストの意味を使用して、LLM のネイティブ言語、つまりエンベディングと呼ばれる高次元の数学ベクトルでデータを保存できる運用データ ストアと RAG を組み合わせる必要があります。ユーザーがクエリを行うと、データベースはそれを数値ベクトルに変換します。このようにして、同じ用語が含まれているかどうかに関係なく、関連するテキストをベクトル データベースを通じて照会できます。
セマンティック検索を使用して大量の非構造化データを保存およびクエリできる可用性の高い高性能データベースは、RAG プロセスの重要なコンポーネントです。
以上が検索強化生成技術を使用して人工知能の幻覚問題を解決するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。