人工知能の開発は急速に進歩していますが、問題も頻繁に発生します。 OpenAI の新しい GPT ビジョン API はフロントエンドとしては素晴らしいですが、幻覚の問題があるためバックエンドについても文句の付けようがありません。
錯覚は常に大規模モデルの致命的な欠陥です。データセットが複雑なため、古くなった情報や誤った情報が含まれることは避けられず、出力品質が厳しい課題に直面することになります。繰り返される情報が多すぎると、大規模なモデルにバイアスがかかる可能性もありますが、これも一種の錯覚です。しかし、幻覚は答えのない命題ではありません。開発プロセスでは、データセットの慎重な使用、厳格なフィルタリング、高品質のデータセットの構築、モデル構造とトレーニング方法の最適化により、幻覚の問題をある程度軽減できます。
人気の大型モデルはたくさんありますが、どれくらい幻覚緩和に効果があるのでしょうか?違いを明確に比較したランキングは次のとおりです
##Vectara プラットフォームは、人工知能インテリジェントに焦点を当てたこのランキングを発表しました。ランキングの更新日は 2023 年 11 月 1 日です。Vectara は、モデルの更新に応じてランキングを更新するために幻覚評価の追跡調査を継続すると述べました。
プロジェクト アドレス: https://github.com/vectara/hallucination-leaderboard
このリーダーボードを決定するために、Vectara は事実の一貫性調査を実施し、LLM 出力で幻覚を検出するようにモデルをトレーニングしました。彼らは、同等の SOTA モデルを使用し、パブリック API 経由で各 LLM に 1,000 の短いドキュメントを提供し、ドキュメントに示されている事実のみを使用して各ドキュメントを要約するように依頼しました。これら 1,000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみで、残りの文書は内容制限により少なくとも 1 つのモデルによって拒否されました。これら 831 件の文書を使用して、Vectara は各モデルの全体的な精度と錯覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されるコンテンツには違法または安全でないコンテンツは含まれていませんが、特定のコンテンツ フィルターをトリガーするのに十分なトリガー ワードが含まれています。これらの文書は主に CNN/Daily Mail コーパスからのものです
#Vectara は全体ではなく要約の精度を評価することに注意してください事実の正確さ。これにより、提供された情報に対するモデルの応答を比較できます。言い換えれば、評価されるのは、出力された要約がソース文書と「事実と一致している」かどうかです。各 LLM がどのようなデータに基づいてトレーニングされたのかが分からなければ、特定の問題について幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同等以上のモデルをトレーニングする必要があります。したがって、Vectara は、このような類推がモデルの全体的な現実性を判断する良い方法であるため、要約タスクで幻覚率に注目することを選択しました。
幻覚モデルの検出アドレスは: https://huggingface.co/vectara/hallucination_evaluation_model
さらに、さらに多くのLLM Bing Chat や Google Chat の統合など、ユーザーのクエリに答えるために RAG (Retrieval Augmented Generation) パイプラインで使用されます。 RAG システムでは、モデルは検索結果の集約としてデプロイされるため、このランキングは、RAG システムで使用される場合のモデルの精度を示す良い指標でもあります。 GPT-4 は、その優れた性能を考慮すると、幻覚の発生率が最も低いことは驚くことではありません。しかし、一部のネチズンは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明しました
#がGPTに追いついています- 4 および GPT-3.5、LLaMA 2 は良好なパフォーマンスを発揮します。しかし、Googleの大規模モデルのパフォーマンスは満足のいくものではありませんでした。一部のネチズンは、Google の BARD は誤った答えを避けるために「私はまだトレーニング中です」をよく使うと述べています。
このようなランキング リストを使用すると、次のようなことができます。さまざまなモデルの長所と短所をより直感的に判断できるようになりました。数日前、
OpenAI は GPT-4 Turbo
をリリースしましたが、一部のネチズンはすぐにランキングで更新することを提案しました。
#次のランキングがどうなるか、大きな変化があるかどうかを見ていきたいと思います。
以上が大型モデルの幻覚率ランキング:GPT-4が3%で最も低く、Google Palmは27.2%と高いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。