ホームページ テクノロジー周辺機器 AI 大型モデルの幻覚率ランキング:GPT-4が3%で最も低く、Google Palmは27.2%と高い

大型モデルの幻覚率ランキング:GPT-4が3%で最も低く、Google Palmは27.2%と高い

Nov 14, 2023 pm 08:33 PM
ai モデル

人工知能の開発は急速に進歩していますが、問題も頻繁に発生します。 OpenAI の新しい GPT ビジョン API はフロントエンドとしては素晴らしいですが、幻覚の問題があるためバックエンドについても文句の付けようがありません。

錯覚は常に大規模モデルの致命的な欠陥です。データセットが複雑なため、古くなった情報や誤った情報が含まれることは避けられず、出力品質が厳しい課題に直面することになります。繰り返される情報が多すぎると、大規模なモデルにバイアスがかかる可能性もありますが、これも一種の錯覚です。しかし、幻覚は答えのない命題ではありません。開発プロセスでは、データセットの慎重な使用、厳格なフィルタリング、高品質のデータセットの構築、モデル構造とトレーニング方法の最適化により、幻覚の問題をある程度軽減できます。

人気の大型モデルはたくさんありますが、どれくらい幻覚緩和に効果があるのでしょうか?違いを明確に比較したランキングは次のとおりです

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

##Vectara プラットフォームは、人工知能インテリジェントに焦点を当てたこのランキングを発表しました。ランキングの更新日は 2023 年 11 月 1 日です。Vectara は、モデルの更新に応じてランキングを更新するために幻覚評価の追跡調査を継続すると述べました。

プロジェクト アドレス: https://github.com/vectara/hallucination-leaderboard

このリーダーボードを決定するために、Vectara は事実の一貫性調査を実施し、LLM 出力で幻覚を検出するようにモデルをトレーニングしました。彼らは、同等の SOTA モデルを使用し、パブリック API 経由で各 LLM に 1,000 の短いドキュメントを提供し、ドキュメントに示されている事実のみを使用して各ドキュメントを要約するように依頼しました。これら 1,000 件の文書のうち、各モデルによって要約されたのは 831 件の文書のみで、残りの文書は内容制限により少なくとも 1 つのモデルによって拒否されました。これら 831 件の文書を使用して、Vectara は各モデルの全体的な精度と錯覚率を計算しました。各モデルがプロンプトへの応答を拒否する割合は、「応答率」列に詳しく記載されています。モデルに送信されるコンテンツには違法または安全でないコンテンツは含まれていませんが、特定のコンテンツ フィルターをトリガーするのに十分なトリガー ワードが含まれています。これらの文書は主に CNN/Daily Mail コーパスからのものです

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

#Vectara は全体ではなく要約の精度を評価することに注意してください事実の正確さ。これにより、提供された情報に対するモデルの応答を比較できます。言い換えれば、評価されるのは、出力された要約がソース文書と「事実と一致している」かどうかです。各 LLM がどのようなデータに基づいてトレーニングされたのかが分からなければ、特定の問題について幻覚を判断することは不可能です。さらに、参照ソースなしで応答が幻覚であるかどうかを判断できるモデルを構築するには、幻覚の問題に対処する必要があり、評価対象の LLM と同等以上のモデルをトレーニングする必要があります。したがって、Vectara は、このような類推がモデルの全体的な現実性を判断する良い方法であるため、要約タスクで幻覚率に注目することを選択しました。

幻覚モデルの検出アドレスは: https://huggingface.co/vectara/hallucination_evaluation_model

さらに、さらに多くのLLM Bing Chat や Google Chat の統合など、ユーザーのクエリに答えるために RAG (Retrieval Augmented Generation) パイプラインで使用されます。 RAG システムでは、モデルは検索結果の集約としてデプロイされるため、このランキングは、RAG システムで使用される場合のモデルの精度を示す良い指標でもあります。 GPT-4 は、その優れた性能を考慮すると、幻覚の発生率が最も低いことは驚くことではありません。しかし、一部のネチズンは、GPT-3.5とGPT-4の間に大きな差がないことに驚いたと表明しました

#がGPTに追いついています- 4 および GPT-3.5、LLaMA 2 は良好なパフォーマンスを発揮します。しかし、Googleの大規模モデルのパフォーマンスは満足のいくものではありませんでした。一部のネチズンは、Google の BARD は誤った答えを避けるために「私はまだトレーニング中です」をよく使うと述べています。

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

このようなランキング リストを使用すると、次のようなことができます。さまざまなモデルの長所と短所をより直感的に判断できるようになりました。数日前、

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%OpenAI は GPT-4 Turbo

をリリースしましたが、一部のネチズンはすぐにランキングで更新することを提案しました。

大模型幻觉率排行:GPT-4 3%最低,谷歌Palm竟然高达27.2%

#次のランキングがどうなるか、大きな変化があるかどうかを見ていきたいと思います。

以上が大型モデルの幻覚率ランキング:GPT-4が3%で最も低く、Google Palmは27.2%と高いの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

2025年のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの1つです 2025年のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの1つです Apr 28, 2025 pm 08:12 PM

2025年の世界の上位10の暗号通貨取引所には、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、Kucoin、Bittrex、Poloniexが含まれます。これらはすべて、高い取引量とセキュリティで知られています。

ビットコインの価値はいくらですか ビットコインの価値はいくらですか Apr 28, 2025 pm 07:42 PM

ビットコインの価格は20,000ドルから30,000ドルの範囲です。 1。ビットコインの価格は2009年以来劇的に変動し、2017年には20,000ドル近くに達し、2021年にはほぼ60,000ドルに達しました。2。価格は、市場需要、供給、マクロ経済環境などの要因の影響を受けます。 3.取引所、モバイルアプリ、ウェブサイトを通じてリアルタイム価格を取得します。 4。ビットコインの価格は非常に不安定であり、市場の感情と外部要因によって駆動されます。 5.従来の金融市場と特定の関係を持ち、世界の株式市場、米ドルの強さなどの影響を受けています。6。長期的な傾向は強気ですが、リスクを慎重に評価する必要があります。

トップ通貨取引プラットフォームは何ですか?トップ10の最新の仮想通貨交換 トップ通貨取引プラットフォームは何ですか?トップ10の最新の仮想通貨交換 Apr 28, 2025 pm 08:06 PM

現在、上位10の仮想通貨交換にランクされています。1。Binance、2。Okx、3。Gate.io、4。CoinLibrary、5。Siren、6。HuobiGlobal Station、7。Bybit、8。Kucoin、9。Bitcoin、10。BitStamp。

世界のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの最新バージョンです 世界のトップ10の通貨取引プラットフォームのどれがトップ10の通貨取引プラットフォームの最新バージョンです Apr 28, 2025 pm 08:09 PM

世界の上位10の暗号通貨取引プラットフォームには、Binance、Okx、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、Kucoin、Poloniexが含まれます。これらはすべて、さまざまな取引方法と強力なセキュリティ対策を提供します。

復号化GATE.IO戦略のアップグレード:Memebox 2.0でCrypto Asset Managementを再定義する方法は? 復号化GATE.IO戦略のアップグレード:Memebox 2.0でCrypto Asset Managementを再定義する方法は? Apr 28, 2025 pm 03:33 PM

Memebox 2.0は、革新的なアーキテクチャとパフォーマンスのブレークスルーを通じて、暗号資産管理を再定義します。 1)3つの主要な問題点を解決します。資産サイロ、収入の減少、セキュリティと利便性のパラドックスです。 2)インテリジェントアセットハブ、動的リスク管理およびリターンエンハンスメントエンジン、クロスチェーン移動速度、平均降伏率、およびセキュリティインシデント応答速度が向上します。 3)ユーザーに、ユーザー価値の再構築を実現し、資産の視覚化、ポリシーの自動化、ガバナンス統合を提供します。 4)生態学的なコラボレーションとコンプライアンスの革新により、プラットフォームの全体的な有効性が向上しました。 5)将来的には、スマート契約保険プール、予測市場統合、AI主導の資産配分が開始され、引き続き業界の発展をリードします。

トップ10の仮想通貨取引アプリは何ですか?最新のデジタル通貨交換ランキング トップ10の仮想通貨取引アプリは何ですか?最新のデジタル通貨交換ランキング Apr 28, 2025 pm 08:03 PM

Binance、OKX、Gate.ioなどの上位10のデジタル通貨交換は、システムを改善し、効率的な多様化したトランザクション、厳格なセキュリティ対策を改善しました。

CでChronoライブラリを使用する方法は? CでChronoライブラリを使用する方法は? Apr 28, 2025 pm 10:18 PM

CでChronoライブラリを使用すると、時間と時間の間隔をより正確に制御できます。このライブラリの魅力を探りましょう。 CのChronoライブラリは、時間と時間の間隔に対処するための最新の方法を提供する標準ライブラリの一部です。 Time.HとCtimeに苦しんでいるプログラマーにとって、Chronoは間違いなく恩恵です。コードの読みやすさと保守性を向上させるだけでなく、より高い精度と柔軟性も提供します。基本から始めましょう。 Chronoライブラリには、主に次の重要なコンポーネントが含まれています。STD:: Chrono :: System_Clock:現在の時間を取得するために使用されるシステムクロックを表します。 STD :: Chron

CでハイDPIディスプレイを処理する方法は? CでハイDPIディスプレイを処理する方法は? Apr 28, 2025 pm 09:57 PM

CでのハイDPIディスプレイの取り扱いは、次の手順で達成できます。1)DPIを理解してスケーリングし、オペレーティングシステムAPIを使用してDPI情報を取得し、グラフィックスの出力を調整します。 2)クロスプラットフォームの互換性を処理し、SDLやQTなどのクロスプラットフォームグラフィックライブラリを使用します。 3)パフォーマンスの最適化を実行し、キャッシュ、ハードウェアアクセラレーション、および詳細レベルの動的調整によりパフォーマンスを改善します。 4)ぼやけたテキストやインターフェイス要素などの一般的な問題を解決し、DPIスケーリングを正しく適用することで解決します。

See all articles