2023 年 3 月、Microsoft は、「デイリープレビューユーザーの約 3 分の 1 が毎日 [Bing] の「チャット」を使用している」と報告しました。、Bing Chat は、パブリックプレビューの最初の 1 か月で 4,500 万のチャットを提供しました。言い換えれば、大規模な言語モデルを検索エンジンに統合することは非常に市場性があり、インターネットへの検索の入り口を変える可能性が非常に高いです。

実験結果

ホームページ

テクノロジー周辺機器

「ChatGPT検索」4機種を徹底比較！スタンフォード大学の中国人医師による手書きの注釈: New Bing は流暢さが最も低く、文のほぼ半分が引用されていません。

「ChatGPT検索」4機種を徹底比較！スタンフォード大学の中国人医師による手書きの注釈: New Bing は流暢さが最も低く、文のほぼ半分が引用されていません。

王林

May 01, 2023 pm 11:28 PM

ai 検索

ChatGPT のリリースから間もなく、Microsoft は「New Bing」の立ち上げに成功し、株価が急騰しただけでなく、Google に取って代わり、検索エンジンの新時代をもたらす恐れすらありました。

しかし、New Bing は本当に大規模な言語モデルを実行する正しい方法なのでしょうか?生成された回答は実際にユーザーにとって有益ですか?文中の引用はどの程度信憑性がありますか?

最近、スタンフォード大学の研究者は、さまざまなソースから大量のユーザークエリを収集し、4 つの一般的な生成検索エンジン、Bing Chat、NeevaAI を分析しました。人間の評価は perplexity.ai と YouChat によって実行されました。。

# 論文リンク: https://arxiv.org/pdf/2304.09848.pdf

実験の結果、既存の生成検索エンジンからの応答は流暢で有益ですが、証拠のない記述や不正確な引用が含まれることが多いことがわかりました。

平均すると、生成された文を完全に裏付けることができるのは引用の 51.5% だけであり、関連する文の証拠の裏付けとして使用できるのは引用の 74.5% だけです。

研究者らは、特に一部の文がもっともらしいものであることを考慮すると、この結果は、情報を求めるユーザーの主要なツールとなる可能性のあるシステムにとっては低すぎると考えています。生成検索エンジンにはまださらなる改善が必要です。最適化。

個人ホームページ: https://cs.stanford.edu/~nfliu/ #筆頭著者の Nelson Liu は、スタンフォード大学の自然言語処理グループの博士課程 4 年生です。指導教官は Percy Liang です。彼はワシントン大学を卒業し、学士号を取得しています。彼の主な研究方向は構築です。実用的な NLP システム、特に情報検索のアプリケーション。

生成検索エンジンを信頼しないでください

2023 年 3 月、Microsoft は、「デイリープレビューユーザーの約 3 分の 1 が毎日 [Bing] の「チャット」を使用している」と報告しました。、Bing Chat は、パブリックプレビューの最初の 1 か月で 4,500 万のチャットを提供しました。言い換えれば、大規模な言語モデルを検索エンジンに統合することは非常に市場性があり、インターネットへの検索の入り口を変える可能性が非常に高いです。

「ChatGPT検索」4機種を徹底比較！スタンフォード大学の中国人医師による手書きの注釈: New Bing は流暢さが最も低く、文のほぼ半分が引用されていません。しかし、大規模言語モデル技術に基づく既存の生成検索エンジンは、依然として精度が低いという問題を抱えているのが現状です。検索エンジンの機能はまだ十分に評価されておらず、新しい検索エンジンの制限もまだ完全には理解されていません。

検証可能性

は、検索エンジンの信頼性を向上させるための鍵であり、生成された回答内の各文の引用への外部リンクを提供します。これにより、ユーザーは回答の正確性を簡単に確認できるようになります。研究者らは、さまざまな種類やソースから質問を収集することにより、4 つの商用生成検索エンジン (Bing Chat、NeevaAI、perplexity.ai、YouChat) について手動評価を実施しました。

##評価指標

主に

流暢さが含まれます。生成されたテキストは一貫性がある; 有用性、つまり、検索エンジンの応答がユーザーにとって役立つかどうか、および応答の情報が問題を解決できるかどうか; 引用想起、それは、引用サポートを含む外部 Web サイトについて生成された文の割合、Citation Precision、つまり、関連文をサポートする生成された引用の割合です。

流暢さ

ユーザーのクエリ、生成された応答、および「応答は流暢で意味的に一貫している」というステートメントを同時に表示し、アノテーターが評価しました。 5 点リッカートスケールのデータ。

認知された有用性

流暢さと同様に、アノテーターは評価を求められます。応答が有用であり、ユーザーのクエリに対して有益であるという声明に同意すること。

引用想起 (引用想起)

引用想起とは、文献によって完全に裏付けられた引用の価値を指します。関連引用検証された文の割合。そのため、この指標の計算には、回答内の検証に値する文を特定し、検証に値する各文が関連する引用によって裏付けられているかどうかを評価する必要があります。

「検証する価値のある文の特定」プロセスでは、研究者は、外の世界について生成された各文を検討します。一部の読者にとって明白な「常識」のように見えることが実際には正しくない可能性があるため、明白で些細なことであっても検証する必要があります。

検索エンジンシステムの目標は、生成された応答の内容を読者が簡単に確認できるように、外の世界について生成されたすべての文の参照ソースを提供することです。簡略化するために行われており、検証可能性を犠牲にしています。

つまり、実際には、アノテーターは、システムが一人称である応答 (「言語モデルとしては、私には能力がありません)」を除いて、生成されたすべての文を検証します。 . 」や、「もっと詳しく知りたいですか？」などのユーザーへの質問です。

評価「検証に値する記述が関連する引用によって適切に裏付けられているかどうか」は特定された出典 (AIS、特定された者に帰属) ソース) 評価フレームワークでは、アノテーターはバイナリアノテーションを実行します。つまり、通常の聞き手が「引用された Web ページに基づいて結論付けることができる...」と同意した場合、引用は応答を完全に裏付けることができます。

引用の正確さ

引用の正確さを測定するには、アノテーターは次のことを行う必要があります。各引用が、それが関連する文に対して完全な裏付け、部分的な裏付け、または無関係な裏付けを提供しているかどうかを判断します。

完全なサポート : 文中のすべての情報は引用によって裏付けられています。

部分的なサポート : 文内の一部の情報は引用によって裏付けられていますが、他の部分は欠落しているか矛盾している可能性があります。

無関係なサポート (サポートなし) : 参照された Web ページがまったく無関係または矛盾している場合。

関連する引用が複数ある文の場合、アノテーターはさらに、AIS 評価フレームワークを使用して、関連するすべての引用 Web ページが全体としてその文を十分にサポートしているかどうかを判断する必要があります (II メタジャッジメント) ）。

実験結果

流暢性と有用性の評価では、各検索エンジンが非常にスムーズで有用な応答を生成できることがわかります。

特定の検索エンジンの評価では、Bing Chat の流暢さ/有用性の評価が最も低いことがわかります (4.40/ 4.34)、次いで NeevaAI (4.43/4.48)、perplexity.ai (4.51/4.56)、YouChat (4.59/4.62) です。

ユーザークエリのさまざまなカテゴリでは、短い検索質問の方が長い質問よりもスムーズで、通常は事実に関する知識のみに答えることができます。一部の難しい質問には、さまざまな質問の集約が必要になることがよくあります。テーブルや Web ページ、および合成プロセスによって全体のフローが削減されます。

引用評価では、既存の生成検索エンジンは Web ページを完全に、または正確に引用できないことが多く、生成された文のうち完全にサポートされているのは平均して 51.5% だけであることがわかります。引用 (思い出してください) ですが、引用の 74.5% だけが関連する文を完全にサポートしています (精度)。

この値は、すでに何百万ものユーザーがいる検索エンジンシステムでは、特に応答を生成する場合には受け入れられません。多くの場合、大量の情報が含まれます。

そして異なる生成検索エンジン間では引用再現率と精度に大きな差があり、perplexity.ai が最高の再現率 (68.7) を達成しているのに対し、NeevaAI (67.6) )、Bing Chat (58.7) と YouChat (11.1) は低くなります。

一方、Bing Chat が最も高い精度 (89.5) を達成し、続いて perplexity.ai (72.7)、NeevaAI (72.0)、YouChat ( 63.6) でした。 )

さまざまなユーザークエリにわたって、長い回答を持つ NaturalQuestions クエリと非 NaturalQuestions クエリの間の引用再現ギャップは 11% 近くです (それぞれ 58.5 と 47.8);

同様に、短い回答のある NaturalQuestions クエリと短い回答のない NaturalQuestions クエリの間の引用再現率では、その差はほぼ 10% (47.8 の場合は 63.4) です。短い回答のあるクエリの場合は 53.6、長い回答のみのクエリの場合は 53.6、長い回答も短い回答のないクエリの場合は 53.4)。

Web ページのサポートがない質問では引用率が低くなりますたとえば、AllSouls の論文の自由回答質問を評価する場合、生成的検索エンジンは引用の想起を行います。レートはわずか 44.3

以上が「ChatGPT検索」4機種を徹底比較！スタンフォード大学の中国人医師による手書きの注釈: New Bing は流暢さが最も低く、文のほぼ半分が引用されていません。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ホットトピック

Gmailメールのログイン入り口はどこですか？

7675

CakePHP チュートリアル

1393

C# チュートリアル

1207

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

Web3トレーディングプラットフォームranking_web3グローバル交換トップ10の概要 Apr 21, 2025 am 10:45 AM

Binanceは、グローバルデジタルアセット取引エコシステムの大君主であり、その特性には次のものが含まれます。1。1日の平均取引量は1,500億ドルを超え、500の取引ペアをサポートし、主流の通貨の98％をカバーしています。 2。イノベーションマトリックスは、デリバティブ市場、Web3レイアウト、教育システムをカバーしています。 3.技術的な利点は、1秒あたり140万のトランザクションのピーク処理量を伴うミリ秒のマッチングエンジンです。 4.コンプライアンスの進捗状況は、15か国のライセンスを保持し、ヨーロッパと米国で準拠した事業体を確立します。

WorldCoin（WLD）価格予測2025-2031：WLDは2031年までに4ドルに達しますか？ Apr 21, 2025 pm 02:42 PM

WorldCoin（WLD）は、独自の生体認証とプライバシー保護メカニズムを備えた暗号通貨市場で際立っており、多くの投資家の注目を集めています。 WLDは、特にOpenai人工知能技術と組み合わせて、革新的なテクノロジーを備えたAltcoinsの間で驚くほど演奏しています。しかし、デジタル資産は今後数年間でどのように振る舞いますか？ WLDの将来の価格を一緒に予測しましょう。 2025年のWLD価格予測は、2025年にWLDで大幅に増加すると予想されています。市場分析は、平均WLD価格が1.31ドルに達する可能性があり、最大1.36ドルであることを示しています。ただし、クマ市場では、価格は約0.55ドルに低下する可能性があります。この成長の期待は、主にWorldCoin2によるものです。

トップ10の暗号通貨交換プラットフォーム世界最大のデジタル通貨交換リスト Apr 21, 2025 pm 07:15 PM

交換は、今日の暗号通貨市場で重要な役割を果たしています。それらは、投資家が取引するためのプラットフォームであるだけでなく、市場の流動性と価格発見の重要なソースでもあります。世界最大の仮想通貨交換はトップ10にランクされており、これらの交換は取引量がはるかに先を行っているだけでなく、ユーザーエクスペリエンス、セキュリティ、革新的なサービスに独自の利点を持っています。リストの上にある交換は通常、ユーザーベースが大きく、広範な市場の影響力があり、その取引量と資産タイプは、他の取引所で到達するのが難しいことがよくあります。

クロスチェーントランザクションとはどういう意味ですか？クロスチェーントランザクションとは何ですか？ Apr 21, 2025 pm 11:39 PM

クロスチェーントランザクションをサポートする交換：1。Binance、2。Uniswap、3。Sushiswap、4。CurveFinance、5。Thorchain、6。1inchExchange、7。DLNTrade、これらのプラットフォームはさまざまな技術を通じてマルチチェーン資産トランザクションをサポートします。

なぜ仮想通貨価格の上昇または下落があるのですか？なぜ仮想通貨価格の上昇または下落があるのですか？ Apr 21, 2025 am 08:57 AM

仮想通貨価格の上昇の要因には、次のものが含まれます。1。市場需要の増加、2。供給の減少、3。刺激された肯定的なニュース、4。楽観的な市場感情、5。マクロ経済環境。衰退要因は次のとおりです。1。市場需要の減少、2。供給の増加、3。ネガティブニュースのストライキ、4。悲観的市場感情、5。マクロ経済環境。

通貨サークルでのレバレッジされた交換のランキングは Apr 21, 2025 pm 11:24 PM

2025年のレバレッジド取引、セキュリティ、ユーザーエクスペリエンスで優れたパフォーマンスを持つプラットフォームは次のとおりです。1。OKX、高周波トレーダーに適しており、最大100倍のレバレッジを提供します。 2。世界中の多通貨トレーダーに適したバイナンス、125倍の高いレバレッジを提供します。 3。Gate.io、プロのデリバティブプレーヤーに適し、100倍のレバレッジを提供します。 4。ビットゲットは、初心者やソーシャルトレーダーに適しており、最大100倍のレバレッジを提供します。 5。Kraken、安定した投資家に適しており、5倍のレバレッジを提供します。 6。Altcoinエクスプローラーに適したBybit。20倍のレバレッジを提供します。 7。低コストのトレーダーに適したKucoinは、10倍のレバレッジを提供します。 8。ビットフィネックス、シニアプレイに適しています

カーネルエアドロップ報酬を獲得する方法バイナンスフルプロセス戦略 Apr 21, 2025 pm 01:03 PM

暗号通貨の賑やかな世界では、新しい機会が常に現れます。現在、Kerneldao（Kernel）Airdropアクティビティは多くの注目を集め、多くの投資家の注目を集めています。それで、このプロジェクトの起源は何ですか？ BNBホルダーはそれからどのような利点を得ることができますか？心配しないでください、以下はあなたのためにそれを一つ一つ明らかにします。

「ブラックマンデーセル」は、暗号通貨業界にとって厳しい日です Apr 21, 2025 pm 02:48 PM

暗号通貨市場での突入は投資家の間でパニックを引き起こし、Dogecoin（Doge）は最も困難なヒット分野の1つになりました。その価格は急激に下落し、分散財務財務（DEFI）（TVL）の総価値が激しく減少しました。「ブラックマンデー」の販売波が暗号通貨市場を席巻し、ドゲコインが最初にヒットしました。そのdefitVLは2023レベルに低下し、通貨価格は過去1か月で23.78％下落しました。 DogecoinのDefitVLは、主にSOSO値指数が26.37％減少したため、272万ドルの安値に低下しました。退屈なDAOやThorchainなどの他の主要なDefiプラットフォームも、それぞれ24.04％と20減少しました。

See all articles

「ChatGPT検索」4機種を徹底比較！スタンフォード大学の中国人医師による手書きの注釈: New Bing は流暢さが最も低く、文のほぼ半分が引用されていません。

実験結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック