ホームページ > テクノロジー周辺機器 > AI > 新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

王林
リリース: 2024-07-25 06:42:23
オリジナル
1158 人が閲覧しました

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

Editor | ScienceAI

質問と回答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。

現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。

まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答の選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、公開質問応答 (openQA) では、モデルの機能をより包括的に評価できますが、適切な評価指標がありません。

第二に、既存のデータセットの内容の多くは大学レベル以下の教科書からのものであり、実際の学術研究や生産環境でLLMの高度な知識保持能力を評価することが困難です。

第三に、これらのベンチマーク データセットの作成は人間の専門家のアノテーションに依存しています。

これらの課題に対処することは、より包括的な QA データセットを構築するために重要であり、科学的 LLM のより正確な評価にも役立ちます。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

イラスト: 科学文献から高品質の科学的な質問と回答のペアを生成するための SciQAG フレームワーク。

この目的のために、米国のアルゴンヌ国立研究所、シカゴ大学のイアン・フォスター教授のチーム(2002年ゴードン・ベル賞受賞者)、ニューサウスウェールズ大学のブラム・ホークス教授のUNSW AI4Scienceチーム、オーストラリア、AI4Science 企業 GreenDynamics、および香港城市大学の Jie Chunyu 教授のチームは共同で、大規模な言語モデルに基づいて大規模な科学文献コーパスから高品質の科学的公開質問と回答のペアを自動的に生成する初の新しいフレームワークである SciQAG を提案しました。 (LLM)。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

論文リンク:https://arxiv.org/abs/2405.09939

githubリンク:https://github.com/MasterAI-EAM/SciQAG

研究者らはSciQAGに基づいて構築したSciQAG-24D は、大規模で高品質のオープンな科学 QA データセットで、24 の科学分野の 22,743 の科学論文から抽出された 188,042 の QA ペアが含まれており、LLM の微調整と科学的問題の評価に役立つように設計されています。解決能力。

実験では、SciQAG-24D データセットで LLM を微調整すると、自由回答形式の質問応答や科学的タスクのパフォーマンスが大幅に向上することが実証されました。

AI for Science コミュニティによるオープンな科学 Q&A の共同開発を促進するために、データセット、モデル、評価コードがオープンソース化されました (https://github.com/MasterAI-EAM/SciQAG)。

SciQAG-24D ベンチマーク データセットを備えた SciQAG フレームワーク

SciQAG は、QA ジェネレーターと QA エバリュエーターで構成され、科学文献に基づいた多様な未解決の質問と回答のペアを大規模に迅速に生成することを目的としています。まず、ジェネレータが科学論文を質問と回答のペアに変換し、次に評価者が品質基準を満たさない質問と回答のペアをフィルタリングして、高品質の科学的質問と回答のデータセットを取得します。

QA ジェネレーター

研究者らは比較実験を通じて 2 段階のプロンプト (プロンプト) を設計し、LLM が最初にキーワードを抽出し、次にそのキーワードに基づいて質問と回答のペアを生成できるようにしました。

生成された質問と回答のデータセットは「クローズドブック」モードを採用しているため、つまり元の論文は提供されず、抽出された科学的知識自体にのみ焦点を当てています。プロンプトは、生成された質問と回答のペアが依存しないことを要求します。元の論文に含まれる固有の情報について言及したり、「この論文」、「この研究」などの現代的な命名法を使用したり、その表や写真について質問したりすることはできません。記事)。

パフォーマンスとコストのバランスを取るために、研究者らはオープンソース LLM をジェネレーターとして微調整することを選択しました。 SciQAG ユーザーは、微調整またはプロンプト ワード エンジニアリングを使用して、独自の状況に応じて、オープン ソースまたはクローズド ソースの LLM をジェネレーターとして選択できます。

QA エバリュエーター

エバリュエーターは、(1) 生成された質問と回答のペアの品質を評価する、(2) 設定された基準に基づいて低品質の質問と回答のペアを破棄する、という 2 つの目的を達成するために使用されます。

研究者らは、関連性、不可知論、完全性、正確性、合理性の 5 つの側面から構成される包括的な評価指標 RACAR を開発しました。

この研究では、研究者らは QA 評価ツールとして GPT-4 を直接使用し、生成された QA ペアを RACAR に従って 1 ~ 5 の評価レベルで評価しました (1 は許容できないことを意味し、5 は完全に許容できることを意味します)。

図に示すように、GPT-4 と手動評価の間の一貫性を測定するために、2 人のドメイン専門家が RACAR メトリクスを使用して 10 件の記事 (合計 100 の質問と回答のペア) に対して手動評価を実行しました。ユーザーは、ニーズに応じて、オープンソースまたはクローズドソースの LLM を評価者として選択できます。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

図: GPT-4 に割り当てられたスコアと専門家の注釈スコアの間のスピアマンとピアソンの相関関係。

SciQAG フレームワークの適用

この研究では、Web of Science (WoS) コア コレクション データベースから、材料科学、化学、物理学、エネルギーなどの分野から、24 のカテゴリーで合計 22,743 件の高被引用論文を取得しました。 、信頼性が高く、豊富でバランスの取れた代表的な科学知識の情報源を構築することを目指しています。

オープンソース LLM を微調整して QA ジェネレーターを形成するために、研究者らは論文コレクションから 426 の論文を入力としてランダムに選択し、GPT-4 をプロンプトすることで 4260 のシード QA ペアを生成しました。

その後、研究者らはこれらのシードデータに基づいて Vicuna-7b モデルを微調整し、生成プロンプトが指示 に変換され、入力 フィールドに論文の内容が入力され、出力 は生成された QA ペア

となりました。モデルの生成は、標準的な教師ありの方法でトレーニングされました。出力例。

トレーニング済み QA ジェネレーターを使用して残りの論文に対して推論を実行し、合計 227,430 の QA ペア (シード QA ペアを含む) が生成されました。各カテゴリから 50 件の論文 (合計 1,200 件の論文) が抽出され、GPT-4 を使用して生成された各 QA ペアの RACAR スコアが計算され、いずれかのディメンション スコアが 3 未満の QA ペアがテスト セットとして除外されました。

残りの QA ペアについては、ルールベースの方法を使用して、論文の一意の情報を含むすべての質問と回答のペアをフィルタリングして除外し、トレーニング セットを形成します。

SciQAG-24D ベンチマーク データ セット

上記に基づいて、研究者はオープン科学 QA ベンチマーク データ セット SciQAG-24D を確立しました。フィルターされたトレーニング セットには 21,529 の論文と 179,511 の QA ペアが含まれ、フィルターされたテスト セットには次のものが含まれます。 1,199 件の論文と 8,531 件の QA ペア。

統計によると、回答内のデータの 99.15% は元の論文からのものであり、質問の 87.29% の類似性は 0.3 未満であり、回答は元のコンテンツの 78.26% をカバーしています。

このデータセットは広く使用されています。トレーニングセットはLLMを微調整し、科学的知識を注入するために使用できます。テストセットは、特定または全体的な科学分野におけるオープンQAタスクにおけるLLMのパフォーマンスを評価するために使用できます。 。テスト セットが大きいため、微調整用の高品質データとしても使用できます。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

図: SciQAG-24D データセットのトレーニングとテストにおけるさまざまなカテゴリの記事の割合。

実験結果

研究者らは、異なる言語モデル間の科学的質問応答のパフォーマンスの違いを比較し、微調整の影響を調査するために包括的な実験を実施しました。

ゼロショット設定

研究者らは、SciQAG-24D のテストセットの一部を使用して、5 つのモデルのゼロショット性能を比較しました。そのうちの 2 つはオープンソース LLM、LLaMA1 (7B) と LLaMA2-chat (7B) で、残りはクローズドソース LLM です。

API 経由で呼び出します: GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview)、および Claude 3 (claude-3-opus-20240229)。テストでは各モデルに 1,000 の質問が表示され、その出力は CAR メトリクス (応答評価のみに焦点を当て、RACAR メトリクスから適応) によって評価され、科学研究の質問に答えるゼロショット能力が測定されました。

図に示すように、すべてのモデルの中で、GPT-4 は完全性 (4.90) と妥当性 (4.99) のスコアが最も高く、Claude 3 は精度スコア (4.95) が最も高くなります。 GPT-3.5 も非常に優れたパフォーマンスを示し、すべての指標で GPT-4 および Claude 3 に僅差のスコアを付けています。

特に、LLaMA1 は 3 つの次元すべてで最も低いスコアを持っています。対照的に、LLaMA2 チャット モデルは GPT モデルほどスコアは高くありませんが、すべての指標において元の LLaMA1 よりも大幅に向上しています。この結果は、科学的な質問に答える上で商用 LLM の優れたパフォーマンスが実証されている一方、オープンソース モデル (LLaMA2 チャットなど) もこの点で大きな進歩を遂げています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

図: SciQAG-24D でのゼロサンプルテストと微調整テスト (LLAMA1-QA)

微調整設定 (微調整設定)

研究者は、最悪のゼロを持つ LLaMA1 を選択しました。サンプルパフォーマンス SciQAG-24D のトレーニングセットに対して微調整を実行し、LLaMA1-QA を取得します。 3 つの実験を通じて、研究者らは、SciQAG-24D が下流の科学タスクのパフォーマンスを向上させるための効果的な微調整データとして使用できることを実証しました:

(a) 目に見えない SciQAG-24D テスト セットでの LLaMA-QA と元の LLaMA1 のパフォーマンス比較。

上の図に示すように、LLaMA1-QA のパフォーマンスは、元の LLaMA1 と比較して大幅に向上しました (完全性は 13% 向上、精度と妥当性は 30% 以上向上)。これは、LLaMA1 が SciQAG-24D の訓練データから科学的質問に答えるロジックを学習し、科学的知識を内面化していることを示しています。

(b) 科学的な MCQ ベンチマークである SciQ での微調整パフォーマンスの比較。

以下の表の最初の行は、LLaMA1-QA が LLaMA1 よりわずかに優れている (+1%) ことを示しています。観察によると、微調整によりモデルの命令追従能力も向上しました。解析できない出力の確率は、LLaMA1 の 4.1% から LLaMA1-QA の 1.7% に低下しました。

(c) さまざまな科学的タスクにおける微調整パフォーマンスの比較。

評価指標としては、分類タスクにはF1スコア、回帰タスクにはMAE、変換タスクにはKLダイバージェンスが使用されます。以下の表に示すように、LLaMA1-QA は、科学的タスクにおいて LLaMA1 モデルと比較して大幅な改善が見られます。

最も明らかな改善は回帰タスクに反映されており、MAE が 463.96 から 185.32 に低下しました。これらの発見は、トレーニング中に QA ペアを組み込むことで、科学的知識を学習して適用するモデルの能力が向上し、それによって下流の予測タスクのパフォーマンスが向上する可能性があることを示唆しています。

驚くべきことに、LLM は、機能を備えた特別に設計された機械学習モデルと比較して、一部のタスクでは同等またはそれを上回る結果を達成できます。たとえば、バンド ギャップ タスクでは、LLaMA1-QA は MODNet (0.3327) などのモデルほどのパフォーマンスはありませんが、AMMExpress v2020 (0.4161) を上回っています。

多様性タスクでは、LLaMA1-QA が深層学習ベースライン (0.3198) を上回りました。これらの発見は、LLM が特定の科学的タスクにおいて大きな可能性を秘めていることを示しています。

新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。

図: SciQ および科学的タスクにおける LLaMA1 および LLaMA1-QA のパフォーマンスの微調整 (M は多肢選択を表し、C は分類を表し、R は回帰を表し、T は変換を表します)

概要と展望

( 1) SciQAG は、科学文献から QA ペアを生成するためのフレームワークであり、QA ペアを評価およびスクリーニングするための RACAR メトリクスと組み合わせることで、リソースが乏しい科学分野向けに大量の知識ベースの QA データを効率的に生成できます。

(2) チームは、SciQAG-24D と呼ばれる、188,042 の QA ペアを含む包括的なオープンソースの科学 QA データセットを生成しました。トレーニング セットは LLM を微調整するために使用され、テスト セットはオープンエンドのクローズドブック科学 QA タスクにおける LLM のパフォーマンスを評価します。

SciQAG-24D テスト セット上のいくつかの LLM のゼロサンプル パフォーマンスが比較され、LLaMA1-QA を取得するために SciQAG-24D トレーニング セット上で LLaMA1 が微調整されました。この微調整により、複数の科学的タスクにおけるパフォーマンスが大幅に向上します。

(3) 研究によると、LLM には科学的タスクにおける可能性があり、LLaMA1-QA の結果は機械学習のベースラインを超えるレベルに達する可能性があります。これは、SciQAG-24D の多面的な有用性を示しており、科学的な QA データをトレーニング プロセスに組み込むことで、科学的知識を学習して適用する LLM の能力を強化できることを示しています。

以上が新しい科学的で複雑な質問応答ベンチマークと大規模モデルの評価システムを提供するために、UNSW、アルゴンヌ、シカゴ大学、およびその他の機関が共同で SciQAG フレームワークを立ち上げました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:jiqizhixin.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート