首页 > 科技周边 > 人工智能 > 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

王林
发布: 2024-07-25 06:42:23
原创
1158 人浏览过

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

Herausgeber |. ScienceAI

Frage- und Antwortdatensätze (QA) spielen eine wichtige Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen.

Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf.

Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells, wissenschaftliche Fragen zu beantworten, nicht vollständig testen. Im Gegensatz dazu kann die offene Fragebeantwortung (openQA) die Fähigkeiten des Modells umfassender bewerten, es fehlen jedoch geeignete Bewertungsmetriken.

Zweitens stammen viele Inhalte bestehender Datensätze aus Lehrbüchern auf Universitätsniveau und darunter, was es schwierig macht, die hochgradigen Wissensspeicherfähigkeiten von LLM in tatsächlichen akademischen Forschungs- oder Produktionsumgebungen zu bewerten.

Drittens basiert die Erstellung dieser Benchmark-Datensätze auf menschlichen Expertenkommentaren.

Die Bewältigung dieser Herausforderungen ist für den Aufbau eines umfassenderen QA-Datensatzes von entscheidender Bedeutung und trägt auch zu einer genaueren Bewertung des wissenschaftlichen LLM bei.

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

Abbildung: SciQAG-Framework zur Generierung hochwertiger wissenschaftlicher Frage- und Antwortpaare aus wissenschaftlicher Literatur.

Zu diesem Zweck haben das Argonne National Laboratory in den Vereinigten Staaten, das Team von Professor Ian Foster von der University of Chicago (Gordon-Bell-Preisträger 2002), das UNSW AI4Science-Team von Professor Bram Hoex von der University of New South Wales, Australien, das AI4Science-Unternehmen GreenDynamics und das Team von Professor Jie Chunyu von der City University of Hong Kong schlugen gemeinsam SciQAG vor, das erste neuartige Framework, das automatisch hochwertige wissenschaftliche offene Frage- und Antwortpaare aus großen wissenschaftlichen Literaturkorpora auf der Grundlage großer Sprachmodelle generiert (LLM).

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

Papierlink:https://arxiv.org/abs/2405.09939

Github-Link:https://github.com/MasterAI-EAM/SciQAG

Basierend auf SciQAG haben die Forscher erstellt SciQAG-24D, ein umfangreicher, hochwertiger, offener wissenschaftlicher QA-Datensatz, enthält 188.042 QA-Paare, die aus 22.743 wissenschaftlichen Arbeiten in 24 wissenschaftlichen Bereichen extrahiert wurden, und soll der Feinabstimmung von LLM und der Bewertung wissenschaftlicher Probleme dienen. Lösungsfähigkeiten.

Experimente zeigen, dass die Feinabstimmung von LLMs am SciQAG-24D-Datensatz ihre Leistung bei der Beantwortung offener Fragen und bei wissenschaftlichen Aufgaben erheblich verbessern kann.

Der Datensatz, das Modell und der Evaluierungscode wurden als Open Source bereitgestellt (https://github.com/MasterAI-EAM/SciQAG), um die gemeinsame Entwicklung offener wissenschaftlicher Fragen und Antworten durch die AI for Science-Community zu fördern.

SciQAG-Framework mit SciQAG-24D-Benchmark-Datensatz

SciQAG besteht aus einem QA-Generator und einem QA-Evaluator mit dem Ziel, schnell verschiedene offene Frage- und Antwortpaare auf der Grundlage wissenschaftlicher Literatur in großem Maßstab zu generieren. Zunächst wandelt der Generator wissenschaftliche Arbeiten in Frage-Antwort-Paare um, anschließend filtert der Bewerter die Frage-Antwort-Paare heraus, die nicht den Qualitätsstandards entsprechen, und erhält so einen qualitativ hochwertigen wissenschaftlichen Frage-Antwort-Datensatz.

QA-Generator

Die Forscher entwarfen durch vergleichende Experimente eine zweistufige Eingabeaufforderung (Prompt), die es LLM ermöglichte, zunächst Schlüsselwörter zu extrahieren und dann Frage- und Antwortpaare basierend auf den Schlüsselwörtern zu generieren.

Da der generierte Frage- und Antwortdatensatz den „geschlossenen Buch“-Modus annimmt, wird das Originalpapier nicht bereitgestellt und konzentriert sich nur auf das extrahierte wissenschaftliche Wissen selbst. Die Eingabeaufforderung erfordert, dass die generierten Frage- und Antwortpaare nicht darauf angewiesen sind auf oder verweisen Sie auf die eindeutigen Informationen in der Originalarbeit (z. B. ist keine moderne Nomenklatur zulässig, wie „diese/diese Arbeit“, „diese/diese Forschung“ usw.) oder stellen Sie Fragen zu den Tabellen/Bildern in der Artikel).

Um Leistung und Kosten in Einklang zu bringen, entschieden sich die Forscher für die Feinabstimmung eines Open-Source-LLM als Generator. SciQAG-Benutzer können je nach ihren eigenen Umständen ein beliebiges Open-Source- oder Closed-Source-LLM als Generator wählen, indem sie entweder Feinabstimmung oder Prompt-Word-Engineering nutzen.

QA-Evaluator

Der Evaluator wird verwendet, um zwei Zwecke zu erfüllen: (1) Bewerten der Qualität generierter Frage- und Antwortpaare; (2) Verwerfen von Frage- und Antwortpaaren geringer Qualität basierend auf festgelegten Kriterien.

Forscher haben einen umfassenden Bewertungsindex RACAR entwickelt, der aus fünf Dimensionen besteht: Relevanz, Agnostizismus, Vollständigkeit, Genauigkeit und Angemessenheit.

In dieser Studie verwendeten die Forscher GPT-4 direkt als QA-Evaluator, um die generierten QA-Paare gemäß RACAR mit einer Bewertungsstufe von 1–5 zu bewerten (1 bedeutet inakzeptabel, 5 bedeutet völlig akzeptabel).

Wie in der Abbildung gezeigt, verwendeten zwei Domänenexperten zur Messung der Konsistenz zwischen GPT-4 und manueller Bewertung die RACAR-Metrik, um eine manuelle Bewertung für 10 Artikel (insgesamt 100 Frage- und Antwortpaare) durchzuführen. Benutzer können je nach Bedarf jedes Open-Source- oder Closed-Source-LLM als Evaluator wählen.

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

图示:GPT-4 分配分数与专家标注分数之间的 Spearman 和 Pearson 相关性。

SciQAG 框架的运用

该研究从Web of Science (WoS)核心合集数据库中获取了24类高引用论文共计22,743篇,来自材料科学、化学、物理、能源等领域,旨在构建一个可靠、丰富、平衡且具有代表性的科学知识来源。

为了微调开源LLM以形成QA生成器,研究人员从论文集合中随机选择426篇论文作为输入,通过提示GPT-4生成4260个种子QA对。

然后,研究人员在这些种子数据上微调了Vicuna-7b模型,生成提示被转换为指令,论文内容填充输入字段,输出为生成的QA对

,以标准监督的方式训练模型生成实例输出。

使用经过训练的QA生成器在剩余论文上进行推理,共生成227,430个QA对(包括种子QA对)。从每个类别中抽取50篇论文(共1,200篇),使用GPT-4计算每个生成的QA对的RACAR分数,过滤掉任一维分数低于3的QA对作为测试集。

对于余下的QA对,则使用基于规则的方法过滤掉所有包含论文特有信息的问答对以形成训练集。

SciQAG-24D 基准数据集

基于以上,研究人员建立了开放式科学 QA 基准数据集 SciQAG-24D,筛选后的训练集包括 21,529 篇论文和 179,511 个 QA 对,而筛选后的测试集包含 1,199 篇论文和 8,531 个 QA 对。

统计显示,99.15%回答中的数据来自原论文,87.29%的问题相似度在0.3以下,且回答对原文内容的覆盖度达到78.26%。

该数据集应用广泛:训练集可用于微调 LLM,为其注入科学知识;测试集可⽤于评估LLM在某特定或整体科学领域中的开放式QA任务表现。由于测试集较大,因此它也可以作为高质量数据用于微调。

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

图示:SciQAG-24D数据集训练和测试中不同类别的文章比例。

实验结果

研究人员进行了全面的实验以对比不同语言模型之间的科学问答性能差异及探索微调的影响。

零样本设定(zero-shot setting) 

研究人员使用 SciQAG-24D 中的部分测试集对五个模型进行了零样本性能对比。其中两个是开源的 LLM:LLaMA1 (7B) 和 LLaMA2-chat (7B),其余的是闭源 LLM 。

通过API调用:GPT3.5 (gpt-3.5-turbo)、GPT-4 (gpt-4-1106-preview) 和 Claude 3 (claude-3-opus-20240229)。每个模型在测试中被提示了 1000 个问题,并通过 CAR 指标(由RACAR指标调整而来,只关注回答评估)评估其输出,以衡量其在回答科学研究问题方面的零样本能力。

如图所示,在所有模型中,GPT-4 在完备性(4.90)和合理性(4.99)方面得分最高,而 Claude 3 的准确性得分最高(4.95)。GPT-3.5 的表现也非常出色,在所有指标上的得分都紧随 GPT-4 和 Claude 3 之后。

值得注意的是,LLaMA1 在所有三个维度上的得分都最低。相比之下,LLaMA2-chat 模型虽然得分不如 GPT 模型高,但在所有指标上都比原来的 LLaMA1 有了大幅提高。结果表明了商用LLM在回答科学问题方面的卓越性能,同时开源模型(如 LLaMA2-chat)也在这个方面取得了显著进步。

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

图示:SciQAG-24D上的零样本测试和微调测试(LLAMA1-QA)

微调设定(fine-tuning setting)

研究人员选择了零样本性能最差的 LLaMA1 在SciQAG-24D的训练集上进行微调,以获得 LLaMA1-QA。通过三个实验,研究人员证明 SciQAG-24D 可以作为有效的微调数据,提高下游科学任务的性能:

(a)LLaMA-QA与原始 LLaMA1的在未见过的SciQAG-24D测试集上的表现比较。

如上图所示,与原始 LLaMA1相比,LLaMA1-QA的性能有了显著提高(完整性提高了13%,准确性和合理性提高了 超过30%)。这表明LLaMA1已经从SciQAG-24D的训练数据中学习了回答科学问题的逻辑,并内化了一些科学知识。

(b)在 SciQ(一个科学 MCQ 基准)上的微调表现比较。

下表的第一行显示LLaMA1-QA比LLaMA1稍有进步(+1%)。根据观察,微调也增强了模型的指令跟随能力:无法解析输出的概率从LLaMA1的 4.1%降至LLaMA1-QA的 1.7%。

(c)在多种科学任务上的微调表现比较。

评估指标上,分类任务使用F1-score,回归任务使用MAE,转换任务使用KL散度。如下表所示,科学任务中LLaMA1-QA与LLaMA1模型相比有明显改善。

最明显的改进体现在回归任务中,MAE从463.96降至185.32。这些发现表明,在训练过程中加入QA对可以增强模型学习和应用科学知识的能力,从而提高其在下游预测任务中的表现。

令人惊讶的是,与专门设计的具有特征的机器学习模型相比,LLM 可以在某些任务中取得相当甚至超越它们的结果。例如,在带隙任务中,虽然LLaMA1-QA 的表现不如 MODNet 等模型(0.3327),但它已经超过了AMMExpress v2020(0.4161)。

在多样性任务中,LLaMA1-QA 的表现优于深度学习基线(0.3198)。这些研究结果表明,LLM在特定科学任务中具有巨大潜力。

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

图示:LLaMA1和LLaMA1-QA在SciQ和科学任务上的微调表现(M代表多项选择,C代表分类,R代表回归,T代表转换)

总结与展望

(1)SciQAG是一个从科学文献中生成QA对的框架,结合用于评估和筛选QA对的RACAR指标,可高效地为资源匮乏的科学领域生成大量基于知识的QA数据。

(2)团队生成了一个包含188,042个QA对的综合开源科学QA数据集,称为SciQAG-24D。训练集用于微调LLM,测试集评估LLM在开放式闭卷科学QA任务上的表现。

对SciQAG-24D测试集上几个LLM的零样本性能进行了比较,并在SciQAG-24D训练集上微调了LLaMA1,得到了LLaMA1-QA。这种微调显著提高了其在多个科学任务上的表现。

(3)研究表明,LLM在科学任务中具有潜⼒,LLaMA1-QA的结果可以达到甚⾄超过机器学习基线的⽔平。这证明了SciQAG-24D的多方面效用,表明将科学QA数据纳入训练过程可以增强LLM的学习和应用科学知识的能力。

以上是为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:jiqizhixin.com
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板