首個標註詳細解釋的多模態科學問答資料集,深度學習模型推理有了思考鏈
在回答複雜的問題時,人類可以理解不同模態的訊息,並形成一個完整的思維鏈(Chain of Thought, CoT)。深度學習模型是否可以打開「黑盒子」,對其推理過程提供一個思考鏈呢?近日,UCLA 和艾倫人工智慧研究院(AI2)提出了首個標註詳細解釋的多模態科學問答資料集 ScienceQA,用於測試模型的多模態推理能力。在 ScienceQA 任務中,作者提出 GPT-3 (CoT) 模型,即在 GPT-3 模型中引入基於思考鏈的提示學習,從而使得模型能在產生答案的同時,產生相應的推理解釋。 GPT-3 (CoT) 在 ScienceQA 上實現了 75.17% 的準確率;並且人類評估表明,其可以產生較高品質的解釋。
像人類一樣有效地學習並完成複雜的任務是人工智慧追求的長遠目標之一。人類在決策過程中可以遵循一個完整的思考鏈(CoT)推理過程,從而對給出的答案做出合理的解釋。
然而,現有的機器學習模型大多依賴大量的輸入 - 輸出樣本訓練來完成具體的任務。這些黑箱模型往往直接產生最終的答案,而沒有揭示具體的推理過程。
科學問答任務(Science Question Answering)可以很好地診斷人工智慧模型是否具有多步驟推理能力和可解釋性。為了回答科學問題,一個模型不僅需要理解多模態內容,還需要提取外部知識以得出正確答案。同時,一個可靠的模型也應該給出揭示其推理過程的解釋。然而,目前的科學問答資料集大多缺乏對答案的詳細解釋,或是局限於文字模態。
因此,作者收集了全新的科學問答資料集 ScienceQA,它包含了 21,208 道來自中小學科學課程的問答多選題。一道典型的問題包含多模態的背景(context)、正確的選項、通用的背景知識(lecture)以及具體的解釋(explanation)。
#ScienceQA 資料集的範例。
要回答上圖所示的例子,我們首先要回憶關於力的定義:「A force is a push or a pull that ... The direction of a push is ... The direction of a pull is ... ”,然後形成一個多步驟的推理過程:“The baby's hand applies a force to the cabinet door. → This force causes the door to open. → The direction of this force is toward the baby's hand. 」,最終得到正確答案:「This force is a pull. 」。
在 ScienceQA 任務中,模型需要在預測答案的同時輸出詳細地解釋。在本文中,作者利用大規模語言模型生成背景知識和解釋,作為一種思維鏈(CoT)來模仿人類具有的多步驟推理能力。
實驗表明,目前的多模態問答方法在 ScienceQA 任務中不能取得很好的表現。相反,透過基於思維鏈的提示學習,GPT-3 模型能在ScienceQA 資料集上取得75.17% 的準確率,同時可以產生品質較高的解釋#:根據人類評估,其中65.2% 的解釋相關、正確且完整。思維鏈也可以幫助 UnifiedQA 模型在 ScienceQA 資料集上取得 3.99% 的提升。
- 論文連結:https://arxiv.org/abs/2209.09513
- 程式碼連結:https:/ /github.com/lupantech/ScienceQA
- #專案首頁:https://scienceqa.github.io/
- #資料視覺化:https://scienceqa.github.io/explore.html
- Leaderboard:https://scienceqa.github .io/leaderboard.html
1、ScienceQA 資料集
資料集統計量
ScienceQA 的主要統計資料如下所示。
ScienceQA 資料集的主要資訊
ScienceQA 包含 21208 一個例子, 其中有 #9122 個不同的問題(question)。 10332 道(48.7%)有視覺背景信息,10220 道(48.2%)有文本背景信息,6532 道(30.8%)有視覺 文本的背景信息。絕大部分問題標註有詳細的解釋:83.9% 的問題有背景知識標註(lecture),而 90.5% 的問題有詳細的解答(explanation)。
#ScienceQA 資料集中問題與背景分佈。
資料集主題分佈
#不同於現有的資料集,ScienceQA 涵蓋自然科學、社會科學和語言學三大學科分支,包含26 個主題(topic)、127 個分類(category)和379 個知識技能(skill)。
#ScienceQA 的主題分佈。
資料集詞雲分佈
#如下圖的詞雲分佈所示, ScienceQA 中的問題具有豐富的語意多樣性。模型需要理解不同的問題表達、場景和背景知識。
ScienceQA 的詞雲分佈。
資料集比較
#ScienceQA 是第一個標註詳細解釋的多模態科學問答資料集。相較於現有的資料集,ScienceQA 的資料規模、題型多樣性、主題多樣性等多個維度體現了優勢。
#ScienceQA 資料集與其它科學問答資料集的比較。
2、模型與方法
Baselines
作者在ScienceQA 資料集了評估不同的基準方法,包括VQA 模型如Top-Down Attention、MCAN、BAN、DFAF、ViLT、Patch-TRM 和VisualBERT,大規模語言模型如UnifiedQA 和GPT- 3,以及random chance 和human performance。對於語言模型 UnifiedQA 和 GPT-3,背景圖片會被轉換成文字形式的註解(caption)。
GPT-3 (CoT)
#最近的研究工作表明,在給定合適的提示後, GPT-3 模型可以在不同的下游任務中表現出卓越的表現。為此,作者提出GPT-3 (CoT) 模型,在提示中加入思維鏈(CoT),使得模型在產生答案的同時,可以產生對應的背景知識和解釋。
具體的提示範本如下圖所示。其中 Ii 表示訓練例子,It 表示測試例子。訓練範例包含問題(Question)、選項(Options)、背景(Context)和答案(Answer)元素,其中答案由正確答案、背景知識(Lecture)和解釋(Explanation)組成。 GPT-3 (CoT) 會根據輸入的提示訊息,補全測試範例的預測答案、背景知識和解釋。
#GPT-3 (CoT) 所採用的提示範本。
3、實驗與分析
#實驗結果
不同的基準和方法在ScienceQA 測試集上的準確率結果如下表所示。目前最好的 VQA 模型之一的 VisualBERT 只能達到 61.87% 的準確率。 在訓練的過程引入 CoT 數據,UnifiedQA_BASE 模型可以實現 74.11% 的準確率。而 GPT-3 (CoT) 在 2 個訓練範例的提示下,實現了 75.17% 的準確率,高於其它基準模型。人類在 ScienceQA 資料集上表現優異,可以達到 88.40% 的整體準確率,並且在不同類別的問題上表現穩定。
#不同的方法在 ScienceQA 測試集上的結果。
產生解釋的評估
#作者用自動評估指標如BLEU-1、 BLEU-2、ROUGE-L 和Sentence Similarity 評估了不同方法產生的解釋。由於自動評估指標只能衡量預測結果和標註內容的相似性,因此作者進一步採用了人工評估的方法,來評估產生解釋的相關性、正確性和完整性。可以看到,GPT-3 (CoT) 產生的解釋中 65.2% 符合了 Gold 標準。
不同評估方法對產生解釋的結果。
不同的提示範本
作者比較了不同的提示模板對GPT-3 (CoT) 準確率的影響。可以看到在 QAM-ALE 的模板下,GPT-3 (CoT) 可以獲得最大的平均準確率和最小的變異數。另外,GPT-3 (CoT) 在 2 個訓練例子的提示下,表現最佳。
不同提示範本的結果比較。
模型上限
#為了探討GPT-3 (CoT) 模型的效能上限,作者把標註的背景知識和解釋加入模型的輸入(QCMLE*-A)#。我們可以看到 GPT-3 (CoT) 可以達到高達 94.13% 的準確率。這也提示了模型提升的一個可能方向:模型可以進行逐步推理,即先檢索到準確的背景知識和產生準確的解釋,然後把這些結果作為輸入。這個過程和人類解決複雜問題的過程很相似。
#GPT-3 (CoT) 模型的效能上限。
不同的ALE 位置
#作者進一步討論了 GPT-3 (CoT) 在產生預測時,不同的ALE 位置對結果的影響。在 ScienceQA 上的實驗結果表明,如果 GPT-3 (CoT) 先生成背景知識 L 或解釋 E,再產生答案 A,其預測準確率會大幅下降。其主要原因是背景知識 L 和解釋 E 有較多的詞語數量,如果先生成 LE,GPT-3 模型有可能用完最大詞數,或者提前停止生成文本,從而不能得到最終的答案 A。
不同的 LE 位置。
成功案例
#如下4 個範例中,GPT-3 (CoT) 不但能產生正確的答案,也能給出相關、正確且完整的解釋。這說明 GPT-3 (CoT) 在 ScienceQA 資料集上表現出較強的多步驟推理和解釋能力。
GPT-3 (CoT) 產生正確答案和解釋的範例。
失敗案例I
#在下面的三個例子中,GPT-3 (CoT) 雖然產生了正確的答案,但產生的解釋不相關、不正確或不完整
。這說明 GPT-3 (CoT) 對於產生邏輯一致的長序列還面臨較大的困難。
######GPT-3 (CoT) 能產生正確答案、但是產生的解釋不正確的範例。 ############
失敗案例II
在下面的四個範例中,GPT-3 (CoT) 不能產生正確的答案,也不能產生正確的解釋。其中的原因有:(1)目前的image captioning 模型還不能準確地描述示意圖、表格等圖片的語義訊息,如果用圖片註釋文字表示圖片,GPT-3 (CoT) 還不能很好地回答包含圖表背景的問題;(2)GPT-3 (CoT) 產生長序列時,容易出現前後不一致(inconsistent)或不連貫(incoherent)的問題;(3)GPT-3 (CoT) 還不能很好地回答需要特定領域知識的問題。
GPT-3 (CoT) 能產生錯誤答案和解釋的例子。
4、結論與展望
###作者提出了首個標註詳細解釋的多模態科學問答資料集 ScienceQA。 ScienceQA 包含 21208 道來自中小學科學學科的多選題,涵蓋三大科學領域和豐富的主題,大部分問題標註有詳細的背景知識和解釋。 ScienceQA 可以評估模型在多模態理解、多步驟推理和可解釋性方面的能力。作者在 ScienceQA 資料集上評估了不同的基準模型,並提出 GPT-3 (CoT) 模型在產生答案的同時,可以產生相應的背景知識和解釋。大量的實驗分析和案例分析對模型的改進提出了有利的啟發。 ######以上是首個標註詳細解釋的多模態科學問答資料集,深度學習模型推理有了思考鏈的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

激活函數在深度學習中扮演著至關重要的角色,它們能夠為神經網路引入非線性特性,使得網路能夠更好地學習並模擬複雜的輸入輸出關係。正確選擇和使用激活函數對於神經網路的性能和訓練效果有著重要的影響本文將介紹四種常用的激活函數:Sigmoid、Tanh、ReLU和Softmax,從簡介、使用場景、優點、缺點和優化方案五個維度進行探討,為您提供關於激活函數的全面理解。 1.Sigmoid函數SIgmoid函數公式簡介:Sigmoid函數是常用的非線性函數,可以將任何實數映射到0到1之間。它通常用於將不歸一

BERT是由Google在2018年提出的一種預先訓練的深度學習語言模式。全稱為BidirectionalEncoderRepresentationsfromTransformers,它基於Transformer架構,具有雙向編碼的特性。相較於傳統的單向編碼模型,BERT在處理文字時能夠同時考慮上下文的訊息,因此在自然語言處理任務中表現出色。它的雙向性使得BERT能夠更好地理解句子中的語義關係,從而提高了模型的表達能力。透過預訓練和微調的方法,BERT可以用於各種自然語言處理任務,如情緒分析、命名

潛在空間嵌入(LatentSpaceEmbedding)是將高維度資料對應到低維度空間的過程。在機器學習和深度學習領域中,潛在空間嵌入通常是透過神經網路模型將高維輸入資料映射為一組低維向量表示,這組向量通常被稱為「潛在向量」或「潛在編碼」。潛在空間嵌入的目的是捕捉資料中的重要特徵,並將其表示為更簡潔和可理解的形式。透過潛在空間嵌入,我們可以在低維空間中對資料進行視覺化、分類、聚類等操作,從而更好地理解和利用資料。潛在空間嵌入在許多領域中都有廣泛的應用,如影像生成、特徵提取、降維等。潛在空間嵌入的主要

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

自2006年深度學習概念被提出以來,20年快過去了,深度學習作為人工智慧領域的一場革命,已經催生了許多具有影響力的演算法。那麼,你所認為深度學習的top10演算法有哪些呢?以下是我心目中深度學習的頂尖演算法,它們在創新、應用價值和影響力方面都佔有重要地位。 1.深度神經網路(DNN)背景:深度神經網路(DNN)也叫多層感知機,是最普遍的深度學習演算法,發明之初由於算力瓶頸而飽受質疑,直到近些年算力、數據的爆發才迎來突破。 DNN是一種神經網路模型,它包含多個隱藏層。在該模型中,每一層將輸入傳遞給下一層,並

在當今科技日新月異的浪潮中,人工智慧(ArtificialIntelligence,AI)、機器學習(MachineLearning,ML)與深度學習(DeepLearning,DL)如同璀璨星辰,引領著資訊科技的新浪潮。這三個詞彙經常出現在各種前沿討論和實際應用中,但對於許多初涉此領域的探索者來說,它們的具體含義及相互之間的內在聯繫可能仍籠罩著一層神秘面紗。那讓我們先來看看這張圖。可以看出,深度學習、機器學習和人工智慧之間存在著緊密的關聯和遞進關係。深度學習是機器學習的一個特定領域,而機器學習

1.引言向量檢索已成為現代搜尋和推薦系統的核心組件。透過將複雜的物件(例如文字、圖像或聲音)轉換為數值向量,並在多維空間中進行相似性搜索,它能夠實現高效的查詢匹配和推薦。從基礎到實踐,回顧Elasticsearch向量檢索發展史_elasticsearchElasticsearch作為一款流行的開源搜尋引擎,在向量檢索方面的發展也一直備受關注。本文將回顧Elasticsearch向量檢索的發展歷史,重點介紹各階段的特性與進展。以史為鑑,方便大家建立起Elasticsearch向量檢索的全量

编辑|萝卜皮自2021年发布强大的AlphaFold2以来,科学家们一直在使用蛋白质结构预测模型来绘制细胞内各种蛋白质结构的图谱、发现药物,并绘制每种已知蛋白质相互作用的「宇宙图」。就在刚刚,GoogleDeepMind发布了AlphaFold3模型,该模型能够对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测。AlphaFold3的准确性对比过去许多专用工具(蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测)有显著提高。这表明,在单个统一的深度学习框架内,可以实现
