近年來,隨著問答技術和多模態理解技術的蓬勃發展,視覺問答任務(Visual Question Answering)變得越來越受關注。諸如 VQA、CLEVER、Visual-7W 等大規模視覺問答資料集陸續發布,大大推動了視覺問答任務的迭代發展。然而,目前大部分視覺問答資料都是人工合成問題,如 “她的眼睛是什麼顏色” 這種標註者在看到圖片後虛構設計出的。人工產生的數據會相對簡單、低質甚至有偏。因此,在這項工作中,我們基於 QQ 瀏覽器中用戶真實的問題,提出了一個基於中文的大規模圖片問答資料集:ChiQA。
ChiQA 包含超過 4 萬個真實用戶 query 和超過 20 萬個問題 - 圖像對。數據和一些 baseline 模型已經公佈在GitHub。相關研究已被 CIKM2022 長文錄用。
#論文網址:https://arxiv.org/abs/2208.03030
Github網址:https://github.com/benywon/ChiQA
問答系統(Question Answering) 是人工智慧和智慧語言處理中非常重要的任務之一。近年來,隨著大規模資料集(如 SQuAD、NaturalQuestions)的發布以及大規模預訓練語言模型(如 BERT、GPT)的提出,問答任務得到了飛速的發展。然而,目前大部分的問答任務都是單模態的,即問題、資源以及答案都是基於文本。然而,從認知智慧以及實際應用的角度來說,多模態資源如影像在許多時候往往能提供更豐富的資訊和答案。例如,對於一個問題:iPhone13 的尺寸是多少?一個針對 iPhone13 不同型號的尺寸對比圖會更清楚、更直覺。還有一些例子如下圖:
#圖一:一些適合用圖片回答使用者問題的範例
#最近幾年,針對多模態理解的問答資料和任務被相繼提出。如 VQA1.0 和 2.0、CLEVR、GQA 等等。在大部分影像問答資料集中,系統提供一些人工生成或真實的影像給標註者,標註者需要人工寫出一些針對特定屬性或實體的問題。然而,這種資料收集過程不可避免的有許多缺陷:
1)所有的問題都是與影像相關的(image-dependent),即標註者看到圖片之後提出問題。在大規模資料建構過程中,人工生成的問題往往缺乏多樣性,而且往往會因為標註者的主觀因素會產生偏置。在這種先看資源,再提問的資料上訓練的模型往往可以不用看背景資源只看問題而輕易達到非常好的效果;
##2)其次,在傳統在的VQA 數據中,答案往往是一個簡單的實體、關係或簡單對特定區域的描述。然而對於實際的圖像問答任務中,許多文本性答案是不必要的,例如對於問題:“羊駝長什麼樣子”,提供一個冗長的答案描述羊駝的外表顯得非常冗餘。其次,這種簡短的實體描述往往會讓標註者只關注局部關係,而很少注意真正整體結構上的一些資訊;
3)最後,大部分之前的資源往往是專注於英文,在中文領域的圖像問答數據很少。
在这个工作中,针对以上几个问题,我们提出了一个大规模的中文图像问答数据集 - ChiQA(Chinese Image Question Answering)。我们通过手机 QQ 浏览器中用户真实的搜索词出发,通过特定 API 检索到相关的若干张ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集,然后将ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集交由经过专业培训的标注人员进行三级标注,以表示该ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集是否能完美回答(2 分)、部分回答(1 分)以及不能回答(0 分)用户的问题。对于 ChiQA 来说,有三个显著的特点:
图二:ChiQA 和业界其他一些图像问答数据的对比
最终我们收集了超过 40000 个问题,每个问题都有大约 5 个相关的ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集,即总量超过 20 万的问题 - ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集对。每个问题都有若干张ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集,我们对每个ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集以2-1-0进行三挡打分。
一些 ChiQA 中的例子如下图所示:
图三:ChiQA 中一些样本的示例。
整个数据的收集过程可以分为四步,整体流程图如下:
图四:数据收集过程
对于 ChiQA 来说,其一大特色是所有的问题都来源于用户真实的查询。然而,如果我们随机从搜索引擎用户的搜索日志中采样用户的查询,那么大部分查询都是没有问答意图的。
因此我们首先需要过滤出有问答意图的 query。在这个工作中,我们采用了一种内部构造的弱监督方法训练了一个二分类器,来判定一个 query 是不是有问答意图。人工评测这个意图模型能够达到 90% 的精度以及 80% 的召回。我们通过这个模型对用户的 query 进行采样,得到了大约 7.5 万个经过模型判定具有问答意图的用户 query 进入下一轮。
得到了問題之後,我們將這些問題發送給谷歌提供的開放 API(Google Images API - SerpApi)進行相關圖像檢索。 Google API 對每個 query 會傳回最相關的 100 個影像。為了確保最後資料的質量,我們去掉了那些長度或寬度小於 200 像素的 query以及那些過長或過寬的影像。
得到了原始圖像之後,我們取經過過濾後的前 5 張圖片,並請標註人員標註這個 query 和對應的 5 張圖片。我們內部專門為本任務設計了一個標註介面,如下圖所示。
#圖五:ChiQA 的標註介面
在標註過程中,我們讓標註人員標註三個面向:
1) 問題標註
由於本工作主要著眼於圖片問答,而事實上在普通的用戶問題中很多都和圖片問答無關(或者很難用圖片來回答)。因此我們先讓標註人員標註這個問題是不是可以算是圖片問答的問題。例如:
如果一個問題是“xxx 和xxx 的差別”,那麼這個問題就會被認為是一個具有圖像問答意圖的問題;
如果一個問題是模糊的、具有歧義的或包含有沒有事實根據推論的觀點,那麼這個問題就會被歸類於無圖像問答意圖,並且不會參與到後續圖片標註的過程中。
一些query 標註的範例如圖6 所示:
圖6: query 標註的範例
2) 圖片標註
對於上一個有效的query,我們對其5 個候選query 進行標註。標註的標準是三級0-1-2 標註,其中:
0 分錶示這個圖片完全不能用來回答這個問題,2 分錶示這個圖片品質過關並且可以完全獨立的回答這個問題。而 1 分的圖片則介於這兩者之間,表示這個圖片和這個 query 相關,但是卻無法直接回答,用戶可能需要更多的查詢或推理才能得到最終的答案。一些0 分、1 分、2 分的例子如下圖所示:
#圖七:對於問題「如何使用不同介詞”,圖片標註評分的範例
3) 品質控制
我們在整個標註過程中採用了嚴格的品質控制方案。具體來說,我們首先會邀請 3 個品質團隊進行試標註,選擇標註品質最好的那個團隊來標註餘下所有的數據。其次,在標註過程中,我們會將標註資料分批,每一批次的資料我們會採樣其中五分之一的資料進行人工校驗,如果資料的合格率小於90%,那麼這一批次的資料將會被打回重新進行標註,直到資料精度達到90%。
經過資料收集的工作,我們發現如果隨機對資料進行取樣和標註,那麼資料中往往會存在一些簡單的模式,這種簡單的模式大量存在於資料中可能會對最終的模型造成偏移影響。因此,我們設計了一個主動學習的標註過程。具體來說,我們首先將讓標註人員標註一批數據,這一批數據標註完成之後,我們就用這一批數據訓練一個跨膜態的文本圖像匹配模型。模型訓練完畢之後,我們開始用這個模型來「選擇」 新的樣本:如果模型對這個新的樣本預測非常不確定(即最後分類預測的熵特別大),那麼我們認為這個樣本相對模型較難,因此有較大機率保留到下一輪中間,反之說明模型對這個數據已經很置信了,那麼這個模型以較小的機率保留到下一輪。
我們發現主動學習資料選擇過程確實讓資料集更無偏。我們發現第一階段的標記資料包含一些難以察覺的偏置。例如,包含「的技巧」 字的問題標記為有效問題,但幾乎所有相應的圖像被標記為無法回答(即0 分),因此模型很可能不看圖片直接根據query 中的問題就預測出最終的結果。而這種主動學習的過程降低了這種可能性,這種高置信度且有偏的竅門(shortcut)在下一輪中很難被選擇上,從而降低了這種模式的影響面。
我們隨機從標註數據中篩選出來 2500 個數據,並且讓不同的標註者重新標註。如果標註的結果和先前的結果一樣,則這個數據被保留為測試集,要是不一樣,我們讓一個對任務非常了解的「專家」重新標註這個數據,最終得到了2362 條測試數據以及超過4 萬條訓練資料。訓練集和測試集的統計資訊如下圖所示:
#圖八:ChiQA 中訓練集和測試集的統計信息
在標註完資料之後,我們對ChiQA 中的資料進行統計和分析。
1)query 常用詞分析:
#我們用結巴分詞對query 進行切分,並且將query中的單字按照頻率展示在下面的雲圖上:
#可以看到ChiQA 中最常見的query 是區別、圖解、位置等。這和我們的直覺一樣,因為這些字確實是很適合圖片來回答的問題。
2)領域分析
我們使用內部的一個領域分類的分類器來對所有的query 進行分類,最終的結果如下圖所示:
可以看到我們的數據包含有很多種領域的數據,並且沒有某一種領域的數據是佔絕對多數的。這保證了我們的數據分佈是均勻的。其次,我們對問題裡面的疑問詞也進行統計,結果如下圖所示:
#可以看到ChiQA 中what 類別和how to類問題佔了大多數,而其他的一些問題也有相當大的比例。
3)影像分析
##########除了問題之外,我們也對 ChiQA 中的圖像進行了分析。由於影像大部分是語言無關的,因此我們採用了一個在業界公認效能比較優良的目標偵測模型 DETR 來挖掘出影像中的實體。 DETR 可以將影像中的實體對應到標準 MS-COCO 定義的實體中,如 「人物」、「狗」 等。我們對ChiQA 中的每個影像挖掘出實體,並將最高頻次的實體分佈展示在下圖中:
可以看到在ChiQA中有超過30 個實體出現了至少1000 次,這顯示出ChiQA 是一個分佈非常均勻並且覆蓋了大部分領域的圖像數據,其中出現次數最多的實體是“人物”、“手機”、“汽車” 等。這個和問題的分佈類似。
4)推理技能
#為了更好地分析數據,我們也對ChiQA 數據中所需要的推理技能進行了分析。著重分析了5 中需要推理的技能:
#我們隨機採樣了200 條數ChiQA 據並且根據上述5 個標準進行標註,其中某些數據可能需要不只一種推理技能。其結果如下圖所示。
可以看到除了 Grouding 之外,超過 80% 的 ChiQA 資料需要深度理解圖片中的文字和對比關係。這和之前大部分的 VQA 數據很不一樣。其次,有相當多的問題需要邏輯和對比,說明 ChiQA 中的數據具有相當的難度。我們認為對 ChiQA 中推理技能的分析可以幫助我們更好地理解這個數據,並且為後續的模型設計提供一些先驗的指導。
實驗評估指標在ChiQA 資料集中,標註評分有三擋:0,1,2,所以在實驗中我們測試模型排序的指標和普通分類的指標。分為三類:
我們在ChiQA 資料集上實驗了多個常用的模型。仿照之前圖片 - 文字匹配的工作,我們先把圖片和文字分別用編碼器進行編碼,然後將它們的表示進行跨模態融合,最後用一個預測層來獲取匹配得分。在下面所列模型中,加♣代表模型經過了預訓練,加♦則表示沒有。
以下是結果顯示:
#上述模型在測試集上的指標如圖所示。我們可以看到,直接應用之前最先進的跨模態方法的效果很差,指標只比隨機評分模型好一點。這意味著 ChiQA 數據更難,僅使用大規模的弱監督對比學習的模型,如 ALBEF*、Wenlan,可能無法區分視覺問答所需的細粒度資訊。此外,這些模型的糟糕表現說明,ChiQA 數據集不同於先前弱監督的圖像 - 文字匹配數據,因為弱監督的圖像 - 文字匹配側重於相關性,而 ChiQA 數據同時要求圖片的可回答性。
最後,在ChiQA 上微調的模型在基線上取得了很大的進步,但與人類的表現仍然相差較遠,所以模型在ChiQA 資料集還有很大的提升空間。
隨著網路的發展,使用者對問答的需求更高,需要係統提供更直覺、便利的答案。特別是最近幾年,多媒體內容愈加的豐富,以圖片、影片為載體的問答內容越來越多的出現在公眾面前。 QQ 瀏覽器實驗室立知團隊在今年 4 月率先在業界推出圖片問答項目,如用戶搜獼猴桃和奇異果的區別,結果會以圖片的形式直觀的展現在用戶面前。如下圖所示:
目前這種可以直接由圖片滿足的問題上線後取得了良好的效果。我們觀察到其使用者行為(如 CTR、換詞率等)相較於傳統的結果有著明顯的改善,說明目前以圖片等為載體的 「新問答」 是一個更能滿足使用者需求的產品業務。
作者團隊介紹
QQ 瀏覽器搜尋技術中心團隊是騰訊PCG 資訊平台與服務線負責搜尋技術研發的團隊,依托騰訊內容生態,透過使用者研究驅動產品創新,提供使用者圖文、資訊、小說、長短視頻、服務等多方位資訊的需求滿足。在演算法方面,以自然語言處理、深度學習、多模態理解與生成、知識計算與應用等技術為基礎,建構內容理解、相關性與排序、多模態搜尋、智慧問答、多語言翻譯、搜尋推薦等技術方向,探索並應用業界先進技術、打造更優秀的用戶搜尋體驗;在工程方面,建置搜尋技術中台工業系統,打磨高效能、高可用、低成本的百億級檢索系統,為騰訊PCG 各內容業務的搜尋場景提供基礎的搜尋引擎服務,目前已支援QQ 瀏覽器、騰訊影片、騰訊新聞、騰訊微視等PCG 多條產品線。
以上是ChiQA-一個基於20萬個真實用戶問題的圖片問答資料集的詳細內容。更多資訊請關注PHP中文網其他相關文章!