基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA
越來越多的工作證明了預訓練語言模型(PLM)中蘊含著豐富的知識,針對不同的任務,用合適的訓練方式來撬動PLM,能更好地提升模型的能力。在 Text-to-SQL 任務中,目前主流的生成器是基於語法樹的,需要針對 SQL 語法進行設計。
近期,網易互娛 AI Lab 聯合廣東外語外貿大學和哥倫比亞大學基於預訓練語言模型 T5 的預訓練方式,提出了兩階段的多任務預訓練模型 MIGA。 MIGA 在預訓練階段引入三個輔助任務,並將他們組織成統一的生成任務範式,可以將所有的Text-to-SQL 資料集統一進行訓練;同時在微調階段,MIGA 針對多輪對話中的錯誤傳遞問題進行SQL 擾動,提升了模型產生的穩健性。
目前對於Text-to-SQL 的研究,主流的方法主要是基於SQL 語法樹的encoder-decoder 模型,可以確保產生的結果一定符合SQL 語法,但需要針對SQL 語法進行特殊設計。最近也有一些關於 Text-to-SQL 的研究是基於生成式語言模型,可以很方便地繼承預訓練語言模型的知識和能力。
為了降低對基於語法樹的依賴,更好地挖掘預訓練語言模型的能力,該研究在預訓練T5 模型的框架下,提出了一個兩階段的多任務Text-to-SQL 預訓練模型MIGA (MultI-task Generation frAmework)。
MIGA 分為兩階段的訓練流程:
- #在預訓練階段,MIGA 使用與T5 相同的預訓練範式,額外提出了三個與Text-to-SQL 相關的輔助任務,從而更好地激發預訓練語言模型中的知識。此訓練方式可以將所有的 Text-to-SQL 的資料集進行統一,擴充了訓練資料的規模;而且也可以靈活地去設計更多有效的輔助任務,進一步發掘預訓練語言模型的潛在知識。
- 在微調階段,MIGA 針對多輪對話和SQL 中容易存在的錯誤傳遞問題,在訓練過程中對歷史SQL 進行擾動,使得產生目前輪次的SQL 效果更加穩定。
MIGA 模型在兩個多輪對話Text-to-SQL 公開資料集上表現優於目前最好的基於語法樹的模型,相關研究已經被AAAI 2023 錄用。
#論文網址:https://arxiv.org/abs/2212.09278
MIGA 模型細節
圖1 MIGA 模型圖。
多任務預訓練階段
#該研究主要參考T5 的預訓練方式,基於已經訓練好的T5 模型,設計了四個預訓練任務:
- Text-to-SQL 主任務:上圖中的黃色部分,透過設計Prompt 為”translate dialogue to system query”,然後以一些special tokens 來將歷史對話、資料庫資訊和SQL語句拼接輸入到T5-encoder 中,讓decoder 直接輸出對應的SQL 語句;
- 相關資訊預測:上圖中的綠色部分,設計Prompt 為」translate dialogue to relevant column ”,T5-encoder 的輸入也是與主任務一致,decoder 則需要輸出與當前問題相關的數據表和列,目的是加強模型對Text-to-SQL 的理解;
- #目前輪次的操作預測:上圖中的灰色部分,設計Prompt 為”translate dialogue to turn switch”,這個任務主要是針對多輪對話中的上下文理解進行設計,對比上一輪的對話和SQL ,decoder 需要輸出目前對話的目的做了哪些變化,比如圖中例子是where 條件進行了改動;
- 最終對話預測:上圖中的藍色部分,設計Prompt為”translate dialogue to final utterance”,目的是為了讓模型去更好的理解上下文對話,需要decoder 輸出整個多輪對話下來,最後時刻的SQL 對應的一句完整問題描述。
透過這樣的一個統一的訓練方式設計,MIGA 可以通用而又靈活地去處理更多與任務相關的額外任務,而且還有一下優點:
- 參考人類編寫SQL 的步驟,對話文字到SQL 任務被分解為多個子任務,允許主任務從中學習;
- 訓練樣本的建構格式與T5 一致,可以最大限度地發揮預訓練T5 模型對目標任務的潛力;
- 統一的框架允許多個輔助任務的靈活調度。當應用於特定任務時,僅需在特定任務的標記資料中使用相同的訓練目標對上面的預訓練模型進行微調即可。
在預訓練階段,研究整合了Text-to-SQL 資料集Spider 和對話Text-to-SQL 資料集SparC 和CoSQL 的資料來訓練T5 模型。
微調階段
#在預訓練階段之後,研究針對目標任務的標註數據,單純使用Text-to-SQL 任務來進一步微調模型。研究在預測目前輪次的SQL 時,會拼接先前輪次的預測SQL,在此過程中,為了盡量克服多輪對話和生成中所帶來的錯誤傳遞問題,研究提出了SQL 擾動的方案,對輸入資料中的歷史輪次SQL,以α 機率來進行擾動。 SQL 語句的擾動主要以β 的機率取樣對應的token,然後進行下列其一的擾動:
- 用相同資料表中的列,來隨機修改或新增SELECT 部分中的欄位;
- 隨機修改JOIN 條件中的結構,例如交換兩個表的位置;
- ##修改”* ” 所有列為一些其他的列;
- 交換”asc” 和”desc”。
上述的擾動是該研究在實驗中統計發現最常見的一些錯誤傳遞導致的SQL 生成錯誤情況,因此針對這些情況來進行擾動,降低模型關於這方面的依賴。
實驗評估評估資料集為多輪對話 Text-to-SQL:SparC 和 CoSQL。
評估指標為:
- #QM:Question Match,表示單輪問題中的產生的SQL 與標註輸出完全匹配的比例;
- IM:Interaction Match,表示多輪對話中整個完整輪次所有產生的SQL 與標註輸出完全匹配的比例。
在表1 的比較實驗中,MIGA 在兩個資料集上的IM 分數,以及CoSQL 的QM 分數上,超過了目前最好的多輪對話Text-to-SQL 模型。而且比較同類型的基於 T5 的方案,MIGA 分別在 IM 上提升了 7.0% 和 QM 上提升了 5.8%。
表 1 比較實驗分析,第一部分為樹模型,第二部分為基於預訓練產生模型。
在表2 的消融實驗中,該研究對MIGA 的兩階段訓練過程中的幾個任務進行了探索,同時證明了這些任務分別都會對目標任務有不同程度的提升。
表 2 針對 SparC 任務,分別移除各項任務或數據,在指標上都有所降低。
在實際的案例分析結果,MIGA 在產生的穩定性和正確性,對比基於T5-3B 訓練模型更好,可以看到MIGA 在多表連接操作和列和表格的映射上要優於其他模型。在Case#1 的Question#2 中,T5-3B 模型無法為相對複雜的JOIN 結構(兩表連接)產生有效的SQL,進而導致Question#3 中更複雜的JOIN 結構(三表連接)也預測錯誤。而 MIGA 準確地預測了 JOIN 結構,並且較好地維持了先前的條件 t1.sex="f"。在 Case#2 中,T5- 3B 混淆了不同表中的多個列,並將 earnings 誤認為是 people 表的列,而 MIGA 可以正確識別該列屬於 poker_player 表,並將其連結至 t1。
#表 3 案例分析。
結語
網易互娛 AI Lab 針對 Text-to-SQL 提出了一個基於 T5 的兩階段的多任務預訓練模型:MIGA。在預訓練階段,MIGA 將 Text-to-SQL 任務分解出了額外三個子任務,並將其統一為序列到序列的生成範式,從而更好地激發預訓練 T5 模型。並且在微調階段引入了 SQL 擾動機制,降低多輪 Text-to-SQL 生成場景下的錯誤傳遞帶來的影響。
未來,研究團隊將進一步探索更多有效的策略來撬動超大語言模型的能力,並探索更優雅更有效的方式來進一步克服因為錯誤傳遞而導致的效果降低問題。
以上是基於T5的兩階段的多任務Text-to-SQL預訓練模型MIGA的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對
