微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%
微軟最新研究再次證明了提示工程的威力——
無需額外微調,無需專家策劃,僅憑提示,GPT-4就能化身「專家」。
使用他們提出的最新提示策略Medprompt,在醫療專業領域,GPT-4在MultiMed QA九個測試集中取得最佳結果。
在MedQA資料集(美國醫師執照考試題)上,Medprompt讓GPT-4的準確率首次超過90%,超越BioGPT和Med-PaLM等一眾微調方法。
研究人員也表示Medprompt方法是通用的,不僅適用於醫學,還可以推廣到電機工程、機器學習、法律等專業。
這項研究在X(原Twitter)一分享,就引發許多網友關注。
華頓商學院教授Ethan Mollick、Artificial Intuition作者Carlos E. Perez等都有轉寄分享。
Carlos E. Perez直呼「出色的提示策略可以甩微調一大截」:
有一些網友表示早就有這種預感,現在能看到結果出來,真的太酷了!
有些網友認為這真的很「激進」
GPT-4是一項能改變產業的技術,而我們還遠沒有觸及提示的極限,也未達微調極限。
組合提示策略,「變身」專家
Medprompt是多種提示策略的組合體,包含三大法寶:
- 動態少樣本選擇(Dynamic few-shot selection)
- 自生成思維鏈(Self-generated chain of thought)
- 選項洗牌整合(Choice shuffling ensemble )
接下來,我們將逐一介紹
#動態少樣本選擇
少樣本學習是讓模型快速學習情境的一種有效的方法。簡單來說,就是輸入一些範例,讓模型快速適應特定領域,並學習遵循任務的格式。
這種用於特定任務提示的少樣本範例通常是固定的,所以對範例的代表性和廣泛性有較高的要求。
之前一種方法是讓領域專家手動製作範例,但即便如此,也不能保證專家策劃的固定的少樣本範例在每個任務中都有代表性。
微軟研究人員提出了一種動態少樣本範例的方法,因此
想法是,任務訓練集可以作為少樣本範例的來源,如果訓練集足夠大,那就可以為不同的任務輸入選擇不同的少樣本範例。
在特定操作上,研究人員首先使用text-embedding-ada-002模型為每個訓練樣本和測試樣本產生向量表示。然後,針對每個測試樣本,透過比較向量的相似度,從訓練樣本中選擇出與之最相似的k個樣本
與微調方法相比,動態少樣本選擇利用了訓練數據,但不需要對模型參數進行大量更新。
自生成思維鏈
思考鏈(CoT)方法是一種讓模型逐步思考並產生一系列中間推理步驟的方法
以前的方法是依靠專家手動編寫一些帶有提示思維鏈的範例
在這裡,研究人員發現,可以簡單地要求GPT-4使用以下提示為訓練範例產生思維鏈:
但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟,於是設置了一個驗證標籤作為過濾器,可以有效減少錯誤。
與在Med-PaLM 2模型中專家手工製作的思維鏈範例相比,GPT-4產生的思維鏈基本原理更長,而且逐步推理邏輯更細粒度。
選項洗牌整合
GPT-4在處理選擇題時可能存在一種偏見,即無論選項的內容是什麼,它傾向於總是選擇A或總是選擇B ,這就是位置偏差
為了解決這個問題,研究人員決定對原有的選項進行順序重排,以減少影響。例如,原本的選項順序為ABCD,可以改為BCDA、CDAB等
然後讓GPT-4做多輪預測,每輪使用選項的一個不同排列順序。如此一來「迫使」GPT-4考慮選項的內容。
最後對多輪預測結果做個投票,選擇最一致、正確的選項。
將以上幾個提示策略組合在一起就是Medprompt,以下來看測試結果。
多項測試最優
在測試中,研究人員採用了MultiMed QA評估基準。
使用Medprompt提示策略的GPT-4,在MultiMedQA的九個基準資料集中均取得最高分,優於Flan-PaLM 540B、Med-PaLM 2。
此外,研究人員也討論了Medprompt策略在「Eyes-Off」資料上的表現。所謂「Eyes-Off」數據,指的是模型在訓練或優化過程中未曾見過的數據,用於檢驗模型是否過度擬合訓練數據
結果GPT-4結合Medprompt策略在多個醫學基準資料集上表現出色,平均準確率達到了91.3%。
研究人員對MedQA資料集進行了消融實驗,以探索三個組件對整體表現的相對貢獻
在其中,自動產生思維鏈步驟對於效能的提升起著最大的作用
GPT-4自動產生的思維鏈分數比Med-PaLM 2中專家策劃的得分更高,且不需要人工幹預
最後,研究人員也探討了Medprompt的跨域泛化能力,取用了MMLU基準中的六個不同的資料集,涵蓋了電機工程、機器學習、哲學、專業會計、專業法律和專業心理學的問題。
也增加了另外兩個包含NCLEX(美國護理師執照考試)問題的資料集。
結果顯示,Medprompt在這些資料集上的效果與在MultiMedQA醫學資料集上的提升幅度相近,平均準確率提高了7.3%。
請點選以下連結查看論文:https://arxiv.org/pdf/2311.16452.pdf
以上是微軟僅憑「提示工程」讓GPT-4成醫學專家!超過一眾高度微調模型,專業測試準確率首次超90%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在iPhone上面臨滯後,緩慢的行動數據連線?通常,手機上蜂窩互聯網的強度取決於幾個因素,例如區域、蜂窩網絡類型、漫遊類型等。您可以採取一些措施來獲得更快、更可靠的蜂窩網路連線。修復1–強制重啟iPhone有時,強制重啟設備只會重置許多內容,包括蜂窩網路連線。步驟1–只需按一次音量調高鍵並放開即可。接下來,按降低音量鍵並再次釋放它。步驟2–過程的下一部分是按住右側的按鈕。讓iPhone完成重啟。啟用蜂窩數據並檢查網路速度。再次檢查修復2–更改資料模式雖然5G提供了更好的網路速度,但在訊號較弱

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺
