社群

學習

工具庫

AI工具

休閒

繁体中文

首頁 > 科技週邊 > 人工智慧 > 杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

青灯夜游

發布： 2023-03-31 23:37:09

轉載

1979 人瀏覽過

目前該論文已經被CVPR2023接收。

能讀圖的GPT-4震撼發佈了！但要用它還得排隊。。。

不如先試試這個～

加上一個小模型，就能讓ChatGPT、GPT-3這類目前只能理解文字的大語言模型輕鬆讀圖，各種刁鑽的細節問題都能手拿把掐。

並且訓練這個小模型單卡（一塊RTX 3090）就能搞定。

效果呢，直接看圖。

比如說，給訓練後的GPT-3輸入一張「音樂現場」的圖片，問它：現場在舉辦什麼活動？

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

毫不遲疑，GPT-3給了音樂會的答案。

再來加點難度，再給GPT-3醬紫的一張照片，讓它來分辨照片中的簾子是什麼類型的材質。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

GPT-3：蕾絲。

Bingo！（看來有點兒東西在身上的）

這個方法呢，是杭州電子科技大學和合肥工業大學的一個團隊的最新成果：Prophet，半年前他們就已經著手進行這項工作。

論文一作是杭電研究生邵鎮煒，他在1歲那年被診斷患有“進行性脊肌萎縮症”，高考時遺憾與浙大擦肩，選擇了離家近的杭州電子科技大學。

目前論文已經被CVPR2023接收。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

跨模態任務上達到新SOTA

話不多說，直接來看在Prophet這種方法的加持下GPT-3的讀圖能力。

我們先來看看它在資料集上的測試結果。

研究團隊在兩個基於外部知識的視覺問答資料集OK-VQA和A-OKVQA測試了Prophet，都創造了新SOTA。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

更具體點，在OK-VQA資料集上，和Deepmind的擁有80B參數的大模型Flamingo對比，Prophet達到了61.1%的準確率，成功擊敗Flamingo（57.8%）。

並且在所需的算力資源上，Prophet也是「吊打」Flamingo。

Flamingo-80B需要在1536塊TPUv4顯示卡上訓練15天，而Prophet只需要一塊RTX-3090顯示卡訓練VQA模型4天，再呼叫一定次數的OpenAI API即可。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

其實，類似Prophet這種幫助GPT-3處理跨模態任務的方法之前也有，比如說PICa，以及之後的KAT和REVIVE。

不過它們在一些細節問題的處理中，可能就不盡人意。

舉個栗子，讓它們一起讀下面這張圖，然後回答問題：圖片中的樹會結什麼水果？

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

而PICa、KAT和REVIVE從圖片中提取到的資訊只有：一群人在廣場上走路，完全忽略掉了後面還有一顆椰子樹。最終給的答案也只能靠瞎猜。

而Prophet這邊，就不會出現這種情況，它解決了上述方法提取圖片資訊不充分的問題，進一步激發了GPT-3的潛能。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

那Prophet是怎麼做的呢？

小模型大模型

有效提取訊息，並準確回答問題，能做到這些Prophet依賴的是它獨特的兩階段框架。

這兩個階段也分工明確：

第一階段：根據問題給予一些啟發性的答案；
第二階段：這些答案會縮一些範圍，讓GPT-3有充分的空間發揮潛能。

首先是第一階段，研究團隊針對特定的外部知識VQA資料集訓練了一個改進的MCAN模型（一個VQA模型）。

訓練好模型後，從中提取兩個啟發性的答案：答案候選和答案感知範例。

其中，答案候選是以模型分類層輸出的置信度為依據對答案進行排序，選取裡面的top10。

答案感知範例時指，將模型分類層之前的特徵作為樣本的潛在答案特徵，這個特徵空間中最相近的標註樣本。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

接下來就是第二階段，這一步相對來說就很簡單又粗暴了。

講上一步得到的「啟發性答案」組織到prompt中，然後再將prompt輸入給GPT-3，在一定的提示之下完成視覺問答問題。

不過雖然上一步已經給出一些答案提示，但這並不意味著GPT-3就要被限制在這些答案中。

若提示給出的答案置信度太低或正確答案並不在那些提示中，GPT-3完全完全有可能產生新的答案。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

研究團隊

當然，除了研究成果外，這項研究背後的團隊也不得不提。

第一作者邵鎮煒在1歲時就確診“進行性脊肌萎縮症”，是肢體一級殘疾，沒有生活自理能力，生活和學習需要母親的全程照顧。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

不過雖然身體受限，但邵鎮煒對知識的渴求並沒有減弱。

2017年高考他拿下644分的高分，以第一名的成績被杭州電子科技大學電腦專業錄取。

期間也獲得2018年中國大學生自強之星、2020年度國家獎學金和2021年度浙江省優秀畢業生等榮譽。

本科期間，邵鎮煒就已經開始跟著餘裕教授進行科研活動。

2021年，邵鎮煒在準備研究生推免時與浙大擦肩，於是留校加入了余宙教授課題組攻讀碩士研究生，目前他在讀研二，研究方向是跨模態學習。

餘裕教授則是本次研究論文的二作以及通訊作者，他是杭電電腦學院最年輕的教授，教育部「複雜系統建模與模擬」實驗室副主任。

長期以來，餘宙專攻多模態智能方向，曾帶領研究團隊多次獲得國際視覺問答挑戰賽VQA Challenge的冠亞軍。

杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源

研究團隊的大部分成員都在杭電媒體智慧實驗室（MIL）。

實驗室由國家傑青俞俊教授負責，近年來實驗室圍繞多模態學習方向發表一系列高水平期刊會議論文（TPAMI、IJCV、CVPR等），多次獲得IEEE期刊會議的最佳論文獎。

實驗室主持國家重點研發計畫、國家自然科學基金重點計畫等國家級計畫20餘項，曾獲浙江省自然科學一等獎，教育自然科學二等獎。

以上是杭電小哥搶先搞定GPT讀圖功能，單卡就能實現新SOTA，程式碼已開源的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：

ai 論文

上一篇：Google推出多模態Vid2Seq，理解視訊IQ在線，字幕君不會下線了｜CVPR 2023 下一篇：GPT-4剛發布就有手機APP接入，上傳照片影片一鍵解讀，還當起了美版知乎的問答bot

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

深入搞懂Redis中的哨兵

2023-04-26 17:59:18
【整理分享】7個熱門的React狀態管理工具

2023-04-26 17:47:48
一文討論Vue2中key和Vue3中key的差別

2023-04-26 17:41:42
一文聊聊Node中的記憶體控制

2023-04-26 17:37:05
實用Excel技巧分享：4種刪除重複值的小妙招！

2023-04-26 17:31:25
實用Word技巧分享：簡繁轉換功能竟然可以這樣用！

2023-04-26 17:27:32
如何解決跨域？常見解決方案淺析

2023-04-25 19:57:58
一文理解JavaScript中的單例模式

2023-04-25 19:53:11
深入了解Node中的Buffer

2023-04-25 19:49:11
探討如何在Vue3中撰寫單元測試

2023-04-25 19:41:54

最新問題

釋放AI工具的功能，以提高效率和生產率

2025-03-18 18:08:27
今天最聰明的AI是什麼？

2025-03-18 18:07:53
Chatgpt仍然是最好的嗎？

2025-03-18 18:07:19
哪個AI的智商最高？

2025-03-18 18:06:33
哪個AI比Chatgpt更好？

2025-03-18 18:05:57

相關專題

更多>

熱門推薦

熱門教學

更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1438128
php入門教程之一週學會PHP

4298852
JAVA 初級入門影片教學

2671111
小甲魚零基礎入門學習Python影片教學

517256
PHP 零基礎入門教學

878339

最新下載

更多>

網站特效

網站源碼

網站素材

前端模板