能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了-人工智慧-PHP中文網

DetGPT 有什麼特性？

方法介紹

首頁

科技週邊

人工智慧

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 11, 2023 pm 11:28 PM

ai 模型

一直以來，人類夢想著機器人能夠輔助人類處理生活和工作的事情。 “請幫我調低空調的溫度”，甚至 “請幫我寫一個商城網站” 都在近年來的家居助手和 OpenAI 發布的 Copilot 上得以實現。

GPT-4 的出現，進一步為我們展示了多模態大模型在視覺理解上的潛力。開源中小模型方面，LLAVA、minigpt-4 表現不俗，可以看圖聊天，還可以為人類猜測美食圖片中的食譜。然而，這些模型在實際落地中仍面臨重要的挑戰：沒有精準的定位能力，不能給出某物體在圖片中的具體位置，也不能理解人類的複雜指令來檢測具體物體，因此很多時候無法執行人類的具體任務。在實際場景中，人們遇到複雜問題，如果能透過拍一張照來詢問智慧助理得到正確答案，這樣的「拍照問問」功能簡直酷炫。

要實現「拍照問問」這個功能，需要機器人具備多項能力：

1. 語言理解能力：能夠聽懂並理解人類的意圖

2. 視覺理解能力：能夠理解看到的畫面中的物體

3. 常識推理能力：能夠將複雜的人類意圖轉換為可定位的精確目標

4. 物體定位能力：能夠從畫面中定位並偵測出對應物體

這四大能力，目前只有少數的大模型（例如Google的PaLM-E）同時具備。然而，來自港科大& 港大的研究人員提出了一個全開源模型DetGPT (全名DetectionGPT)，只需微調三百萬參數量，讓模型輕鬆擁有了複雜推理和局部物體定位能力，可以泛化到大多數場景。這意味著模型能夠透過自身知識的推理來理解人類抽象指令，輕鬆辨識圖片中的人類感興趣的物體！他們已經將模型做成「拍照問與問」 demo，歡迎線上體驗：https://detgpt.github.io/

DetGPT 可以讓使用者用自然語言操作一切，不需要繁瑣的指令或介面。同時，DetGPT 也具備智慧推理和目標偵測能力，可以準確地理解使用者的需求和意圖。例如人類發一個語言指令 “我想喝冷飲”，機器人先在場景中搜尋冷飲，但沒有找到。於是開始思考「場景裡沒有冷飲，我該去哪裡找」。透過強大的常識推理能力模型想到了冰箱，於是掃描場景畫面發現了冰箱，成功鎖定飲料位置！

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

開源程式碼：##https://www .php.cn/link/10eb6500bd1e4a3704818012a1593cc3
#Demo 線上試玩：https://detgpt.github.io/##Demo 線上試玩：https://detgpt.github.io/

夏天口渴，圖片裡哪裡會有冰飲料？ DetGPT 輕鬆理解找到冰箱：

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

明天要早起？ DetGPT 輕鬆 pick 電子鬧鐘：

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

#高血壓、容易累？去到水果市場，不清楚買什麼水果能緩解高血壓？ DetGPT 擔任你的營養老師：

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

#薩爾達遊戲不會通關？ DetGPT 助你變裝通過女兒國關卡：######

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

圖片的視野範圍內有什麼危險事物？ DetGPT 成為保護你的安全員：

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

圖片裡有什麼物品對小孩來說很危險？ DetGPT 依然沒問題：

DetGPT 有什麼特性？

圖片中具體物件的理解能力大幅提升。相較於以往的圖文對話多模態模型，我們能夠透過理解使用者指令從圖片中檢索並定位出目標物體，而不是單純對整張圖做出描述。
能理解人類複雜指令，降低使用者的提問門檻。例如，模型可以理解問題「找到圖中能夠緩解高血壓的食物」。而傳統目標檢測需要人類已知答案，提前預設檢測類別「香蕉」。
DetGPT 能根據已有 LLM 知識進行推理，從而精確定位到圖中能解決複雜任務的對應物。對於複雜的任務，例如「緩解高血壓的食物」。 DetGPT 可以對這一複雜任務逐步推理：緩解高血壓-> 鉀元素能夠緩解高血壓-> 香蕉富含鉀元素-> 香蕉可以緩解高血壓-> 需要識別物體香蕉

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

################################################ #######提供人類常識範圍以外的答案。對一些不常見的問題，例如人類不了解哪些水果富含鉀，模型能根據已有知識來解答。 ##################值得關注的新方向：利用常識推理實現更精準開集目標偵測################ ########傳統偵測任務要求預設可能的物件類別，以便進行偵測。但是精確且全面描述要檢測的物體，對人類來說是不友善的，甚至是不切實際的。具體而言，（1）受到有限記憶 / 知識的限制，人並不總是能精確表述自己想要檢測的目標物體。例如，醫生建議有高血壓的人多吃水果補充鉀元素，但不了解哪些水果富含鉀，就無法給出具體的水果名稱讓模型去檢測；如果能直接把問題「把能緩解高血壓的水果辨識出來」拋給檢測模型，人類只需要拍一張照片，模型自身去思考、推理、和檢測富含鉀的水果，這個問題就簡單許多。（2）人類能舉例物體類別是不全面的。例如，如果相對公共場所不符合公共秩序的行為進行監控，人類或許能只能簡單列出幾個場景如持刀、吸煙；但如果直接把問題「檢測不符合公共秩序的行為」交給檢測模型，模型自行思考、根據自己的知識進行推理，則能捕捉到更多的不良行為和泛化到更多需要檢測的相關類別。畢竟一般人類所了解的知識是有限的，能夠舉出來的物體類別也是有限的，但如果有一個類似ChatGPT 的大腦進行輔助和推理，人類所需要給出的指令就簡單多了，所獲得的答案也能精確、全面許多。 ############基於人類指令的抽象性和局限性，港科大 & 港大的研究人員提出 “推理型目標檢測 ” 這一新方向。簡單來說，就是人類給出一些抽象的任務，模型能自己去理解、推理圖片裡的哪些物體可能完成這項任務，並將其偵測出來。舉個簡單的例子，人類描述 “我想喝一杯冷飲，在哪裡可以找到它”，模型看到的是一張廚房的照片，它能夠把 “冰箱” 檢測出來。這個主題要求將多模態模型的圖像理解能力與語言大模型儲藏的豐富知識完美結合、用於細粒度的檢測任務場景中：利用語言模型的大腦來理解人類的抽象指令，精確地定位圖片中人類感興趣的物體，而不需要預設物體類別。 ######

方法介紹

「推理型目標偵測」是一個困難的問題，因為偵測器不僅需要對使用者的粗粒度/ 抽象的指令進行理解和推理，更要分析當前所看到的視覺訊息，從而定位出目標物體。在這一方向上，港科大 & 港大的研究人員進行了一些初步的探索。具體而言，他們利用預先訓練好的視覺編碼器 (BLIP-2) 來獲取圖片視覺特徵，透過一個對齊函數 (alignment function) 將視覺特徵對齊到文字空間。利用大規模語言模型 (Robin/Vicuna) 來理解使用者問題，結合看到的視覺訊息，對使用者真正感興趣的物體進行推理。然後將物件名稱提供給預先訓練好的偵測器 (Grouding-DINO) 進行特定位置的預測。這樣一來，模型可以根據使用者的任何指令分析圖片，精確地預測出使用者感興趣物體的位置。

值得注意的是這裡的困難主要在於，針對不同具體任務，模型要能實現特定格式（task-specific）的輸出，而盡可能不損害模型原本的能力。為指導語言模型遵循特定的模式，在理解影像和使用者指令的前提下進行推理和產生符合目標偵測格式的輸出，研究團隊利用 ChatGPT 產生跨模態 instruction data 來微調模型。具體而言，基於 5000 個 coco 圖片，他們利用 ChatGPT 創建了 3w 個跨模態圖像 - 文字微調資料集。為了提高訓練的效率，他們固定住其他模型參數，只學習跨模態線性映射。實驗效果證明，即使只有線性層被微調，語言模型也能夠理解細粒度的圖像特徵，並遵循特定的模式來執行基於推理的圖像檢測任務、表現出優異的性能。

這一研究主題具有非常大的潛力。基於這項技術，家庭機器人領域將進一步大放異彩：家庭中的人們可以透過抽像或粗粒度的語音指令，讓機器人理解、辨識、並定位所需的物品，提供相關服務。在工業機器人領域，這種技術更將煥發出無盡的活力：工業機器人可以與人類工作人員更自然地合作，準確地理解他們的指令和需求，實現智慧化的決策和操作。在生產線上，人類工作人員可以透過粗粒度的語音指令或文字輸入，讓機器人自動理解、辨識並定位需要加工的物品，從而提高生產效率和品質。

基於自帶推理能力的目標偵測模型，我們可以開發出更有智慧、自然化、更有效率的機器人，為人類提供更便捷、高效和人性化的服務。這是一個具有廣闊前景的領域。也值得更多研究者的進行關注與進一步探索。

值得一提的是，DetGPT 支援多種語言模型，目前已基於 Robin-13B 和 Vicuna-13B 兩個語言模型進行驗證。 Robin 系列語言模型是港科大LMFlow 團隊（https://github.com/OptimalScale/LMFlow）訓練的對話模型，在多項語言能力測評基準上達到了和Vicuna 相當的效果（模型下載: https:// github.com/OptimalScale/LMFlow#model-zoo）。先前機器之心報道過 LMFlow 團隊在消費級顯示卡 3090 上只需 5 小時訓練專屬 ChatGPT，今天這一團隊聯合港大 NLP 實驗室又給我們帶來了多模態的驚喜。

以上是能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7500

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

如何配置Debian Apache日誌格式 Apr 12, 2025 pm 11:30 PM

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程：第一步：訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件：sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步：定義自定義日誌格式找到或

Tomcat日誌如何幫助排查內存洩漏 Apr 12, 2025 pm 11:42 PM

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌，您可以深入了解內存使用情況和垃圾回收（GC）行為，從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏：1.GC日誌分析首先，啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項：-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌（gc.log），包含GC類型、回收對像大小和時間等信息。分析gc.log

debian readdir如何實現文件排序 Apr 13, 2025 am 09:06 AM

在Debian系統中，readdir函數用於讀取目錄內容，但其返回的順序並非預先定義的。要對目錄中的文件進行排序，需要先讀取所有文件，再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序：#include#include#include#include//自定義比較函數，用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何優化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系統中，readdir系統調用用於讀取目錄內容。如果其性能表現不佳，可嘗試以下優化策略：精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄，降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制，定期或在目錄內容變更時更新緩存，減少對readdir的頻繁調用。內存緩存（如Memcached或Redis）或本地緩存（如文件或數據庫）均可考慮。採用高效數據結構:如果自行實現目錄遍歷，選擇更高效的數據結構（例如哈希表而非線性搜索）存儲和訪問目錄信

Debian syslog如何配置防火牆規則 Apr 13, 2025 am 06:51 AM

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則，並利用Syslog記錄防火牆活動。方法一：使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則：sudoiptables-L-n-v允許特定IP訪問:例如，允許IP地址192.168.1.100訪問80端口：sudoiptables-AINPUT-ptcp--dport80-s192.16

Debian Nginx日誌路徑在哪裡 Apr 12, 2025 pm 11:33 PM

Debian系統中，Nginx的訪問日誌和錯誤日誌默認存儲位置如下：訪問日誌(accesslog):/var/log/nginx/access.log錯誤日誌(errorlog):/var/log/nginx/error.log以上路徑是標準DebianNginx安裝的默認配置。如果您在安裝過程中修改過日誌文件存放位置，請檢查您的Nginx配置文件（通常位於/etc/nginx/nginx.conf或/etc/nginx/sites-available/目錄下）。在配置文件中

Debian郵件服務器SSL證書安裝方法 Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下：1.安裝OpenSSL工具包首先，確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝，可以使用以下命令進行安裝：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來，使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求（CSR）：openss

Debian郵件服務器防火牆配置技巧 Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法，包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables（如果尚未安裝）：sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則：sudoiptables-L配置

See all articles

能看圖、會聊天，還會跨模態推理和定位，能落地複雜場景的DetGPT來了

DetGPT 有什麼特性？

方法介紹

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題