炫到爆炸! HuggingGPT線上展示驚艷亮相,網友親測影像生成絕了
最強組合HuggingFace ChatGPT=「賈維斯」現在開放demo了。
前段時間,浙大&微軟發布了一個大模型協作系統HuggingGPT直接爆火。
研究者提出了以ChatGPT作為控制器,連接HuggingFace社群中的各種AI模型,完成多模態複雜任務。
整個過程,只需要做的是:用自然語言將你的需求輸出。
英偉達科學家稱,這是我本週讀到的最有趣的論文。它的想法非常接近我之前說的「Everything App”,即萬物皆App,被AI直接讀取資訊。
上手體驗
現在,HuggingGPT增加了Gradio簡報。
#專案網址:https://github.com/microsoft/JARVIS
有網友便上手體驗了一番,先來「辨識圖上有幾個人」?
HuggingGPT根據推理結果,得出圖片中有2個人正在街道上行走。
具體過程如下:
首先使用圖像到文本模型nlpconnect/vit-gpt2-image-captioning進行圖像描述,產生的文本「2個女人在有火車的街道上行走」。
接著,使用了目標偵測模型facebook/detrresnet 50來偵測圖片中的人數。模型偵測出7個物體,2個人。
再用視覺問題回答模型dandelin/vilt-b32-finetuned-vqa得出結果。最後,系統提供了詳細的回應和用於解答問題的模型資訊。
另外,讓它理解「我愛你」這句話的情感,並將其翻譯成泰米爾語(Tamiḻ)。
HuggingGPT呼叫了以下模型:
#首先,使用了模型「dslim/bert-base-NER」對文字「l love you ”進行情感分類,是“浪漫”。
然後,使用「ChatGPT」將文字翻譯成泰米爾語,即「Nan unnai kadalikiren」。
在推理結果中沒有產生的圖片、音訊或視訊檔案。
轉錄MP3檔時,HuggingGPT卻失敗了。網友表示,「不確定這是否是我的輸入檔的問題。」
再來看看影像產生的能力。
輸入「一隻貓跳舞」圖片上新增文字「I LOVE YOU」作為疊加層。
HuggingGPT首先使用了「runwayml/stable-diffusion-1-5」模型根據給定的文字產生「跳舞的貓」的圖片。
然後,使用同一個模型根據給定的文字產生了「I LOVE YOU」的圖片。
最後,將2張圖片合併在一起,輸出如下圖:
賈維斯照進現實
專案公開沒幾天,賈維斯已經在GitHub上收穫了12.5k星,以及811個fork。
研究者指出解決大型語言模型(LLMs)目前的問題,可能是邁向AGI的第一步,也是關鍵的一步。
因為目前大型語言模型的技術仍然存在著一些缺陷,因此在建構 AGI 系統的道路上面臨一些緊迫的挑戰。
為了處理複雜的人工智慧任務,LLMs應該能夠與外部模型協調,以利用它們的能力。
因此,關鍵點在於如何選擇合適的中間件來橋接LLMs和AI模型。
在這篇研究論文中,研究者提出在HuggingGPT中語言是通用的介面。其工作流程主要分為四個步驟:
#論文網址:https://arxiv.org/pdf/2303.17580.pdf
首先是任務規劃,ChatGPT解析使用者請求,將其分解為多個任務,並根據其知識規劃任務順序和依賴關係。
接著,進行模型選擇。 LLM根據HuggingFace中的模型描述將解析後的任務分配給專家模型。
然後執行任務。專家模型在推理端點上執行指派的任務,並將執行資訊和推理結果記錄到LLM中。
最後是回應生成。 LLM總結執行過程日誌和推理結果,並將摘要傳回給使用者。
假如給出這樣一個請求:
請產生一個女孩正在看書的圖片,她的姿勢與example.jpg中的男孩相同。然後請用你的聲音描述新圖片。
可以看到HuggingGPT是如何將它拆解為6個子任務,並分別選定模型執行得到最終結果的。
透過將AI模型描述納入提示中,ChatGPT可以被視為管理人工智慧模型的大腦。因此,此方法可以讓ChatGPT能夠呼叫外部模型,來解決實際任務。
簡單來講,HuggingGPT是一個協作系統,不是大模型。
它的作用就是連接ChatGPT和HuggingFace,進而處理不同模態的輸入,並解決眾多複雜的人工智慧任務。
所以,HuggingFace社群中的每個AI模型,在HuggingGPT庫中都有相應的模型描述,並將其融合到提示中以建立與ChatGPT的連接。
隨後,HuggingGPT將ChatGPT作為大腦來確定問題的答案。
到目前為止,HuggingGPT已經圍繞ChatGPT在HuggingFace上集成了數百個模型,涵蓋了文本分類、目標檢測、語義分割、圖像生成、問答、文本到語音、文字到影片等24個任務。
實驗結果證明,HuggingGPT可以在各種形式的複雜任務上表現出良好的表現。
網友熱評
有網友稱,HuggingGPT類似於微軟先前提出的Visual ChatGPT,似乎他們把最初的想法擴展到了一組龐大的預訓練模型上。
Visual ChatGPT是直接基於ChatGPT構建,並向其註入了許多視覺化模型(VFMs)。文中提出了Prompt Manage。
在PM的幫助下,ChatGPT可以利用這些VFMs,並以迭代的方式接收其回饋,直到滿足使用者的要求或達到結束條件。
也有網友認為,這個想法確實與ChatGPT非常相似。以LLM為中心進行語意理解與任務規劃,可以無限提升LLM的能力邊界。透過將LLM與其他功能或領域專家結合,我們可以創建更強大、更靈活的 AI 系統,能夠更好地適應各種任務和需求。
這就是我一直以來對AGI的看法,人工智慧模型能夠理解複雜任務,然後將較小的任務分派給其他更專業的AI模型。
就像大腦一樣,它也有不同的部分來完成特定的任務,聽起來很符合邏輯。
以上是炫到爆炸! HuggingGPT線上展示驚艷亮相,網友親測影像生成絕了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

2025年安全的數字貨幣交易所排名前十依次為:1. Binance,2. OKX,3. gate.io,4. Coinbase,5. Kraken,6. Huobi,7. Bitfinex,8. KuCoin,9. Bybit,10. Bitstamp,這些平台均採用了多層次的安全措施,包括冷熱錢包分離、多重簽名技術以及24/7的監控系統,確保用戶資金的安全。

常見的穩定幣有:1. 泰達幣(USDT),由Tether發行,與美元掛鉤,應用廣泛但透明性曾受質疑;2. 美元幣(USDC),由Circle和Coinbase發行,透明度高,受機構青睞;3. 戴幣(DAI),由MakerDAO發行,去中心化,DeFi領域受歡迎;4. 幣安美元(BUSD),由幣安和Paxos合作,交易和支付表現出色;5. 真實美元(TUSD),由TrustTo

截至2025年,穩定幣交易所數量約為千家。 1. 法定貨幣支持的穩定幣包括USDT、USDC等。 2. 加密貨幣支持的穩定幣如DAI、sUSD。 3. 算法穩定幣如TerraUSD。 4. 還有混合型穩定幣。

選擇可靠的交易所至關重要,Binance、OKX、Gate.io等十大交易所各具特色,CoinGecko、Crypto.com等新app也值得關注。

截至2025年4月,有七个加密货币项目被认为具有显著增长潜力:1. Filecoin(FIL)通过分布式存储网络实现快速发展;2. Aptos(APT)以高性能Layer 1公链吸引DApp开发者;3. Polygon(MATIC)提升以太坊网络性能;4. Chainlink(LINK)作为去中心化预言机网络满足智能合约需求;5. Avalanche(AVAX)以快速交易和
