目錄
一、多模態大模型的歷史發展
1、多模態大模型可以做什麼?
2、多模態大模型
3、模態對齊架構
二、九章雲極DataCanvas的多模態大模式平台
1、AI Foundation Software (AIFS)
2、模型工具LMOPS
4、LMB –Large Model Builder
5、LMS –Large Model Serving
6、Prompt Manager
三、九章雲極DataCanvas多模態大模型的實踐
#1、多模態大模型-有記憶體
2、非結構化資料ETL Pipeline
3、多模態大模型建構方法
4、案例-知識庫建構
首頁 科技週邊 人工智慧 九章雲極DataCanvas多模態大模型平台的實踐與思考

九章雲極DataCanvas多模態大模型平台的實踐與思考

Oct 20, 2023 am 08:45 AM
演算法 多模態大模型

九章雲極DataCanvas多模態大模型平台的實踐與思考

一、多模態大模型的歷史發展

九章雲極DataCanvas多模態大模型平台的實踐與思考

上圖這張照片是1956 年在美國達特茅斯學院舉行的第一屆人工智慧workshop,這次會議也被認為拉開了人工智慧的序幕,與會者主要是符號邏輯學屆的前驅(除了前排中間的神經生物學家Peter Milner)。

然而這套符號邏輯學理論在隨後的很長一段時間內都無法實現,甚至到 80 年代90年代還迎來了第一次AI寒冬期。直到最近大語言模型的落地,我們才發現真正承載這個邏輯思維的是神經網絡,神經生物學家Peter Milner的工作激發了後來人工神經網絡的發展,也正因為此他被邀請參加了這個學術研討會。

九章雲極DataCanvas多模態大模型平台的實踐與思考

2012年,Tesla自動駕駛主管Andrew在部落格上發布了上面這張圖,顯示當時美國總統歐巴馬和自己的下屬開玩笑。要讓人工智慧去理解這張圖,不僅是一個視覺感知任務,因為除了要辨識物體,還需要理解他們之間的關係;只有知道體重計的物理原理,才能知道圖裡所描述的故事:歐巴馬踩了秤,導致體重計上的人體重升高,他因此做出了這個奇怪的表情,同時其他人在一旁笑。這樣的邏輯思維顯然已經超越了純粹的視覺感知範疇,因此必須將視覺認知和邏輯思維結合在一起,才能擺脫「人工智障」的尷尬,而多模態大模型的重要性和困難性也體現在這裡。

九章雲極DataCanvas多模態大模型平台的實踐與思考

上圖是人類大腦的解剖結構圖,圖中的語言邏輯區對應的就是大語言模型,而其他的區域則分別對應不同的感官,包括視覺、聽覺、觸覺、運動、記憶等等。雖然人工神經網路並不是真正意義上的腦神經網絡,但還是可以從中受到一些啟發,即構造大模型的時候,可以將不同的功能聯合在一起,這也是多模態模型構建的基本思想。

1、多模態大模型可以做什麼?

九章雲極DataCanvas多模態大模型平台的實踐與思考

多模態大模型可以為我們做很多事情,例如視訊理解,大模型可以幫我們總結影片的摘要以及關鍵訊息,從而節省我們看影片的時間;大模型還可以幫助我們進行影片的後期分析,例如節目分類、節目收視率統計等;此外,文生圖也是多模態大模型的一個重要的應用領域。

而大模型如果和人的運動,或者機器人的運動聯合在一起,就會產生一個具身智能體,就像人一樣,基於過往經驗規劃最佳路徑的方法,並應用到全新的場景中,解決一些先前沒有遇見過的問題,同時規避風險;甚至可以在執行過程中修改原有計劃,直到最後獲得成功。這也是一個具有廣泛前景的應用場景。

2、多模態大模型

九章雲極DataCanvas多模態大模型平台的實踐與思考

#上圖是多模態大模型在發展過程中的一些重要節點:

  • 2020年的ViT模型(Vision Transformer)是大模型的開端,首次將Transformer架構用到除語言和邏輯處理外的其它類型資料(視覺資料),並且顯示了良好的泛化能力;
  • 隨後透過OpenAI開源的CLIP模型,再次證明了透過ViT和大語言模型的使用,視覺任務實現了很強的長尾泛化能力,即透過常識推測先前沒有見過的類別
  • #到了2023年,各式各樣的多模態大模型逐漸顯現,從PaLM-E(機器人),到whisper(語音辨識),再到ImageBind(影像對齊),再到Sam(語意分割),最後到地理影像;還包括微軟的統一多模態架構Kosmos2 ,多模態大模型發展迅速。
  • 特斯拉在6月的CVPR也提出了通用世界模型這樣的願景。

從上圖可以看出,短短半年時間,大模型就發生了非常多的變化,其迭代速度是非常快的。

3、模態對齊架構

九章雲極DataCanvas多模態大模型平台的實踐與思考

#上圖是多模態大模型的通用架構圖,包含一個語言模型、一個視覺模型,透過固定語言模型和固定視覺模型進而學習對齊模型;而對齊就是將視覺模型的向量空間和語言模型的向量空間進行聯合,進而在統一的向量空間裡完成兩者內在邏輯關係的理解。

圖中所示的Flamingo模型和BLIP2模型都採用類似的結構(Flamingo模型採用Perceiver架構,而BLIP2模型採用改良版的Transformer架構);然後透過多種對比學習的方法進行預訓練,對海量的token進行大量學習,獲得較好的對齊效果;最後根據特定的任務對模型進行微調。

二、九章雲極DataCanvas的多模態大模式平台

1、AI Foundation Software (AIFS)

九章雲極DataCanvas是人工智慧基礎軟體供應商,同時提供算力資源(包括GPU叢集),進行高效能的儲存和網路最佳化,在此基礎上提供大模型的訓練工具,包括資料標註建模實驗沙盒等。九章雲極DataCanvas不僅支援市面上常見的開源大模型,同時也在自主研發元識多模態大模型。在應用層,提供了工具對提示詞進行管理,對模型進行微調,並提供模型維運機制。同時,也開源了多模向量資料庫,讓基礎軟體架構更加豐富。

九章雲極DataCanvas多模態大模型平台的實踐與思考

2、模型工具LMOPS

九章雲極DataCanvas多模態大模型平台的實踐與思考

九章雲極DataCanvas專注於全生命週期的開發的最佳化,包括資料準備(資料標註支援人工標註和智慧標註)、模型開發、模型評估(包括橫向評估和縱向評估)、模型推理(支援模型量化、知識蒸餾等加速推理機制)、模型應用等。

3、LMB –Large Model Builder

九章雲極DataCanvas多模態大模型平台的實踐與思考

#在建構模型時,進行了許多分散式高效優化工作,包括資料並行、Tensor並行、管道並行等。這些分散式最佳化工作是一鍵式完成的,並支援視覺化調控,可以大幅減少人力成本,提升開發效率。

4、LMB –Large Model Builder

九章雲極DataCanvas多模態大模型平台的實踐與思考

對於大模型tuning也進行了最佳化,包括常見的continue training、supervise tuning,以及reinforcement learning中的human feedback等。此外,對於中文也進行了許多優化,例如中文詞表的自動擴展。因為許多中文詞彙並未包含在開源大模型中,這些詞彙可能會被拆分成多個token;將這些詞彙進行自動擴充,可以讓模型更好地使用這些詞彙。

5、LMS –Large Model Serving

九章雲極DataCanvas多模態大模型平台的實踐與思考

#大型模型的serving也是非常重要的一個組成部分,平台對模型量化、知識蒸餾等環節也進行了大量的優化,大大降低了計算成本,並透過逐層知識蒸餾來加速transformer,減少其計算量。同時,也做了許多剪枝工作(包括結構化剪枝、稀疏剪枝等),大大提升了大模型的推理速度。

此外,也對互動式對話過程進行了最佳化。例如多輪對話Transformer中,每個tensor的key和value是可以記住的,無需重複計算。因此,可存入Vector DB中,實現對話歷史記憶功能,提升互動過程中的使用者體驗。

6、Prompt Manager

大模型提示詞設計與建構工具Prompt Manager,透過幫助使用者設計更好的提示詞,引導大模型產生更準確、可靠、符合預期的輸出內容。該工具既可為技術人員提供development toolkit的開發模式,也可為非技術人員提供人機互動的操作模式,滿足不同族群使用大模型的需求。

其主要功能包括:AI模型管理、場景管理、提示字範本管理、提示字開發和提示字應用程式等。

九章雲極DataCanvas多模態大模型平台的實踐與思考

平台提供了常用的提示字管理工具,可實現版本控制,並提供常用範本來加速提示字的實作。

三、九章雲極DataCanvas多模態大模型的實踐

#1、多模態大模型-有記憶體

介紹完平台功能,接下來會分享多模態大模型開發實作。

九章雲極DataCanvas多模態大模型平台的實踐與思考


上圖是九章雲極DataCanvas多模態大模型的基本框架,與其它多模態大模型不同的一點是,它包含記憶體,可以提升開源大模型的推理能力。

一般開源大模型的參數量相對較低,如果再耗用一部分參數量來記憶,其推理能力將會大幅下降。如果給開源大模型增加記憶體,則會同時提升推理能力和記憶能力。

此外,類似大多數模型,多模態大模型也會固定大語言模型和固定資料編碼,針對對齊功能進行單獨的模組化的訓練;因此,所有不同的資料模態都會對齊到文本中的邏輯部分;在推理的過程,首先對語言進行翻譯,然後進行融合,最後進行推理工作。

2、非結構化資料ETL Pipeline

九章雲極DataCanvas多模態大模型平台的實踐與思考

#由於我們的DingoDB多模向量資料庫結合了多模態與ETL的功能,因此能夠提供良好的非結構化資料管理能力。平台提供pipeline ETL功能,並做了很多優化,包括算子編譯、平行處理,以及快取優化等。

此外,平台提供Hub,可將pipeline重複使用,實現最高效的開發體驗。同時,支援 Huggingface上的眾多編碼器,可以實現不同模態資料的最優編碼。

3、多模態大模型建構方法

#九章雲極DataCanvas將元識多模態大模型作為底座,支持使用者選擇其它開源大模型,也支援使用者使用自己的模態資料進行訓練。

多模態大模型的建構大概分為三個階段:

  • #第一階段:固定大語言模型與模態編碼器訓練對齊和查詢;
  • 第二階段(可選,支援多模態搜尋):固定大語言模型,模態編碼器,對齊和查詢模組,訓練檢索模組;
  • 第三階段(可選,對特定任務):指令微調大語言模型。

4、案例-知識庫建構

九章雲極DataCanvas多模態大模型平台的實踐與思考


大模型中的記憶體架構,可以幫助我們實現多模態知識庫建設,該知識庫實際上是模型的應用。知乎就是一個典型的多模態知識庫應用模組,其專業知識是可以溯源的。

為了確保知識的確定性和安全性,往往需要對專業知識進行溯源,知識庫就可以幫助我們實現這此功能,同時新的知識添加也會比較方便,無需修改模型參數,直接把知識加入資料庫即可。

具體來說,將專業知識透過編碼器進行不同的編碼選擇,同時根據不同的評價方法進行統一評價,透過一鍵評價來實現編碼器的選擇。最後應用編碼器向量化之後存入DingoDB多模向量資料庫,再透過大模型的多模態模組進行相關資訊擷取,透過語言模型來進行推理。

模型的最後一部分往往需要進行指令精調,由於不同使用者的需求不太一樣,因此需要對整個多模態大模型進行精調。由於多模態知識庫在組織資訊這部分的特殊優勢,使得模型具備學習檢索的能力,這也是我們在文本的段落化過程中所做的創新。

九章雲極DataCanvas多模態大模型平台的實踐與思考一般的知識庫是將文件進行段落化,然後對每一段進行獨立的文字解鎖。這種方法容易受到噪音的干擾,對於許多大的文檔,很難判定段落劃分的標準。

九章雲極DataCanvas多模態大模型平台的實踐與思考

而在我們的模型中,檢索模組進行學習,模型自動尋找合適的結構化資訊組織。對於某個具體產品,從產品說明書開始,先定位大的目錄段落,再定位到具體的段落。同時由於是多模態的資訊集成,除了文字以外往往還會包含圖像表格等,也可以進行向量化表達,再結合Meta訊息,實現聯合檢索,從而提升檢索效率。

值得說明的是,檢索模組使用記憶體注意力機制,相較於同類演算法可提升10%的召回率;同時可將記憶體注意力機制用於多模態文檔處理,這也是非常有優勢的一個面向。

九章雲極DataCanvas多模態大模型平台的實踐與思考

九章雲極DataCanvas多模態大模型平台的實踐與思考

######################### 1.企業資料管理-- 知識庫##################### 企業中85%的資料都是非結構化數據,只有15%是結構化的數據。過去的20年,人工智慧主要是圍繞著結構化資料展開的,而非結構化資料是非常難以利用的,需要非常大的精力和代價將其轉化處理為結構化資料。而藉由多模態大模型與多模態知識庫,透過人工智慧新範式,可以大幅提升企業內部管理中非結構化資料的使用率,未來可能會帶來10倍的價值成長。 ############2、知識庫--> 智能體(Agent)#####################多模態知識庫作為智能體的基礎,之上的研發agent、客服agent、銷售agent、法律agent,人力資源agent,企業維運agent等功能都可以透過知識庫來運作。 ######

以銷售agent為例,常見架構包括兩個agent同時存在,其中一個負責決策,另一個負責銷售階段的分析。這兩個模組都可以透過多模態知識庫尋找相關訊息,包括產品資訊、歷史銷售統計資料、客戶畫像、過往銷售經驗等,這些資訊整合到一起,幫助這兩個agent做最好、最正確的決定,這些決定反過來幫助用戶獲得最好的銷售訊息,再記錄到多模態資料庫集中,如此循環往復,不斷提升銷售業績。

我們相信未來最有價值的企業,是將智慧體落實處的企業。希望九章雲極DataCanvas可以跟大家一路同行,互相助力。

以上是九章雲極DataCanvas多模態大模型平台的實踐與思考的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1665
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
CLIP-BEVFormer:明確監督BEVFormer結構,提升長尾偵測性能 CLIP-BEVFormer:明確監督BEVFormer結構,提升長尾偵測性能 Mar 26, 2024 pm 12:41 PM

寫在前面&amp;筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

使用C++實現機器學習演算法:常見挑戰及解決方案 使用C++實現機器學習演算法:常見挑戰及解決方案 Jun 03, 2024 pm 01:25 PM

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

探究C++sort函數的底層原理與演算法選擇 探究C++sort函數的底層原理與演算法選擇 Apr 02, 2024 pm 05:36 PM

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

人工智慧可以預測犯罪嗎?探索CrimeGPT的能力 人工智慧可以預測犯罪嗎?探索CrimeGPT的能力 Mar 22, 2024 pm 10:10 PM

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構

改進的檢測演算法:用於高解析度光學遙感影像目標檢測 改進的檢測演算法:用於高解析度光學遙感影像目標檢測 Jun 06, 2024 pm 12:33 PM

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

演算法在 58 畫像平台建置中的應用 演算法在 58 畫像平台建置中的應用 May 09, 2024 am 09:01 AM

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

即時加SOTA一飛沖天! FastOcc:推理更快、部署友善Occ演算法來啦! 即時加SOTA一飛沖天! FastOcc:推理更快、部署友善Occ演算法來啦! Mar 14, 2024 pm 11:50 PM

寫在前面&筆者的個人理解在自動駕駛系統當中,感知任務是整個自駕系統中至關重要的組成部分。感知任務的主要目標是使自動駕駛車輛能夠理解和感知周圍的環境元素,如行駛在路上的車輛、路旁的行人、行駛過程中遇到的障礙物、路上的交通標誌等,從而幫助下游模組做出正確合理的決策和行為。在一輛具備自動駕駛功能的車輛中,通常會配備不同類型的信息採集感測器,如環視相機感測器、雷射雷達感測器以及毫米波雷達感測器等等,從而確保自動駕駛車輛能夠準確感知和理解周圍環境要素,使自動駕駛車輛在自主行駛的過程中能夠做出正確的決斷。目

基於全域的圖增強的新聞推薦演算法 基於全域的圖增強的新聞推薦演算法 Apr 08, 2024 pm 09:16 PM

作者|汪昊審校|重樓新聞App是人們日常生活中獲取資訊來源的重要方式。在2010年左右,國外比較火的新聞App包括Zite和Flipboard等,而國內比較火的新聞App主要是四大門戶。而隨著今日頭條為代表的新時代新聞推薦產品的火爆,新聞App進入了全新的時代。而科技公司,不管哪一家,只要掌握了高精尖的新聞推薦演算法技術,就基本在技術層面掌握了主動權和話語權。今天,我們來看看RecSys2023的最佳長篇論文提名獎論文-GoingBeyondLocal:GlobalGraph-EnhancedP

See all articles