大模型也有小偷?為保護你的參數,上交大給大模型製作「人類可讀指紋」
將不同的基底模型象徵為不同品種的狗,其中相同的「狗形指紋」表明它們源自同一個基底模型。
大模型的預訓練需要耗費大量的運算資源和數據,因此預訓練模型的參數成為各大機構重點保護的核心競爭力和資產。然而,與傳統軟體智慧財產權保護不同,對預訓練模型參數盜用的判斷有以下兩個新問題:
1) 預訓練模型的參數,尤其是千億等級模型的參數,通常不會開源。
預訓練模型的輸出和參數會受到後續處理步驟(如SFT、RLHF、continue pretraining等)的影響,這使得判斷一個模型是否基於另一個現有模型微調得來變得困難。無論是基於模型輸出或模型參數的判斷都存在一定的挑戰。
因此,對大模型參數的保護是一個尚缺乏有效解決方案的全新問題。
上海交通大學林洲漢老師的 Lumia 研究團隊開發了一項創新技術,能夠識別大模型之間的血統關係。這種方法採用了一種人類可讀的大模型指紋,而無需公開模型參數。這項技術的研發對於大模型的發展與應用具有重要意義。
此方法提供兩種判別方式:一種是定量的判別方式,透過比較被測大模型與一系列基底模型的相似度來判斷是否盜用了預訓練基模型;另一種是定性的判別方式,透過產生人類可讀的「狗圖」來快速發現模型之間的繼承關係。

6 個不同基礎模型(第一行)及其對應後代模型(下面兩行)的指紋。

對 24 個不同的大模型所製作的人類可讀大模型指紋。
動機和整體方法
大型模型的快速發展帶來了廣泛的應用前景,但同時也引發了一系列新的挑戰。其中突出的兩個問題包括:
模型盜用問題:一個聰明的「小偷」,他們只對原有的大型模型進行微小調整,隨後便聲稱創造了一個全新的模型,誇大自己的貢獻。我們如何辨識出它是盜版模型?
模型濫用問題:當一個不法分子惡意修改LLaMA 模型並用它來產生有害資訊時,儘管Meta 的政策明確禁止這種行為,我們如何證明它所使用的正是LLaMA 模型呢?

在此之前,解決這類問題的常規方法包括在模型訓練和推理過程中加入水印,或對由大型模型產生的文本進行分類。然而,這些方法要么會削弱大型模型的性能,要么容易被簡單的微調或 further pretrain 規避。
這引發了一個關鍵問題:是否存在一種方法,既不干擾大型模型的輸出分佈,又能對微調和further pretrain 魯棒,同時還能夠準確追踪大模型的基模型,從而有效保護模型版權的目的。
上海交通大學的團隊從人類指紋的獨一無二特性中汲取靈感,研究開發了一種為大模型製作「人類可讀指紋」的方法。他們將不同的基模型象徵為不同品種的狗,其中相同的“狗形指紋”表明它們源自同一個基模型。
這種直覺的方法使大眾能夠輕鬆辨識不同大模型之間的聯繫,並透過這些指紋追蹤到模型的基底模型,有效預防模型的盜版和濫用。值得注意的是,大模型的製造商無需公佈其參數,僅需公開不變項用於產生指紋。

Alpaca 和LLaMA 的「指紋」極為相似,這是因為Alpaca 模型是透過對LLaMA 進行微調而得到的;而其他幾種模型的指紋則顯示了明顯的差異,反映了它們源自於不同的基底模型。
論文《HUREF: HUMAN-READABLE FINGERPRINT FOR LARGE LANGUAGE MODELS》:

論文下載網址:https://arxiv.org/pdf/2312.04828.pdf
從實驗觀察到不變項
#交大團隊發現,在對大模型進行微調或further pretrain 時,這些模型的參數向量方向變化非常微小。相反,對於從新開始訓練的大模型,其參數方向將與其他基底模型完全不同。

他們在LLaMA 的一系列衍生模型上進行了驗證,包括透過對LLaMA 進行微調得到的Alpaca 和Vicuna,以及由LLaMA further pretrain 得到的Chinese LLaMA 和Chinese Alpaca。此外,他們也測試如百川和書生等獨立訓練的基底模型。

表格中用藍色標記的LLaMA 衍生模型與LLaMA-7B 基底模型在參數向量上展現出了極高的餘弦相似度,意味著這些衍生模型在參數向量方向上與基底模型極為接近。相較之下,以紅色標記的獨立訓練的基底模型則呈現出截然不同的情況,它們的參數向量方向完全無關。
基於這些觀察,他們考慮是否可以依據這種經驗規律來創建模型的指紋。然而,存在一個關鍵問題:這種方法對於惡意攻擊是否足夠魯棒?
為了驗證這一點,研究團隊在對LLaMA 進行微調時,加入了模型間參數的相似度作為懲罰損失,以使模型在微調的同時,參數方向盡量偏離基模型,測試模型能否在保持性能的同時偏離原始參數方向:

他們在BoolQ 和MMLU 等8 個benchmark 上測試了原始模型和加入懲罰損失微調得到的模型。從下圖表可見,模型的表現隨著餘弦相似度的下降迅速惡化。這說明,想要在不損害基底模型能力的情況下偏離原參數方向是相當困難的!


目前來看,大模型的參數向量方向成為識別其基底模型的一個極為有效且穩健的指標。但是,直接利用參數向量方向作為辨識工具似乎還存在一些問題。首先,這種方法需要揭示模型的參數,這對於許多大型模型可能是不可接受的。其次,攻擊者有可以透過簡單地置換隱藏單元,從而在不犧牲模型效能的情況下對參數向量方向發動攻擊。
以Transformer 中的前饋神經網路(FFN)為例,僅對隱藏單元進行簡單的置換,並相應地調整其權重,就可以在不改變網路輸出的情況下實現對權重方向的修改。

此外,團隊還深入分析了線性映射攻擊以及對大模型 word embedding 的置換攻擊。這些發現引發了一個問題:在面對如此多樣化的攻擊手段時,我們應該如何有效地應對和解決這些問題?
他們透過參數矩陣間的乘法消除攻擊矩陣,從而推導出了三組對這些攻擊穩健的不變項。

從不變項到人類可讀的指紋
雖然上述推導出的不變項已足以作為大型型的身份標識,但它們通常以龐大的矩陣形式出現,不僅不夠直觀,而且還需要進行額外的相似度計算來判定不同大模型之間的關係。是否存在一種更直觀且易於理解的方法來展示這些資訊?
為了解決這個問題,上海交大團隊研發了一套由模型參數產生人類可讀指紋的方法 —HUREF。

他們先從大模型的部分參數中提取出不變項,然後利用CNN Encoder 在維持局部性(locality)的前提下,將不變項矩陣編碼成服從高斯分佈的特徵向量,最後使用使用平滑的GAN 或VAE 作為圖片生成器,將這些特徵向量解碼成可視化圖像(即狗的圖片)。這些圖片不僅人類可讀,而且直觀地展示了不同模型之間的相似性,有效地作為大型模型的「視覺指紋」。以下是詳細的訓練和推理過程。

在這個框架中,CNN Encoder 是唯一需要訓練的部分。他們採用對比學習確保 Encoder 的局部保持性,同時透過生成對抗學習確保特徵向量服從高斯分佈,以此與 GAN 或 VAE 生成器的輸入空間保持一致。
重要的是,在訓練過程中,他們不需要使用任何真實的模型參數,所有資料都是透過常態分佈取樣來獲得。在實際應用中,直接採用經過訓練的 CNN Encoder 和現成的在 AFHQ 犬類資料集上訓練得到的 StyleGAN2 產生器來進行推理。
為不同大模型產生指紋
為了驗證此方法的有效性,團隊在多種廣泛使用的大模型上進行了實驗。他們選取了若干知名的開源大模型,如Falcon、MPT、LLaMA2、Qwen、Baichuan 和InternLM,以及它們的衍生模型,計算了這些模型的不變項,並據此產生瞭如下圖所示的指紋圖片。

衍生模型的指紋與其原始模型極為相似,我們可以直觀地從圖像中辨認出它們是基於哪個原型模型構建的。此外,這些衍生模型與原始模型在不變項上也保持了很高的餘弦相似性。
隨後,他們對LLaMA 家族模型進行了廣泛的測試,包括透過SFT 得到的Alpaca 和Vicuna,擴展了中文詞彙表的模型,透過further pretrain 得到的Chinese LLaMA 和BiLLa,透過RLHF 得到的Beaver 以及多模態模式Minigpt4 等。

表中展示了LLaMA 家族模型之間不變項的餘弦相似度,同時,圖中是為這14 個模型生成的指紋圖片,它們的相似度依然很高。我們能夠根據指紋圖片判斷它們來自相同的模型,值得注意的是,這些模型涵蓋了SFT,further pretrain,RLHF 和多模態等多種不同的訓練方法,這進一步驗證了團隊所提出的方法對大模型後續不同訓練範式的穩健性。
此外,下圖是他們在 24 個獨立訓練的開源基底模型上進行的實驗結果。透過他們的方法,各個獨立的基底模型被賦予了獨特的指紋圖像,這些圖像生動地展現了不同大模型間指紋的多樣性和差異性。表中,這些模型間的相似度計算結果與其指紋影像所呈現的差異性保持了一致。


最後,團隊進一步驗證了小規模獨立訓練的語言模型參數方向的唯一性和穩定性。他們利用 Pile 資料集的十分之一從零開始預訓練了四個 GPT-NeoX-350M 模型。
這些模型在設定上完全相同,唯一的差異在於使用了不同的隨機數種子。從下圖表中可以明顯看出,僅隨機數種子的差異就導致了模型參數方向和指紋的顯著不同,這充分說明了獨立訓練的語言模型參數方向的唯一性。

最後,透過比較相鄰 checkpoints 的相似度,他們發現,在預訓練過程中,模型的參數逐漸趨向穩定。他們認為這種趨勢在更長的訓練步驟和更大規模的模型中將更為明顯,這在一定程度上也解釋了他們方法的有效性。

以上是大模型也有小偷?為保護你的參數,上交大給大模型製作「人類可讀指紋」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

語言模型真的能用於時序預測嗎?根據貝特里奇頭條定律(任何以問號結尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的LLM並不能很好地處理時序資料。時序,即時間序列,顧名思義,是指一組依照時間發生先後順序排列的資料點序列。在許多領域,時序分析都很關鍵,包括疾病傳播預測、零售分析、醫療和金融。在時序分析領域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和偵測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關係的語言模型也能泛化用於時間序

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网
