首頁 科技週邊 人工智慧 清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

Jul 24, 2024 pm 08:38 PM
工程 多模態大模型

清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本工作由清華大學朱軍教授領導的基礎理論創新團隊發起。長期以來,團隊著眼於目前人工智慧發展的瓶頸問題,探索原創性人工智慧理論和關鍵技術,在智慧演算法的對抗安全理論和方法研究中處於國際領先水平,深入研究深度學習的對抗穩健性和數據利用效率等基礎共通性問題。相關工作獲吳文俊人工智慧自然科學第一名,發表CCF A類論文100餘篇,研發開源的ARES對抗攻防演算法平台(https://github.com/thu-ml/ares),並實現部分專利產學研轉化落地應用。

以GPT-4o為代表的多模態大語言模型(MLLMs)因其在語言、圖像等多種模態上的卓越表現而備受矚目。它們不僅在日常工作中成為使用者的得力助手,也逐漸滲透到自動駕駛、醫學診斷等各大應用領域,掀起了一場科技革命。
 
然而,多模態大模型是否安全可靠呢?

清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

                          如圖1所示,透過對抗攻擊修改影像像素,GPT-4o將新加坡的魚尾獅雕像,錯誤認定為巴黎的艾菲爾鐵塔或倫敦的大笨鐘。這樣的錯誤目標內容可以隨意定制,甚至超出模型應用的安全界限。

                              圖2 Claude3越獄範例時

清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

而在越獄攻擊場景下,雖然Claude成功拒絕了文字形式下的惡意請求,但當使用者額外輸入一張純色無關圖片時,模型按照使用者要求輸出了虛假新聞。這意味著多模態大模型相比大語言模型,有更多的風險挑戰。

除了這兩個例子以外,多模態大模型還存在幻覺、偏見、隱私洩漏等各類安全威脅或社會風險,會嚴重影響它們在實際應用中的可靠性和可信度。這些漏洞問題到底是偶然發生,還是普遍存在?不同多模態大模型的可信性又有何區別,來源何處?

近日,來自清華、北航、上交和瑞萊智慧的研究人員聯合撰寫百頁長文,發布名為MultiTrust的綜合基準,首次從多個維度和視角全面評估了主流多模態大模型的可信度,展示了其中多個潛在安全風險,啟發多模態大模型的下一步發展。
清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

  • 論文標題:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
  • 論文連結:https://arxiviv.org/pdf/17507575072037250302330203023023030373字:標. multi-trust.github.io/
  • 程式碼倉庫:https://github.com/thu-ml/MMTrustEval
  • 程式碼倉庫:https://github.com/thu-ml/MMTrustEval

的大模型評估工作中,MultiTrust提煉出了五個可信評價維度-事實性(Truthfulness)、安全性(Safety)、穩健性(Robustness)、公平性(Fairness)、隱私保護(Privacy),並進行二級分類,有針對性地建構了任務、指標、資料集來提供全面的評估。

                               個可信評價子維度,MultiTrust建構了32個多樣的任務場景,涵蓋了判別和生成任務,跨越了純文本任務和多模態任務。任務對應的資料集不僅基於公開的文字或影像資料集進行改造和適配,還透過人工收集或演算法合成建構了部分更為複雜和具有挑戰性的資料。

清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?

                               
與大語言模型(LLMs)的可信評價不同,MLLM的多模態特徵帶來了更多樣化、更複雜的風險場景和可能。為了更好地進行系統性評估,MultiTrust基準不僅從傳統的行為評估維度出發,更創新地引入了多模態風險和跨模態影響這兩個評價視角,全面涵蓋新模態帶來的新問題新挑戰。

                                示意性
具體地,多模態風險指的是多模態場景中帶來的新風險,例如模型在處理視覺誤導訊息時可能出現的錯誤回答,以及在涉及安全問題的多模態推理中出現誤判。儘管模型可以正確識別圖中的酒水,但在進一步的推理中,部分模型並不能意識到其與頭孢藥物共用的潛在風險。
清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?
                                   圖7態可信度的影響,例如無關影像的輸入可能會改變大語言模型骨幹網路在純文字場景中的可信行為,導致更多不可預測的安全風險。在大語言模型可信性評估常用的越獄攻擊和上下文隱私洩漏任務中,如果提供給模型一張與文本無關的圖片,原本的安全行為就可能被破壞(如圖2)。  

結果分析與關鍵結論
         
清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?
研究人員維護了一個定期更新的多模態大模型可信度榜單,已經加入了GPT-4o、Claude3.5等最新的模型,整體來看,閉源商用模型相比主流開源模型更為安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全對齊的Microsoft Phi-3則在開源模型中排名最高,但仍與閉源模型有一定的差距。
GPT-4、Claude、Gemini等商用模型針對安全可信已經做過許多加固技術,但仍存在部分安全可信風險。例如,他們仍然對對抗攻擊、多模態越獄攻擊等展現出了脆弱性,極大地干擾了使用者的使用體驗和信任程度。

                             Gemini在多模態越獄攻擊下輸出風險內容
清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?
儘管許多開源模型在主流通用榜單上的分數已經與GPT-4相當甚至更優,但在可信賴層面的測驗中,這些模型還是展現了不同面向的弱點和漏洞。例如在訓練階段對通用能力(如OCR)的重視,使得將越獄文字、敏感資訊嵌入圖像輸入成為更具威脅性的風險來源。  
基於跨模態效應的實驗結果,作者發現多模態訓練和推理會削弱大語言模型的安全對齊機制。許多多模態大模型會採用對齊過的大語言模型作為骨幹網絡,並在多模態訓練過程中微調。結果表明,這些模型依然展現出較大的安全漏洞和可信賴風險。同時,在多個純文字的可信評估任務上,在推理時引入圖像也會對模型的可信行為帶去影響和乾擾。

后 그림 10에 이미지가 소개된 이후에는 모델이 텍스트의 개인 정보 보호 내용을 유출하는 경향이 더 커졌습니다. 실험 결과 다중 모드 및 대형 모델의 신뢰성은 범용 능력과 관련이 있는 것으로 나타났습니다. 그러나 여전히 차이점이 있습니다. 다양한 신뢰성 평가 차원에서 모델 성능. GPT-4V의 도움으로 생성된 미세 조정 데이터 세트, 환각에 대한 RLHF 등과 같은 현재 일반적인 다중 모드 대형 모델 관련 알고리즘은 모델의 신뢰성을 완전히 향상시키기에 충분하지 않습니다. 기존 결론은 또한 다중 모드 대형 모델이 대형 언어 모델과 다른 고유한 과제를 가지고 있으며 추가 개선을 위해 혁신적이고 효율적인 알고리즘이 필요하다는 것을 보여줍니다.
자세한 결과와 분석은 논문을 참조하세요.

Future Directions

연구 결과에 따르면 다중 모드 대형 모델의 신뢰성을 높이려면 연구자들의 특별한 관심이 필요합니다. 대규모 언어 모델 정렬 솔루션, 다양한 훈련 데이터 및 시나리오, RAG(Retrieval Enhanced Generation) 및 Constitutional AI(Constitutional AI)와 같은 패러다임을 활용하면 어느 정도 개선에 도움이 될 수 있습니다. 그러나 다중 모드 대형 모델의 신뢰성 향상은 이보다 더 중요합니다. 양식 간의 정렬과 시각적 인코더의 견고성도 중요한 영향을 미치는 요소입니다. 또한, 동적 환경에서 지속적인 평가와 최적화를 통해 실제 응용 분야에서 모델의 성능을 향상시키는 것도 앞으로 중요한 방향입니다.
MultiTrust 벤치마크 출시와 함께 연구팀은 다중 모드 대형 모델 신뢰성 평가 툴킷 MMTrustEval도 출시했습니다. 모델 통합 및 평가 모듈성 특성은 다중 모드 대형 모델 도구의 신뢰성 연구에 중요한 정보를 제공합니다. . 이 작업과 툴킷을 기반으로 팀은 대형 모델에 대한 신뢰할 수 있는 연구를 촉진하기 위해 다중 모드 대형 모델 보안 관련 데이터 및 알고리즘 대회[1,2]를 조직했습니다. 앞으로도 지속적인 기술 발전에 따라 다중 모드 대형 모델은 더 많은 분야에서 잠재력을 발휘할 것이지만, 신뢰성 문제는 여전히 지속적인 관심과 심층적인 연구가 필요합니다.

참조 링크:

[1] CCDM2024 멀티모달 대형 언어 모델 레드팀 보안 챌린지 http://116.112.3.114:8081/sfds-v1-html/main
[2] 제3회 파저우 알고리즘 공모전 - 멀티모달 대형 모델 알고리즘 보안 강화 기술 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

以上是清華領軍發布多模態評估MultiTrust:GPT-4可信度有幾何?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star ControlNet作者又出爆款!一張圖生成繪畫全過程,兩天狂攬1.4k Star Jul 17, 2024 am 01:56 AM

同樣是圖生視頻,PaintsUndo走出了不一樣的路線。 ControlNet作者LvminZhang又開始整活了!這次瞄準繪畫領域。新項目PaintsUndo剛上線不久,就收穫1.4kstar(還在瘋狂漲)。項目地址:https://github.com/lllyasviel/Paints-UNDO透過這個項目,用戶輸入一張靜態圖像,PaintsUndo就能自動幫你生成整個繪畫的全過程視頻,從線稿到成品都有跡可循。繪製過程,線條變化多端甚是神奇,最終視頻結果和原始圖像非常相似:我們再來看一個完整的繪

登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 登頂開源AI軟體工程師榜首,UIUC無Agent方案輕鬆解決SWE-bench真實程式設計問題 Jul 17, 2024 pm 10:02 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com這篇論文的作者皆來自伊利諾大學香檳分校(UIUC)張令明老師團隊,包括:StevenXia,四年級博士生,研究方向是基於AI大模型的自動代碼修復;鄧茵琳,四年級博士生,研究方

從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 從RLHF到DPO再到TDPO,大模型對齊演算法已經是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智慧領域的發展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰之一,旨在確保這些模型既強大又安全地服務人類社會。早期的努力集中在透過人類回饋的強化學習方法(RL

OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 OpenAI超級對齊團隊遺作:兩個大模型博弈一番,輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂,你敢用嗎?隨著機器學習系統在更重要的領域中得到應用,證明為什麼我們可以信任它們的輸出,並明確何時不應信任它們,變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是,要求系統對其輸出產生一種解釋,這種解釋對人類或另一個受信任的系統來說是可讀的,即可以完全理解以至於任何可能的錯誤都可以被發現。例如,為了建立對司法系統的信任,我們要求法院提供清晰易讀的書面意見,解釋並支持其決策。對於大型語言模型來說,我們也可以採用類似的方法。不過,在採用這種方法時,確保語言模型生

黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被稱為千禧年七大難題之一的黎曼猜想迎來了新突破。黎曼猜想是數學中一個非常重要的未解決問題,與素數分佈的精確性質有關(素數是那些只能被1和自身整除的數字,它們在數論中扮演著基礎性的角色)。在當今的數學文獻中,已有超過一千個數學命題以黎曼猜想(或其推廣形式)的成立為前提。也就是說,黎曼猜想及其推廣形式一旦被證明,這一千多個命題將被確立為定理,對數學領域產生深遠的影響;而如果黎曼猜想被證明是錯誤的,那麼這些命題中的一部分也將隨之失去其有效性。新的突破來自MIT數學教授LarryGuth和牛津大學

arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 arXiv論文可以發「彈幕」了,史丹佛alphaXiv討論平台上線,LeCun按讚 Aug 01, 2024 pm 05:18 PM

乾杯!當論文討論細緻到詞句,是什麼體驗?最近,史丹佛大學的學生針對arXiv論文創建了一個開放討論論壇——alphaXiv,可以直接在任何arXiv論文之上發布問題和評論。網站連結:https://alphaxiv.org/其實不需要專門訪問這個網站,只需將任何URL中的arXiv更改為alphaXiv就可以直接在alphaXiv論壇上打開相應論文:可以精準定位到論文中的段落、句子:右側討論區,使用者可以發表問題詢問作者論文想法、細節,例如:也可以針對論文內容發表評論,例如:「給出至

首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 首個基於Mamba的MLLM來了!模型權重、訓練程式碼等已全部開源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 公理訓練讓LLM學會因果推理:6700萬參數模型比肩萬億參數級GPT-4 Jul 17, 2024 am 10:14 AM

把因果鏈展示給LLM,它就能學會公理。 AI已經在幫助數學家和科學家做研究了,例如著名數學家陶哲軒就曾多次分享自己借助GPT等AI工具研究探索的經驗。 AI要在這些領域大戰拳腳,強大可靠的因果推理能力是不可或缺的。本文要介紹的研究發現:在小圖譜的因果傳遞性公理演示上訓練的Transformer模型可以泛化用於大圖譜的傳遞性公理。也就是說,如果讓Transformer學會執行簡單的因果推理,就可能用於更複雜的因果推理。該團隊提出的公理訓練框架是一種基於被動資料來學習因果推理的新範式,只有演示

See all articles