首页 科技周边 人工智能 清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

Jul 24, 2024 pm 08:38 PM
工程 多模态大模型

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). und einige patentierte Produkte realisiert. Lernen und Forschung in die praktische Anwendung umsetzen.

Multimodale große Sprachmodelle (MLLMs), die durch GPT-4o repräsentiert werden, haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern viel Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.
Sind multimodale Großmodelle jedoch sicher und zuverlässig?

                                                                                                                                                                  

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?Wie in Abbildung 1 gezeigt, wird GPT-4o durch die Modifizierung der Bildpixel durch gegnerische Angriffe die Schwanzlöwenstatue fälschlicherweise als Eiffelturm in Paris oder Big Ben in London identifiziert . Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.

                                                                                                                                                               
而在越獄攻擊場景下,雖然Claude成功拒絕了文字形式下的惡意請求,但當使用者額外輸入一張純色無關圖片時,模型按照使用者要求輸出了虛假新聞。這意味著多模態大模型相比大語言模型,有更多的風險挑戰。

除了這兩個例子以外,多模態大模型還存在幻覺、偏見、隱私洩漏等各類安全威脅或社會風險,會嚴重影響它們在實際應用中的可靠性和可信度。這些漏洞問題到底是偶然發生,還是普遍存在?不同多模態大模型的可信性又有何區別,來源何處?

近日,來自清華、北航、上交和瑞萊智慧的研究人員聯合撰寫百頁長文,發布名為MultiTrust的綜合基準,首次從多個維度和視角全面評估了主流多模態大模型的可信度,展示了其中多個潛在安全風險,啟發多模態大模型的下一步發展。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
  • 論文標題:Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study
  • 論文連結:https://arxiviv.org/pdf/17507575072037250302330203023023030373字:標. multi-trust.github.io/
  • 程式碼倉庫:https://github.com/thu-ml/MMTrustEval
  • 程式碼倉庫:https://github.com/thu-ml/MMTrustEval

的大模型評估工作中,MultiTrust提煉出了五個可信評價維度-事實性(Truthfulness)、安全性(Safety)、穩健性(Robustness)、公平性(Fairness)、隱私保護(Privacy),並進行二級分類,有針對性地建構了任務、指標、資料集來提供全面的評估。

                               個可信評價子維度,MultiTrust建構了32個多樣的任務場景,涵蓋了判別和生成任務,跨越了純文本任務和多模態任務。任務對應的資料集不僅基於公開的文字或影像資料集進行改造和適配,還透過人工收集或演算法合成建構了部分更為複雜和具有挑戰性的資料。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

                               
與大語言模型(LLMs)的可信評價不同,MLLM的多模態特徵帶來了更多樣化、更複雜的風險場景和可能。為了更好地進行系統性評估,MultiTrust基準不僅從傳統的行為評估維度出發,更創新地引入了多模態風險和跨模態影響這兩個評價視角,全面涵蓋新模態帶來的新問題新挑戰。

                                示意性
具體地,多模態風險指的是多模態場景中帶來的新風險,例如模型在處理視覺誤導訊息時可能出現的錯誤回答,以及在涉及安全問題的多模態推理中出現誤判。儘管模型可以正確識別圖中的酒水,但在進一步的推理中,部分模型並不能意識到其與頭孢藥物共用的潛在風險。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                                   图7 模型在涉及安全问题的推理中出现误判

跨模态影响则指新模态的加入对原有模态可信度的影响,例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为,导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中,如果提供给模型一张与文本无关的图片,原本的安全行为就可能被破坏(如图2)。
 
结果分析和关键结论
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                               图8 实时更新的可信度榜单(部分)

研究人员维护了一个定期更新的多模态大模型可信度榜单,已经加入了GPT-4o、Claude3.5等最新的模型,整体来看,闭源商用模型相比主流开源模型更为安全可靠。其中,OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前,而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高,但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术,但仍然存在部分安全可信风险。例如,他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性,极大地干扰了用户的使用体验和信任程度。
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
                                                             图9 Gemini在多模态越狱攻击下输出风险内容

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优,但在可信层面的测试中,这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力(如OCR)的重视,使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。
 
基于跨模态影响的实验结果,作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络,并在多模态训练过程中进行微调。结果表明,这些模型依然展现出较大的安全漏洞和可信风险。同时,在多个纯文本的可信评估任务上,在推理时引入图像也会对模型的可信行为带去影响和干扰。

清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?

后 Une fois l'image introduite dans la figure 10, le modèle est plus enclin à divulguer le contenu de confidentialité dans le texte. Des expériences ont montré que la crédibilité des modèles multimodes et grands est liée à sa capacité générale, mais il existe encore des différences. dans la performance du modèle dans différentes dimensions d’évaluation de la crédibilité. Les algorithmes multimodaux actuellement courants liés aux grands modèles, tels que le réglage fin des ensembles de données générés à l'aide de GPT-4V, RLHF pour les hallucinations, etc., ne suffisent pas à améliorer pleinement la crédibilité du modèle. Les conclusions existantes montrent également que les grands modèles multimodaux présentent des défis uniques, différents des grands modèles de langage, et que des algorithmes innovants et efficaces sont nécessaires pour une amélioration ultérieure.
Voir le document pour les résultats et analyses détaillés.

Orientations futures

Les résultats de la recherche indiquent que l'amélioration de la crédibilité des grands modèles multimodaux nécessite une attention particulière de la part des chercheurs. En s'appuyant sur de grandes solutions d'alignement de modèles de langage, des données et des scénarios de formation diversifiés, ainsi que des paradigmes tels que la génération améliorée de récupération (RAG) et l'IA constitutionnelle (IA constitutionnelle), peuvent contribuer à une amélioration dans une certaine mesure. Mais l’amélioration de la crédibilité des grands modèles multimodaux va au-delà. L’alignement entre les modalités et la robustesse des encodeurs visuels sont également des facteurs d’influence clés. En outre, l’amélioration des performances des modèles dans des applications pratiques grâce à une évaluation et une optimisation continues dans des environnements dynamiques constitue également une orientation importante pour l’avenir.
Avec la sortie du benchmark MultiTrust, l'équipe de recherche a également publié la boîte à outils d'évaluation de la fiabilité des grands modèles multimodaux MMTrustEval. Ses caractéristiques d'intégration de modèles et de modularité d'évaluation fournissent des informations importantes pour la recherche de crédibilité des grands modèles multimodaux. . Sur la base de ce travail et de cette boîte à outils, l’équipe a organisé un concours multimodal de données et d’algorithmes liés à la sécurité des grands modèles [1,2] pour promouvoir une recherche fiable sur les grands modèles. À l’avenir, avec les progrès technologiques continus, les grands modèles multimodaux montreront leur potentiel dans davantage de domaines, mais la question de leur crédibilité nécessite encore une attention continue et des recherches approfondies.

Lien de référence :

[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main
[2] Le 3ème Concours d'algorithmes de Pazhou - Technologie de renforcement de la sécurité des algorithmes multimodaux à grand modèle https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000

以上是清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star ControlNet作者又出爆款!一张图生成绘画全过程,两天狂揽1.4k Star Jul 17, 2024 am 01:56 AM

同样是图生视频,PaintsUndo走出了不一样的路线。ControlNet作者LvminZhang又开始整活了!这次瞄准绘画领域。新项目PaintsUndo刚上线不久,就收获1.4kstar(还在疯狂涨)。项目地址:https://github.com/lllyasviel/Paints-UNDO通过该项目,用户输入一张静态图像,PaintsUndo就能自动帮你生成整个绘画的全过程视频,从线稿到成品都有迹可循。绘制过程,线条变化多端甚是神奇,最终视频结果和原图像非常相似:我们再来看一个完整的绘

登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 登顶开源AI软件工程师榜首,UIUC无Agent方案轻松解决SWE-bench真实编程问题 Jul 17, 2024 pm 10:02 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com这篇论文的作者均来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:StevenXia,四年级博士生,研究方向是基于AI大模型的自动代码修复;邓茵琳,四年级博士生,研究方

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」 Jun 24, 2024 pm 03:04 PM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RL

OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型给的答案一点也看不懂,你敢用吗?随着机器学习系统在更重要的领域得到应用,证明为什么我们可以信任它们的输出,并明确何时不应信任它们,变得越来越重要。获得对复杂系统输出结果信任的一个可行方法是,要求系统对其输出产生一种解释,这种解释对人类或另一个受信任的系统来说是可读的,即可以完全理解以至于任何可能的错误都可以被发现。例如,为了建立对司法系统的信任,我们要求法院提供清晰易读的书面意见,解释并支持其决策。对于大型语言模型来说,我们也可以采用类似的方法。不过,在采用这种方法时,确保语言模型生

黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 黎曼猜想显着突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与 Aug 05, 2024 pm 03:32 PM

最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被1和自身整除的数字,它们在数论中扮演着基础性的角色)。在当今的数学文献中,已有超过一千条数学命题以黎曼猜想(或其推广形式)的成立为前提。也就是说,黎曼猜想及其推广形式一旦被证明,这一千多个命题将被确立为定理,对数学领域产生深远的影响;而如果黎曼猜想被证明是错误的,那么这些命题中的一部分也将随之失去其有效性。新的突破来自MIT数学教授LarryGuth和牛津大学

arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞 Aug 01, 2024 pm 05:18 PM

干杯!当论文讨论细致到词句,是什么体验?最近,斯坦福大学的学生针对arXiv论文创建了一个开放讨论论坛——alphaXiv,可以直接在任何arXiv论文之上发布问题和评论。网站链接:https://alphaxiv.org/其实不需要专门访问这个网站,只需将任何URL中的arXiv更改为alphaXiv就可以直接在alphaXiv论坛上打开相应论文:可以精准定位到论文中的段落、句子:右侧讨论区,用户可以发表问题询问作者论文思路、细节,例如:也可以针对论文内容发表评论,例如:「给出至

首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源 Jul 17, 2024 am 02:46 AM

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。引言近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显着的成功。然而,作为许多下游任务的基础模型,当前的MLLM由众所周知的Transformer网络构成,这种网

公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4 Jul 17, 2024 am 10:14 AM

把因果链展示给LLM,它就能学会公理。AI已经在帮助数学家和科学家做研究了,比如著名数学家陶哲轩就曾多次分享自己借助GPT等AI工具研究探索的经历。AI要在这些领域大战拳脚,强大可靠的因果推理能力是必不可少的。本文要介绍的这项研究发现:在小图谱的因果传递性公理演示上训练的Transformer模型可以泛化用于大图谱的传递性公理。也就是说,如果让Transformer学会执行简单的因果推理,就可能将其用于更为复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据来学习因果推理的新范式,只有演示

See all articles