清華大学が率先してマルチモーダル評価のリリース MultiTrust: GPT-4 はどの程度信頼性がありますか?-AI-php.cn

ホームページ

テクノロジー周辺機器

清華大学が率先してマルチモーダル評価のリリース MultiTrust: GPT-4 はどの程度信頼性がありますか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 24, 2024 pm 08:38 PM

プロジェクトマルチモーダル大型モデル

清華大学が率先してマルチモーダル評価のリリース MultiTrust: GPT-4 はどの程度信頼性がありますか?

Die AIxiv-Kolumne ist eine Kolumne, in der akademische und technische Inhalte auf dieser Website veröffentlicht werden. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse für die Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Das Team beschäftigt sich seit langem mit den aktuellen Engpassproblemen in der Entwicklung künstlicher Intelligenz, erforscht ursprüngliche Theorien und Schlüsseltechnologien der künstlichen Intelligenz und ist international führend in der Forschung zu kontradiktorischen Sicherheitstheorien und Methoden intelligenter Algorithmen. Es wurden auch eingehende Untersuchungen zur kontradiktorischen Robustheit und Wirksamkeit von Deep Learning durchgeführt. Grundlegende häufige Probleme wie die Effizienz der Datennutzung. Relevante Arbeiten gewannen den ersten Preis des Wu Wenjun Artificial Intelligence Natural Science Award, veröffentlichten mehr als 100 CCF-Klasse-A-Artikel und entwickelten die Open-Source-Plattform für Gegenangriffsangriffe und Verteidigungsalgorithmen ARES (https://github.com/thu-ml/ares). und einige patentierte Produkte realisiert. Lernen und Forschung in die praktische Anwendung umsetzen.

Multimodale große Sprachmodelle (MLLMs), die durch GPT-4o repräsentiert werden, haben aufgrund ihrer hervorragenden Leistung in mehreren Modalitäten wie Sprache und Bildern viel Aufmerksamkeit erregt. Sie sind nicht nur zu den rechten Assistenten des Anwenders bei der täglichen Arbeit geworden, sondern sind auch nach und nach in wichtige Anwendungsbereiche wie autonomes Fahren und medizinische Diagnose vorgedrungen und haben eine technologische Revolution ausgelöst.

Sind multimodale Großmodelle jedoch sicher und zuverlässig?

Wie in Abbildung 1 gezeigt, wird GPT-4o durch die Modifizierung der Bildpixel durch gegnerische Angriffe die Schwanzlöwenstatue fälschlicherweise als Eiffelturm in Paris oder Big Ben in London identifiziert . Der Inhalt solcher Fehlerziele kann beliebig angepasst werden, auch über die sicheren Grenzen der Modellanwendung hinaus.

而在越獄攻擊場景下，雖然Claude成功拒絕了文字形式下的惡意請求，但當使用者額外輸入一張純色無關圖片時，模型按照使用者要求輸出了虛假新聞。這意味著多模態大模型相比大語言模型，有更多的風險挑戰。

除了這兩個例子以外，多模態大模型還存在幻覺、偏見、隱私洩漏等各類安全威脅或社會風險，會嚴重影響它們在實際應用中的可靠性和可信度。這些漏洞問題到底是偶然發生，還是普遍存在？不同多模態大模型的可信性又有何區別，來源何處？

近日，來自清華、北航、上交和瑞萊智慧的研究人員聯合撰寫百頁長文，發布名為MultiTrust的綜合基準，首次從多個維度和視角全面評估了主流多模態大模型的可信度，展示了其中多個潛在安全風險，啟發多模態大模型的下一步發展。

論文標題：Benchmarking Trustworthiness of Multimodal Large Language Models: A Comprehensive Study

論文連結：https://arxiviv.org/pdf/17507575072037250302330203023023030373字：標. multi-trust.github.io/

程式碼倉庫：https://github.com/thu-ml/MMTrustEval

程式碼倉庫：https://github.com/thu-ml/MMTrustEval

的大模型評估工作中，MultiTrust提煉出了五個可信評價維度－事實性（Truthfulness）、安全性（Safety）、穩健性（Robustness）、公平性（Fairness）、隱私保護（Privacy），並進行二級分類，有針對性地建構了任務、指標、資料集來提供全面的評估。

個可信評價子維度，MultiTrust建構了32個多樣的任務場景，涵蓋了判別和生成任務，跨越了純文本任務和多模態任務。任務對應的資料集不僅基於公開的文字或影像資料集進行改造和適配，還透過人工收集或演算法合成建構了部分更為複雜和具有挑戰性的資料。

與大語言模型（LLMs）的可信評價不同，MLLM的多模態特徵帶來了更多樣化、更複雜的風險場景和可能。為了更好地進行系統性評估，MultiTrust基準不僅從傳統的行為評估維度出發，更創新地引入了多模態風險和跨模態影響這兩個評價視角，全面涵蓋新模態帶來的新問題新挑戰。

示意性
具體地，多模態風險指的是多模態場景中帶來的新風險，例如模型在處理視覺誤導訊息時可能出現的錯誤回答，以及在涉及安全問題的多模態推理中出現誤判。儘管模型可以正確識別圖中的酒水，但在進一步的推理中，部分模型並不能意識到其與頭孢藥物共用的潛在風險。
^{图7 模型在涉及安全问题的推理中出现误判}

跨模态影响则指新模态的加入对原有模态可信度的影响，例如无关图像的输入可能会改变大语言模型骨干网络在纯文本场景中的可信行为，导致更多不可预测的安全风险。在大语言模型可信性评估常用的越狱攻击和上下文隐私泄漏任务中，如果提供给模型一张与文本无关的图片，原本的安全行为就可能被破坏（如图2）。

结果分析和关键结论
^{图8 实时更新的可信度榜单（部分）}

研究人员维护了一个定期更新的多模态大模型可信度榜单，已经加入了GPT-4o、Claude3.5等最新的模型，整体来看，闭源商用模型相比主流开源模型更为安全可靠。其中，OpenAI的GPT-4和Anthropic的Claude的可信性排名最靠前，而加入安全对齐的Microsoft Phi-3则在开源模型中排名最高，但仍与闭源模型有一定的差距。

GPT-4、Claude、Gemini等商用模型针对安全可信已经做过许多加固技术，但仍然存在部分安全可信风险。例如，他们仍然对对抗攻击、多模态越狱攻击等展现出了脆弱性，极大地干扰了用户的使用体验和信任程度。
^{图9 Gemini在多模态越狱攻击下输出风险内容}

尽管许多开源模型在主流通用榜单上的分数已经与GPT-4相当甚至更优，但在可信层面的测试中，这些模型还是展现出了不同方面的弱点和漏洞。例如在训练阶段对通用能力（如OCR）的重视，使得将越狱文本、敏感信息嵌入图像输入成为更具威胁的风险来源。

基于跨模态影响的实验结果，作者发现多模态训练和推理会削弱大语言模型的安全对齐机制。许多多模态大模型会采用对齐过的大语言模型作为骨干网络，并在多模态训练过程中进行微调。结果表明，这些模型依然展现出较大的安全漏洞和可信风险。同时，在多个纯文本的可信评估任务上，在推理时引入图像也会对模型的可信行为带去影响和干扰。
図 10 で画像が導入された後、モデルはテキスト内のプライバシーコンテンツを漏洩する傾向が強くなります。実験により、マルチモードおよび大規模モデルの信頼性はその普遍的な能力に関連していることが示されましたが、まだ違いがあります。さまざまな信頼性評価次元でのモデルのパフォーマンスに影響を与えます。 GPT-4V や幻覚用の RLHF などの助けを借りて生成された微調整データセットなど、現在一般的なマルチモーダル大規模モデル関連アルゴリズムは、モデルの信頼性を完全に高めるには十分ではありません。既存の結論は、マルチモーダル大規模モデルには大規模言語モデルとは異なる固有の課題があり、さらなる改善には革新的で効率的なアルゴリズムが必要であることも示しています。
詳細な結果と分析については論文を参照してください。

将来の方向性

研究結果は、マルチモーダル大規模モデルの信頼性を向上させるには研究者による特別な注意が必要であることを示しています。大規模な言語モデルの調整ソリューション、多様なトレーニングデータとシナリオ、検索拡張生成 (RAG) や憲法 AI (Constitutional AI) などのパラダイムを活用することで、ある程度の改善に役立ちます。しかし、マルチモーダル大規模モデルの信頼性の向上は、これを超えて、モダリティ間の調整とビジュアルエンコーダーの堅牢性も重要な影響を与える要素です。さらに、動的環境における継続的な評価と最適化を通じて、実際のアプリケーションにおけるモデルのパフォーマンスを向上させることも、将来の重要な方向性です。
MultiTrust ベンチマークのリリースに伴い、研究チームはマルチモーダル大規模モデルの信頼性評価ツールキット MMTrustEval もリリースしました。そのモデルの統合と評価モジュール性の特性は、マルチモーダル大規模モデルの信頼性研究に重要な情報を提供します。。この研究とツールキットに基づいて、チームは大規模モデルの信頼できる研究を促進するために、マルチモーダル大規模モデルのセキュリティ関連データとアルゴリズムのコンテストを組織しました [1,2]。将来的には、技術の継続的な進歩に伴い、マルチモーダル大型モデルはより多くの分野でその可能性を発揮するでしょうが、その信頼性の問題には依然として継続的な注意と詳細な研究が必要です。

参考リンク：
^{[1] CCDM2024 Multimodal Large Language Model Red Team Security Challenge http://116.112.3.114:8081/sfds-v1-html/main}
^{[2] 第3回鷲州アルゴリズムコンテスト - マルチモーダル大規模モデルアルゴリズムセキュリティ強化技術 https://iacc.pazhoulab-huangpu.com/contestdetail?id=668de7357ff47da8cc88c7b8&award=1,000,000}

以上が清華大学が率先してマルチモーダル評価のリリース MultiTrust: GPT-4 はどの程度信頼性がありますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1332

PHP チュートリアル

1276

C# チュートリアル

1256

Related knowledge

ControlNet の作者がまたヒット作を出しました!写真から絵画を生成し、2 日間で 1.4,000 個のスターを獲得する全プロセス Jul 17, 2024 am 01:56 AM

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンソース AI ソフトウェアエンジニアのリストのトップに立つ UIUC のエージェントレスソリューションは、SWE ベンチの実際のプログラミングの問題を簡単に解決します Jul 17, 2024 pm 10:02 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナシャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

RLHF から DPO、TDPO に至るまで、大規模なモデルアライメントアルゴリズムはすでに「トークンレベル」になっています Jun 24, 2024 pm 03:04 PM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

arXiv 論文は「弾幕」として投稿可能、スタンフォード alphaXiv ディスカッションプラットフォームはオンライン、LeCun は気に入っています Aug 01, 2024 pm 05:18 PM

乾杯！紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープンディスカッションフォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッションエリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

OpenAI Super Alignment チームの遺作: 2 つの大きなモデルがゲームをプレイし、出力がより理解しやすくなる Jul 19, 2024 am 01:29 AM

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

リーマン予想の大きな進歩!陶哲軒氏はMITとオックスフォードの新しい論文を強く推薦し、37歳のフィールズ賞受賞者も参加した Aug 05, 2024 pm 03:32 PM

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM は時系列予測にはあまり適していません。推論機能も使用しません。 Jul 15, 2024 pm 03:59 PM

言語モデルは本当に時系列予測に使用できるのでしょうか?ベタリッジの見出しの法則 (疑問符で終わるニュース見出しは「いいえ」と答えることができます) によれば、答えは「いいえ」であるはずです。このような強力な LLM は時系列データを適切に処理できないという事実は真実のようです。時系列、つまり時系列とは、その名の通り、時間順に並べられた一連のデータ点のことを指します。時系列分析は、病気の蔓延予測、小売分析、ヘルスケア、金融などの多くの分野で重要です。時系列分析の分野では、多くの研究者が最近、大規模言語モデル (LLM) を使用して時系列の異常を分類、予測、検出する方法を研究しています。これらの論文では、テキスト内の逐次依存関係の処理に優れた言語モデルは時系列にも一般化できると想定しています。

最初の Mamba ベースの MLLM が登場しました!モデルの重み、トレーニングコードなどはすべてオープンソースです Jul 17, 2024 am 02:46 AM

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

See all articles