上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升-人工智慧-PHP中文網

△棕色文本为区分两张图的关键细节

解锁CLIP长文本能力

保留知识的位置编码扩充

加入核心属性对齐的微调

即插即用在各种多模态任务中

首頁

科技週邊

人工智慧

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 01, 2024 am 09:26 AM

框架 ai

CLIP长文本能力被解锁，图像检索任务表现显著提升！

一些关键细节也能被捕捉到。上海交大联合上海AI实验室提出新框架Long-CLIP。

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△棕色文本为区分两张图的关键细节

Long-CLIP基于保持CLIP原始特征空间的基础上，在图像生成等下游任务中即插即用，实现长文本细粒度图像生成。

长文本-图像检索提升20%，短文本-图像检索提升6%。

解锁CLIP长文本能力

CLIP 对齐了视觉与文本模态，拥有强大的 zero-shot 泛化能力。因此，CLIP 被广泛应用在各种多模态任务中，如图像分类、文本图像检索、图像生成等。

但CLIP的一大弊病是在于长文本能力的缺失。

首先，由于采用了绝对位置编码，CLIP的文本输入长度被限制在677个token。不仅如此，实验证明CLIP真正的有效长度甚至不足20个token，远远不够以表征细粒度信息。然而，为了克服这个限制，研究者们提出了一种解决方案。通过在文本输入中引入特定的标记，使模型能够聚焦于重要的部分。这些标记在输入中的位置和数量都是事先确定的，不会超过20个token。通过这种方式，CLIP在处理文本输入时能够

文本端的长文本缺失也限制了视觉端的能力。由于仅包含短文本，CLIP的视觉编码器也只会提取一张图片中最主要的成分，而忽略了各种细节。这对跨模态检索等细粒度任务是十分不利的。

同时，长文本的缺乏也使CLIP采取了类似bag-of-feature（BOF）的简单建模方式，不具备因果推理等复杂能力。

针对这一问题，研究人员提出了Long-CLIP模型。

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升
具体提出了两大策略：保留知识的位置编码扩充（Knowledge-Preserving Stretching of Positional Embedding）与加入核心成分对齐（Primary Component Matching）的微调策略。

保留知识的位置编码扩充

一个简单的扩充输入长度、增强长文本能力的方法是先以固定的比率 λ₁对位置编码进行插值，再通过长文本进行微调。

研究者们发现，CLIP的不同位置编码的训练程度是不同的。由于训练文本很可能以短文本为主，较低位的位置编码训练较为充分，能够精确地表征绝对位置，而较高位的位置编码则仅能表征其大致的相对位置。因此，对不同位置的编码进行插值的代价是不同的。

基于以上观察，研究者保留了前20个位置编码，而对于剩下的57个位置编码，则以一个更大的比率λ₂进行插值，计算公式可表示为：
上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升
实验表明，相较于直接插值，该策略可以在支持更长的总长度的同时大幅提升在各个任务上的性能。

加入核心属性对齐的微调

仅仅引入长文本微调会使模型走入另一个误区，即一视同仁地囊括所有细节。针对这一问题，研究者们在微调中引入核心属性对齐这一策略。

具体而言，研究者们利用主成分分析（PCA）算法，从细粒度的图像特征中提取核心属性，将其余属性过滤后重建粗粒度图像特征，并将其与概括性的短文本进行对齐。这一策略既要求模型不仅能够包含更多的细节（细粒度对齐），同时还能识别并建模其中最为核心的属性（核心成分提取与粗粒度对齐）。

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△加入核心属性对齐的微调流程

即插即用在各种多模态任务中

在图文检索、图像生成等领域，Long-CLIP可即插即用地替换CLIP。

比如图文检索，Long-CLIP能够在图像与文本模态捕捉更多细粒度信息，从而可以增强相似图像和文本的区分能力，大幅提升图文检索的表现。

无论是在传统的短文本检索（COCO、Flickr30k），还是在长文本检索任务上，Long-CLIP在召回率上均有显著提升。

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△短文本-图像检索实验结果

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△长文本-图像检索实验结果

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△长文本-图像检索可视化，棕色文本为区分两张图片的关键细节

除此之外，CLIP的文本编码器常被用于文本到图像生成模型中，如stable diffusion系列等。但由于长文本能力的缺失，用于生成图像的文本描述通常都十分简短，无法个性化地订制各种细节。

Long-CLIP可以突破77个token的限制，实现篇章级别的图像生成（右下）。

也可以在77个token内建模更多地细节，实现细粒度图像生成（右上）。

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

论文链接：https://arxiv.org/abs/2403.15378
代码链接：https://github.com/beichenzbc/Long-CLIP

以上是上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1664

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，图像检索能力显著提升

△棕色文本为区分两张图的关键细节

解锁CLIP长文本能力

保留知识的位置编码扩充

加入核心属性对齐的微调

即插即用在各种多模态任务中

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題