如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型
你是否有過影像檢索的煩惱?
或是難以在海量化的圖像中準確地找到所需圖像,或是在基於文字的檢索中得到差強人意的結果。對於這個難題,微軟亞洲研究院和微軟雲端運算與人工智慧事業部的研究人員對輕量化視覺模型進行了深入研究,並提出了一系列視覺預訓練模型的設計和壓縮方法,實現了視覺Transformer 的輕量化部署需求。
目前該方法和模型已成功應用於微軟必應搜尋引擎,實現了百億圖片的精準、快速推理和檢索。本文將深入解說輕量化視覺預訓練模式的發展、關鍵技術、應用和潛力,以及未來的機會與挑戰,希望大家能更了解輕量化視覺預訓練領域,共同推動相關技術的發展。
近來,基於 Transformer 的視覺預訓練模型在許多電腦視覺任務上都取得了優越性能,受到了廣泛關注。然而,視覺 Transformer 預訓練模型通常參數量大、複雜度高,限制了其在實際應用中的部署和使用,尤其是在資源受限的設備中或對即時性要求很高的場景中。因此,視覺預訓練大模型的「輕量化」研究成為了學術界和工業界關注的新熱點。
對此,微軟亞洲研究院和微軟雲端運算與人工智慧事業部的研究員們在視覺大模型的結構設計和訓練推論上進行了深入探索,同時也對大模型的輕量化、即時性以及雲端部署也做了創新應用。本文將從輕量化視覺預訓練模型的發展談起,探討模型輕量化研究中的關鍵技術,以及輕量化視覺Transformer 模型在實際產品中的應用和潛力,最後展望輕量化視覺模型的未來發展機會和挑戰。
視覺大模型層出不窮,輕量化預訓練模型卻乏人問津
最近幾年,深度學習在ImageNet 影像分類任務上的進展主要得益於視覺模型容量的大幅擴增。如圖1所示,短短幾年時間,視覺預訓練模型的容量擴大了300多倍,從4,450萬參數的ResNet-101 模型,進化到了擁有150億參數的V-MoE 模型,這些大型視覺預訓練模型在圖像理解和視覺內容生成等任務上都取得了長足進步。
圖1:視覺預訓練模型參數量的變化趨勢圖
無論是微軟的30億參數Swin-V2 模型,還是Google發布的18億參數ViT-G/14 模型,視覺大模型在眾多任務中都展現了優越的性能,尤其是其強大的小樣本(few-shot) 甚至是零樣本 (zero-shot) 的泛化能力,對實現通用智能非常關鍵。
然而,在許多實際場景中,由於儲存、運算資源的限制,大模型難以直接部署或無法滿足即時需求。因此,輕量級的視覺預訓練模型研究變得越來越重要,且具有強大的實際應用價值。雖然目前有一些工作在探討輕量級模型,但是這些方法大多是針對特定任務、特定結構設計的,在設計和訓練過程中沒有考慮到模型的通用性,存在跨資料域、跨任務的泛化局限性。
輕量化視覺模型的關鍵技術研究
為了實現輕量化視覺預訓練模型,微軟的研究員發現了兩大關鍵問題:1)如何設計出通用性較強的輕量化模型結構? 2)受制於輕量化視覺預訓練模型的有限容量,如何設計高效的預訓練方法讓小模型也能學習到大規模資料中的有效資訊?面對這些難題,研究員們透過堅持不懈的研究和探索,目前取得了一些階段性成果。
由於提高輕量化預訓練模型通用性的核心在於如何在資源受限(參數量,時延等)的情況下強化模型的學習能力,使其能夠更好地在大規模資料中學習通用特徵,因此,研究員們從以下三個角度進行了深入探索:
#1. 輕量化模組設計
輕量、低延時的模組是組成輕量級模型的重要部分。在卷積神經網路中,代表性的輕量級模組有MobileNet的反向殘差模組(Inverted Residual Block)以及 ShuffleNet 的通道隨機交叉單元(Shuffle Unit)。在視覺Transformer 結構中,由於圖像塊之間注意力的計算沒有很好地考慮相對位置編碼訊息,因此研究員們設計了即插即用的輕量級二維圖像相對位置編碼方法iRPE [1],它不需要修改任何的訓練超參數,就能提升模型的效能。此外,針對視覺 Transformer 參數冗餘的問題,研究員設計了權重多重化(Weight Multiplexing)模組 [2]。如圖2所示,此方法透過多層權重複以減少模型參數的冗餘性,並引入不共享的線性變換,提高參數的多樣性。
圖2:Transformer 中的權重多重化模組
2. 輕量化模型搜尋
網路結構搜尋(Neural Architecture Search)可以從模型設計空間中自動找到更輕量級、效能更優的模型結構 [3]。在卷積神經網路中,代表性工作有 NASNet 和 EfficientNet 等。在視覺Transformer 結構搜尋中,針對視覺模型中的通道寬度、網路深度以及head 數量等多個維度,研究員們先後提出了AutoFormer [4] 和S3 [5],實現了視覺模型的動態可伸縮訓練與結構搜尋。在同樣模型精度的情況下,搜尋得到的新模型具有較小的參數量和計算量。值得注意的是,在S3 中,研究員們利用E-T Error [5]以及權重共享超網來指導、改進搜尋空間,在得到更有效率的模型結構的同時也分析了搜尋空間的演進過程,如圖3所示。同時,模型結構搜尋的過程為輕量化模型的設計提供了有效的設計經驗和參考。
圖3:輕量模型搜尋空間演化過程
3. 視覺大模型壓縮與知識遷移
輕量級預訓練模型的另一個難題在於,由於模型容量有限,難以直接學習大規模資料中包含的豐富資訊和知識。為了解決這個問題,研究員提出了快速預訓練蒸餾方案,將大模型的知識遷移到輕量化的小模型中 [6]。如圖4所示,和傳統的單階段知識蒸餾不同,快速預訓練蒸餾分為兩個階段:1)壓縮並保存大模型訓練過程中使用的資料增廣資訊和預測資訊;2)加載並恢復大模型的預測資訊和資料增廣後,利用大模型作為教師,透過預訓練蒸餾指導輕量化學生模型的學習和訓練。不同於剪枝和量化,該方法在權重共享的基礎上使用了上文中提到的權重複用[2],通過引入輕量級權重變換和蒸餾,成功壓縮視覺預訓練大模型,得到了通用性更強的輕量級模型。在不犧牲效能的情況下,此方法可以將原有大模型壓縮數十倍。
圖4:快速預訓練知識蒸餾
這一系列的研究成果,不僅在在電腦視覺的頂級學術會議上(CVPR、ICCV、ECCV、NeurIPS等 )發表了多篇論文[1-6],也透過和微軟必應的合作,成功將輕量化預訓練模型應用到了圖像搜尋產品中,提高了實際業務中圖像和視訊內容理解的能力。
輕量級視覺預訓練模型的應用
#轻量级视觉预训练模型在实际中有诸多用途,尤其是在实时性要求高或者资源受限的场景中, 例如:云端视频实时渲染和增强、端测图像、视频内容理解。轻量级视觉模型已经在智能零售、先进制造业等领域展现出了广阔的应用前景,将来还会在元宇宙、自动驾驶等新兴行业发挥重要作用。以微软必应产品中的图像内容搜索为例,下面为大家展示一下轻量化视觉模型的实际应用和部署。
目前,基于内容的如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型搜索在如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型的类别属性理解上已经比较成熟,但对于复杂场景的内容理解仍有很大的挑战。复杂场景的如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型通常具有大景深、背景杂乱、人物多、物体关系复杂等特点,显著地增加了内容理解的难度,因而对预训练模型的鲁棒性和泛化性提出了更高的要求。
举例来说,动漫如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型的搜索质量在很长一段时间内无法得到有效提升,其主要的挑战包括:绘画线条和颜色比真实场景如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型更加夸张,包含更多动作和场景,不同漫画之间的风格内容差异巨大。图5到图7分别展示了“灌篮高手”、“皮卡丘”和“足球小将”三种不同的动漫人物和行为,其漫画风格和内容差别迥异。如何有效地理解漫画如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型内容,对视觉预训练模型提出了较高的要求。
图5:在微软必应搜索引擎中,对灌篮高手的动作理解包括:扣篮,运球,抢断,投篮等
图6:在微软必应搜索引擎中,对皮卡丘行为的理解比如吃苹果、吃西瓜,吃雪糕等
图7:在微软必应搜索引擎中,对足球小将射门动作的特写
上文中提到的轻量级视觉通用模型以及快速预训练蒸馏算法目前已成功应用于微软必应搜索引擎中。借助微软亚洲研究院提供的视觉语言多模态预训练模型,微软必应如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型搜索功能增强了对漫画内容的理解,可以返回与用户需求更为匹配的如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型内容。
与此同时,微软必应搜索引擎庞大的索引库对于检索效率有非常高的要求。微软亚洲研究院提供的快速预训练蒸馏方法有效地将预训练大模型的索引能力迁移到轻量化模型中,在识别准确率上将现有模型提升了14%,同时极大地优化了模型的计算效率,实现了百亿如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型的快速推理。
未来的机遇与挑战
模型轻量化是人工智能未来应用落地的核心。随着视觉技术、算法、算力和数据等不断完善,模型的复杂度急剧攀升,神经网络计算的能耗代价越来越高。轻量化视觉模型高效的计算效率和低廉的部署应用成本,能够在未来更多的实际产品中发挥巨大优势。除此之外,本地化的轻量级预训练视觉模型在支持更多服务的同时,还能够更好地保护用户数据和隐私。用户的数据将不再需要离开设备,即可实现模型服务等功能的远程升级。
当然,研究人员也意识到轻量级预训练视觉模型所面临的挑战:一方面在模型结构设计上,如何在模型参数量和推理延时的限制下达到模型的最优学习能力,一直以来都是学术界和工业界密切关注的问题。虽然目前已经沉淀了不少有效的模型结构,在通用近似定理(UAT)、神经网络结构搜索(NAS)等领域也取得了长足的发展,但是现有的轻量级预训练视觉模型和视觉大模型之间仍有差距,有待进一步优化和提升。另一方面在训练方法上,学术界和工业界针对视觉大模型提出了自监督、图像分类和多模态等多种训练方法,显著提升了模型的通用能力。如何针对容量有限的轻量级模型设计更有效的训练方式,还需要进一步的研究和探索。微软亚洲研究院的研究员们将不断推进轻量级预训练视觉模型的科研进展,也欢迎更多科技同仁共同交流、探索该领域的相关技术。
以上是如何有效率、精準地進行圖片搜尋?看看輕量化視覺預訓練模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

哭死啊,全球狂煉大模型,一網路的資料不夠用,根本不夠用。訓練模型搞得跟《飢餓遊戲》似的,全球AI研究者,都在苦惱怎麼才能餵飽這群資料大胃王。尤其在多模態任務中,這問題尤其突出。一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國內把「模型生成數據自己餵自己」變成了現實。而且還是理解側和生成側雙管齊下,兩側都能產生高品質、多模態的新數據,對模型本身進行數據反哺。模型是啥?中關村論壇上剛露面的多模態大模型Awaker1.0。團隊是誰?智子引擎。由人大高瓴人工智慧學院博士生高一鑷創立,高

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
