港科大&MSRA研究:關於圖片到圖片轉換,Finetuning is all you need
許多內容製作項目需要將簡單的草圖轉換為逼真的圖片,這涉及圖像到圖像的轉換(image-to-image translation),它使用深度生成模型學習給定輸入的自然圖片的條件分佈。
影像到影像轉換的基本概念是利用預先訓練的神經網路來捕捉自然圖片流形(manifold)。影像轉換類似於遍歷流形並定位可行的輸入語義點。系統使用許多圖片對合成網路進行預訓練,以從其潛在空間的任何採樣中提供可靠的輸出。透過預先訓練的合成網絡,下游訓練將使用者輸入調整為模型的潛在表徵。
多年來,我們已經看到許多特定於任務的方法達到了 SOTA 水平,但目前的解決方案還是難以創建用於實際使用的高保真圖片。
在最近的一篇論文中,香港科技大學和微軟亞洲研究院的研究者認為,對於圖像到圖像的轉換,預訓練才是All you need 。以往方法需要專門的架構設計,並從頭開始訓練單一轉換模型,因而難以高品質地產生複雜場景,尤其是在配對訓練資料不充足的情況下。
因此,研究者將每個影像到影像的轉換問題視為下游任務,並引入了一個簡單通用框架,該框架採用預訓練的擴散模型來適應各種影像到影像的轉換。他們將提出的預訓練影像到影像轉換模型稱為 PITI(pretraining-based image-to-image translation)。此外,研究者也提出以對抗訓練來增強擴散模型訓練中的紋理合成,並與歸一化指導採樣結合以提升生成品質。
最後,研究者在ADE20K、COCO-Stuff 和DIODE 等具有挑戰性的基準上對各種任務進行了廣泛的實證比較,表明PITI 合成的圖像顯示出了前所未有的真實感和忠實度。
- 論文連結:https://arxiv.org/pdf/2205.12952.pdf
- 專案首頁:https://tengfei-wang .github.io/PITI/index.html
GAN 已死,擴散模型永存
作者沒有使用在特定領域表現最佳的GAN,而是使用了擴散模型,合成了廣泛多樣的圖片。其次,它應該從兩種類型的潛在代碼中產生圖片:一種描述視覺語義,另一種針對圖像波動進行調整。語意、低維度潛在對於下游任務至關重要。否則,就不可能將模態輸入轉換為複雜的潛在空間。有鑑於此,他們使用 GLIDE 作為預訓練的生成先驗,這是一種可以產生不同圖片的資料驅動模型。由於 GLIDE 使用了潛在的文本,它允許語義潛在空間。
擴散和基於分數的方法表現出跨基準的生成品質。在類別條件 ImageNet 上,這些模型在視覺品質和取樣多樣性方面與基於 GAN 的方法相媲美。最近,用大規模文字圖像配對訓練的擴散模型顯示出驚人的能力。訓練有素的擴散模型可以為合成提供一個通用的生成先驗。
框架
作者可以使用前置(pretext)任務對大量資料進行預訓練,並開發一個非常有意義的潛在空間來預測圖片統計。
對於下游任務,他們有條件地微調語義空間以映射特定於任務的環境。該機器根據預先訓練的資訊創建可信的視覺效果。
作者建議使用語意輸入對擴散模型進行預訓練。他們使用文字條件、圖像訓練的 GLIDE 模型。 Transformer 網路對文字輸入進行編碼,並為擴散模型輸出 token。按照計劃,文字嵌入空間是有意義的。
上圖是作者的作品。與從頭開始的技術相比,預訓練模型提高了圖片品質和多樣性。由於 COCO 資料集具有眾多類別和組合,因此基本方法無法透過引人注目的架構提供美觀的結果。他們的方法可以為困難的場景創建具有精確語義的豐富細節。圖片展示了他們方法的多功能性。
实验及影响
表 1 显示,该研究所提方法性能始终优于其他模型。与较为领先的 OASIS 相比,在掩码到图像合成方面,PITI 在 FID 方面获得了显著的改进。此外,该方法在草图到图像和几何到图像合成任务中也显示出良好的性能。
图 3 展示了该研究在不同任务上的可视化结果。实验可得,与从头开始训练的方法相比,预训练模型显著提高了生成图像的质量和多样性。该研究所用方法可以产生生动的细节和正确的语义,即使是具有挑战性的生成任务。
该研究还在 Amazon Mechanical Turk 上的 COCO-Stuff 上进行了一项关于掩码到图像合成的用户研究,获得了 20 名参与者的 3000 票。参与者一次会得到两张图片,并被要求选择一张更真实的进行投票。如表 2 所示,所建议的方法在很大程度上优于从零开始的模型和其他基线。
条件图像合成可创建符合条件的高质量图片。计算机视觉和图形学领域使用它来创建和操作信息。大规模预训练改进了图片分类、对象识别和语义分割。未知的是大规模预训练是否有利于一般生成任务。
能源使用和碳排放是图片预训练的关键问题。预训练是耗能的,但只需要一次。条件微调让下游任务可以使用相同的预训练模型。预训练允许用更少的训练数据训练生成模型,当数据由于隐私问题或昂贵的注释成本而受到限制时,可以提升图像合成效果。
以上是港科大&MSRA研究:關於圖片到圖片轉換,Finetuning is all you need的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP
