目錄
方法介紹
实验结果 
首頁 科技週邊 人工智慧 學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

Apr 12, 2023 pm 09:04 PM
科技 研究

最近,深度生成模型在根據文字 prompt 生成高品質影像方面取得了顯著成功,部分原因在於深度生成模型擴展到了大規模網路資料集(如 LAION)。但是,一些重大挑戰依然存在,因而大規模文字到圖像模型無法產生與文字 prompt 完全對齊的圖像。舉例而言,目前的文本到圖像模型往往無法產生可靠的視覺文本,並在組合式圖像生成方面存在困難。

回到語言建模領域,從人類回饋中學習已經成為一種用來「對齊模型行為與人類意圖」的強大解決方案。這類方法透過人類對模型輸出的回饋,首先學習一個旨在反映人類在任務中所關心內容的獎勵函數,然後透過一種強化學習演算法(如近端策略優化PPO)使用學得的獎勵函數來優化語言模型。這種具有人類回饋框架的強化學習(RLHF)已經成功地將大規模語言模型(例如 GPT-3)與複雜的人類品質評估結合在一起。

近日,受 RLHF 在語言領域的成功,Google研究院和加州柏克萊的研究者提出了使用人類回饋來對齊文字到圖像模型的微調方法。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

論文網址:https://arxiv.org/pdf/2302.12192v1.pdf

本文方法如下圖1 所示,主要分為3 個步驟。

第一步:首先從「設計用來測試文字到圖像模型輸出對齊的」一組文字 prompt 中產生不同的圖像。具體地,檢查預訓練模型更容易出錯的 prompt—— 產生具有特定顏色、數量和背景的對象,然後收集用於評估模型輸出的二元人類回饋。

第二步:使用了人工標記的資料集,訓練一個獎勵函數來預測給定圖像和文字 prompt 的人類回饋。研究者提出了一項輔助任務,在一組擾動文本 prompt 中識別原始文本 prompt,以更有效地將人類反饋用於獎勵學習。這項技術改進了獎勵函數對未見過圖像和文字 prompt 的泛化表現。

第三步:透過獎勵加權似然最大化更新文字到圖像模型,以更好地使它與人類回饋保持一致。與先前使用強化學習進行最佳化的工作不同,研究者使用半監督學習來更新模型,以測量模型輸出品質即學得的獎勵函數。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

研究者使用帶有人類回饋的27000 個圖像- 文字對來微調Stable Diffusion 模型,結果顯示微調後的模型在產生具有特定顏色、數量和背景的物件方面實現顯著提升。圖像 - 文字對齊方面實現了高達 47% 的改進,但圖像保真度略有下降。

此外,組合式生成結果也得到了改進,即在給定未見過顏色、數量和背景 prompt 組合時可以更好地生成未見過的物件。他們還觀察到,學習的獎勵函數比測試文本 prompt 上的 CLIP 分數更符合人類對對齊的評估。

不過,論文一作 Kimin Lee 也表示,本文的結果並沒有解決現有文本到圖像模型中所有的失效模型,仍有許多挑戰。他們希望這項工作能突顯從人類回饋中學習在對齊文生圖模型中的應用潛力。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

方法介紹

為了將生成圖像與文字 prompt 對齊,該研究對預訓練模型進行了一系列微調,過程如上圖 1 所示。首先從一組文字prompt 中產生相應的圖像,這個過程旨在測試文生圖模型的各種性能;然後是人類評分員對這些生成的圖像提供二元回饋;接下來,該研究訓練了一個獎勵模型來預測以文字prompt 和圖像作為輸入的人類回饋;最後,該研究使用獎勵加權對數似然對文生圖模型進行微調,以改善文字- 影像對齊。

人類資料收集

為了測試文生圖模型的功能,研究考慮了三類文字prompt:指定數量(specified count)、顏色、背景。對於每個類別,研究對每個描述該物體的單字或短語兩兩進行組合來產生 prompt,例如將綠色(顏色)與一隻狗(數量)組合。此外,研究還考慮了三個類別的組合(例如,在一個城市中兩隻染著綠顏色的狗)。下表 1 更好的闡述了資料集分類。每一個 prompt 都會被用來產生 60 張影像,模型主要為 Stable Diffusion v1.5 。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

人類回饋

##接下來對生成的圖像進行人類回饋。由同一個 prompt 產生的 3 張影像會呈現給打標籤人員,並要求他們評估產生的每張影像是否與 prompt 保持一致,評價標準為 good 或 bad。由於這項任務比較簡單,所以用二元回饋就可以了。

獎勵學習

#為了更好的評估圖像- 文字對齊,該研究使用獎勵函數學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?來衡量,該函數可以將圖像x 的CLIP 嵌入和文字prompt z 對應到標量值。之後其用來預測人類回饋 k_y ∈ {0, 1} (1 = good, 0 = bad) 。

從形式上來講,就是給定人類回饋資料集D^human = {(x, z, y)},獎勵函數學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?透過最小化均方誤差(MSE) 來訓練:

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

之前,已經有研究顯示資料增強方法可以顯著提高資料效率和模型學習效能,為了有效地利用回饋資料集,該研究設計了一個簡單的資料增強方案和獎勵學習的輔助損失(auxiliary loss)。該研究在輔助任務中使用增強 prompt,即對原始 prompt 進行分類獎勵學習。 Prompt 分類器使用獎勵函數,如下所示:

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

#輔助損失為:

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

#最後是更新文生圖模型。由於模型產生的資料集多樣性是有限的,可能導致過度擬合。為了緩解這一點,該研究也最小化了預訓練損失,如下所示:#

实验结果 

实验部分旨在测试人类反馈参与模型微调的有效性。实验用到的模型为 Stable Diffusion v1.5 ;数据集信息如表 1(参见上文)和表 2 所示,表 2 显示了由多个人类标签者提供的反馈分布。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

人类对文本 - 图像对齐的评分(评估指标为颜色、物体数量)。如图 4 所示,本文方法显著提高了图像 - 文本对齐,具体来说,模型生成的图像中有 50% 的样本获得至少三分之二的赞成票(投票数量为 7 票或更多赞成票),然而,微调会稍微降低图像保真度(15% 比 10%)。 

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

图 2 显示了来自原始模型和本文经过微调的对应模型的图像示例。可以看到原始模型生成了缺少细节(例如,颜色、背景或计数)的图像(图 2 (a)),本文模型生成的图像符合 prompt 指定的颜色、计数和背景。值得注意的是,本文模型还能生成没有见过的文本 prompt 图像,并且质量非常高(图 2 (b))。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

奖励学习的结果。图 3 (a) 为模型在见过的文本 prompt 和未见文本 prompt 中的评分。有奖励(绿色)比 CLIP 分数(红色)更符合典型的人类意图。

學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?

以上是學習ChatGPT,AI繪畫引入人類回饋會怎麼樣?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述 深入探討模型、資料與架構:一份詳盡的54頁高效能大語言模型綜述 Jan 14, 2024 pm 07:48 PM

大規模語言模型(LLMs)在許多重要任務中展現了引人注目的能力,包括自然語言理解、語言生成和複雜推理,並對社會產生了深遠的影響。然而,這些出色的能力卻需要大量的訓練資源(如左圖)和較長的推理時間(如右圖)。因此,研究人員需要開發有效的技術手段來解決它們的效率問題。此外,從圖的右邊還可以看出,一些高效率的LLMs(LanguageModels)如Mistral-7B,已經成功應用於LLMs的設計和部署中。這些高效的LLMs在保持與LLaMA1-33B相近的準確性的同時,能夠大大減少推理內存

Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Stable Diffusion 3論文終於發布,架構細節大揭秘,對復現Sora有幫助? Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

自動駕駛與軌跡預測看這篇就夠了! 自動駕駛與軌跡預測看這篇就夠了! Feb 28, 2024 pm 07:20 PM

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

首個多視角自動駕駛場景影片產生世界模型 | DrivingDiffusion: BEV資料與模擬新思路 首個多視角自動駕駛場景影片產生世界模型 | DrivingDiffusion: BEV資料與模擬新思路 Oct 23, 2023 am 11:13 AM

作者的一些個人思考在自動駕駛領域,隨著BEV-based子任務/端到端方案的發展,高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點,「高品質」可以解耦成三個面向:不同維度上的長尾場景:如障礙物資料中近距離的車輛以及切車過程中精準的朝向角,以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略,成本高昂。 3D真值-影像的高度一致:當下的BEV資料取得往往受到感測器安裝/標定,高精地圖以及重建演算法本身的誤差影響。這導致了我

《我的世界》化身AI小鎮,NPC居民角色扮演如同真人 《我的世界》化身AI小鎮,NPC居民角色扮演如同真人 Jan 02, 2024 pm 06:25 PM

請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。同時,對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的,是一款全新的、

綜述!深度模型融合(LLM/基礎模型/聯邦學習/微調等) 綜述!深度模型融合(LLM/基礎模型/聯邦學習/微調等) Apr 18, 2024 pm 09:43 PM

23年9月國防科大、京東和北理工的論文「DeepModelFusion:ASurvey」。深度模型整合/合併是一種新興技術,它將多個深度學習模型的參數或預測合併為一個模型。它結合了不同模型的能力來彌補單一模型的偏差和錯誤,以獲得更好的性能。而大規模深度學習模型(例如LLM和基礎模型)上的深度模型整合面臨一些挑戰,包括高運算成本、高維度參數空間、不同異質模型之間的干擾等。本文將現有的深度模型融合方法分為四類:(1)“模式連接”,透過一條損失減少的路徑將權重空間中的解連接起來,以獲得更好的模型融合初

不只3D高斯!最新綜述一覽最先進的3D重建技術 不只3D高斯!最新綜述一覽最先進的3D重建技術 Jun 02, 2024 pm 06:57 PM

寫在前面&筆者的個人理解基於圖像的3D重建是一項具有挑戰性的任務,涉及從一組輸入圖像推斷目標或場景的3D形狀。基於學習的方法因其直接估計3D形狀的能力而受到關注。這篇綜述論文的重點是最先進的3D重建技術,包括產生新穎的、看不見的視野。概述了高斯飛濺方法的最新發展,包括輸入類型、模型結構、輸出表示和訓練策略。也討論了尚未解決的挑戰和未來的方向。鑑於該領域的快速進展以及增強3D重建方法的眾多機會,對演算法進行全面檢查似乎至關重要。因此,本研究對高斯散射的最新進展進行了全面的概述。 (大拇指往上滑

See all articles