ChatGPT中有這樣一個核心訓練方法,名叫「人類回饋強化學習(RLHF)」。
它可以讓模型更安全、輸出結果更遵循人類意圖。
現在,來自GoogleResearch和UC伯克利的研究人員發現,將該方法用在AI繪畫上,「治療」圖像跟輸入不完全匹配的情況,效果也奇好——
可以實現高達47%的改進。
這一刻,AIGC領域中兩類大火的模型,似乎找到了某種“共鳴」。
RLHF,全名為“Reinforcement Learning from Human Feedback”,是OpenAI和DeepMind於2017年合作開發的一種強化學習技術。
如同其名,RLHF就是用人類對模型輸出結果的評價(即回饋)來直接優化模型,在LLM中,它可以使得「模型價值」更符合人類價值。
而在AI圖像生成模型中,它可以讓生成圖像與文字提示得到充分對齊。
具體而言,首先,收集人類回饋資料。
在這裡,研究人員一共生成了27000餘個“文字圖像對”,然後讓一些人類來評分。
為了簡單起見,文字提示只包括以下四個類別,分別關乎數量、顏色、背景和混合選項;人類的回饋則只分「好」、「壞」與「不知道(skip) 」。
其次,學習獎勵函數。
這一步,就是利用剛剛獲得的人類評估所組成的資料集,訓練出獎勵函數,然後用該函數來預測人類對模型輸出的滿意度(公式紅色部分)。
這樣,模型就知道自己的結果究竟有幾分符合文字。
除了獎勵函數,作者也提出了一個輔助任務(公式藍色部分)。
也就是當圖像生成完成後,模型再給一堆文本,但其中只有一個是原始文本,讓獎勵模型「自己檢查」圖像是否跟該文本相符。
這種逆向操作可以讓效果得到「雙重保險」(可以輔助下圖中的step2進行理解)。
最後,就是微調了。
即透過獎勵加權最大似然估計(reward-weighted likelihood maximization)(下公式第一項),更新文字-圖像生成模型。
為了避免過度擬合,作者對預訓練資料集上的NLL值(公式第二項)進行了最小化。這種做法類似於InstructionGPT (ChatGPT的「直系前輩」)。
如下一系列效果所示,相比原始的Stable Diffusion,用RLHF微調過後的模型可以:
(1)更正確地get文字裡的“兩隻”和“綠色”;
#(2)不會忽略“海”作為背景的要求;
(3)想要紅老虎,能給出「更紅」的結果。
從具體數據來看,微調後的模型人類滿意度為50%,相比原來的模型(3%),得到了47%的提升。
不過,代價是失去了5%的影像清晰度。
從下圖我們也能很清楚的看到,右邊的狼明顯比左邊的糊一些:
對此,作者表示,使用更大的人類評估資料集和更好的最佳化 (RL) 方法,可以改善這種情況。
本文總共9位作者。
一作為GoogleAI研究科學家Kimin Lee,韓國科學技術院博士,博士後研究在UC柏克萊大學展開。
華人作者三位:
#Liu Hao,UC柏克萊正在讀博士生,主要研究興趣為回饋神經網路。
Du Yuqing,同UC柏克萊博士在讀,主要研究方向為無監督強化學習方法。
Shixiang Shane Gu (顧世翔),通訊作者,本科師從三巨頭之一Hinton,博士畢業於劍橋大學。
值得一提的是,寫這篇文章時他還是谷歌人,如今已經跳槽至OpenAI,並在那裡直接向ChatGPT負責人報告。
論文網址:
https://arxiv.org/abs/2302.12192
參考連結:[1]https://www.php .cn/link/4d42d2f5010c1c13f23492a35645d6a7
[2]https://openai.com/blog/instruction-following/
###[2]https://openai.com/blog/instruction-following/###以上是ChatGPT核心方法可用於AI繪畫,效果飛升47%,通訊作者:已跳槽OpenAI的詳細內容。更多資訊請關注PHP中文網其他相關文章!