哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%-人工智慧-PHP中文網

DALL-E 2還有啥問題？

首頁

科技週邊

人工智慧

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 pm 05:40 PM

ai 影像研究

DALL-E 2剛發布的時候，生成的畫作幾乎能完美復現輸入的文本，高清的分辨率、強大的繪圖腦洞也是讓各路網友直呼“太酷”。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但最近哈佛大學的一份新研究論文表明，儘管DALL-E 2生成的圖像很精緻，但它可能只是把文本中的幾個實體粘合在一起，甚至沒有理解文本中表達的空間關係！

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

論文連結：https://arxiv.org/pdf/2208.00005.pdf

資料連結：https://osf.io/sm68h/

比如說給出一句文字提示為「A cup on a spoon”，可以看到DALL-E 2產生的圖像中，可以看到有部分圖像就沒有滿足「on」關係。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但在訓練集中，DALL-E 2可能見到的茶杯和湯匙的組合都是「in」，而「on」則比較少見，所以在兩種關係的生成上，準確率也不相同。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

所以為了探究DALL-E 2是否真的能理解文本中的語意關係，研究者選擇了15類關係，其中8個為空間關係（physical relation ），包括in, on, under, covering, near, occluded by, hanging over和tied to；7個動作關係（agentic relation），包括pushing, pulling, touching, hitting, kicking, helping和hindering.

文本中的實體集合限制為12個，選取的都是簡單的、各個資料集中常見的物品，分別為：box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana（鬣蜥）.

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

對於每類關係，創建5個prompts，每次隨機選擇2個實體進行替換，最終產生75個文字提示。提交至DALL-E 2渲染引擎後，選擇前18張生成影像，最終獲得1350張影像。

接著研究者從180位標註人員中經由常識推理測驗選拔169名參與到標註的過程。

實驗結果發現，DALL-E 2產生的圖像和用於生成圖像的文字提示之間一致性的平均值在75個prompt中僅為22.2%

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

不過很難說DALL-E 2到底是否真正「理解」了文本中的關係，透過觀察標註人員的一致性評分，按照0％、25％和50％的一致同意閾值來看，對每個關係進行的Holm-corrected的單樣本顯著性檢定表明，所有15個關係的參與者同意率在α = 0.95（pHolm

所以即使不對多重比較進行校正，事實就是DALL-E 2產生的圖像並不能理解文本中兩個物體的關係。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

結果也表明，DALL-E在把兩個不相關物體連結在一起的能力可能沒有想像中那麼強，比如說「A child touching a bowl」的一致性達到了87%，因為在現實世界中的圖像，孩子和碗出現在一起的頻率很高。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

而「A monkey touching an iguana」產生的影像，最終一致率只有11%，在渲染出來的影像中甚至會出現物種錯誤。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

所以DALL-E 2中的圖像部分類別是發展較完善的，例如孩子與食物，但在某些類別的資料中仍需要繼續訓練。

不過當前DALL-E 2在官網上還是主要展示其高清晰度和寫實風格，還沒有搞清楚其內在到底是把兩個物體“粘在一起”，還是真正理解文本信息後再進行影像生成。

研究人員表示，關係理解是人類智力的基本組成部分，DALL-E 2在基本的空間關係方面表現不佳（例如on，of）表明，它還無法像人類一樣如此靈活、穩健地建構和理解這個世界。

不過網友表示，能開發出「膠水」把東西黏在一起已經是相當偉大的成就了！ DALL-E 2並非AGI，未來仍有很大的進步空間，至少我們已經開啟了自動化生成影像的大門！

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

DALL-E 2還有啥問題？

實際上，DALL-E 2一發布，就有大量的從業人員對其優點與缺陷進行了深入剖析。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

#部落格連結：https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

用GPT-3寫小說略顯單調，DALL-E 2可以為文本產生一些插圖，甚至對長文本產生連環畫。

比如說DALL-E 2可以為圖片增加特徵，如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha”，可以精確生成繪畫風格、咖啡店、戴耳機、筆記型電腦，等等。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

但如果文本中的特徵描述涉及兩個人，DALL-E 2可能就會忘記哪些特徵屬於哪個人物，例如輸入文字為：

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.

一個年輕的黑髮男孩躺在床上，一個灰頭髮的老婦坐在窗戶下面的床旁邊的椅子上，陽光穿過，皮克斯風格的數字藝術。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

可以看到，DALL-E 2可以正確地產生窗戶、椅子和床，但在年齡、性別和髮色的特徵組合上，產生的圖像略顯迷茫。

另一個例子是讓「美國隊長和鋼鐵人並排站」，可以看到生成的結果很明顯具有美國隊長和鋼鐵人的特徵，但具體的元素卻安在了不同的人身上（例如鋼鐵人帶著美國隊長的盾牌）。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

如果是特別細節的前景與背景，模型可能也無法產生。

例如輸入文字是：

Two dogs dressed like roman soldiers on a pirate ship looking at New York City through a spyglass.

兩兩碼狗在海盜船上像羅馬士兵一樣用小望遠鏡看紐約市。

這回DALL-E 2直接就罷工了，博文作者花了半個小時也沒搞定，最終需要在“紐約市和海盜船”或“帶著望遠鏡、穿著羅馬士兵制服的狗”之間進行選擇。

Dall-E 2可以使用通用的背景來產生圖像，例如城市、圖書館中的書架，但如果這不是圖像的主要重點，那麼想要獲得更細的細節往往會變得非常難。

儘管DALL-E 2能生成常見的物體，例如各種花里胡哨的椅子，但要是讓它生成一個“奧拓自行車”，結果生成的圖片和自行車有點像，又不完全是。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

而Google圖片下搜尋的Otto Bicycle則是下面這樣的。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

DALL-E 2也無法拼寫，但偶爾也會完全巧合地正確拼出一個單字，例如讓它在停車標誌上寫下STOP

雖然模型確實能產生一些「可辨識」的英文字母，但連起來的語意和預期的單字還有差別，這也是DALL-E 2不如第一代DALL-E的地方。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

在產生樂器相關的圖像時，DALL-E 2似乎是記住了人手在演奏時的位置，但沒有琴弦，演奏起來稍顯尷尬。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

DALL-E 2也提供了一個編輯功能，例如產生一個圖像後，可以使用遊標突出顯示其區域，並添加修改的完整說明即可。

但這項功能並非一直有效，例如想給原圖加個「短髮」，編輯功能總是能在奇怪的地方加點東西。

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

技術還在不斷更新發展，期待DALL-E 3！

以上是哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7504

CakePHP 教程

1378

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

如何配置Debian Apache日誌格式 Apr 12, 2025 pm 11:30 PM

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程：第一步：訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件：sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步：定義自定義日誌格式找到或

Tomcat日誌如何幫助排查內存洩漏 Apr 12, 2025 pm 11:42 PM

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌，您可以深入了解內存使用情況和垃圾回收（GC）行為，從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏：1.GC日誌分析首先，啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項：-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌（gc.log），包含GC類型、回收對像大小和時間等信息。分析gc.log

debian readdir如何實現文件排序 Apr 13, 2025 am 09:06 AM

在Debian系統中，readdir函數用於讀取目錄內容，但其返回的順序並非預先定義的。要對目錄中的文件進行排序，需要先讀取所有文件，再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序：#include#include#include#include//自定義比較函數，用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何優化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系統中，readdir系統調用用於讀取目錄內容。如果其性能表現不佳，可嘗試以下優化策略：精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄，降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制，定期或在目錄內容變更時更新緩存，減少對readdir的頻繁調用。內存緩存（如Memcached或Redis）或本地緩存（如文件或數據庫）均可考慮。採用高效數據結構:如果自行實現目錄遍歷，選擇更高效的數據結構（例如哈希表而非線性搜索）存儲和訪問目錄信

Debian syslog如何配置防火牆規則 Apr 13, 2025 am 06:51 AM

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則，並利用Syslog記錄防火牆活動。方法一：使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則：sudoiptables-L-n-v允許特定IP訪問:例如，允許IP地址192.168.1.100訪問80端口：sudoiptables-AINPUT-ptcp--dport80-s192.16

debian readdir如何與其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系統中的readdir函數是用於讀取目錄內容的系統調用，常用於C語言編程。本文將介紹如何將readdir與其他工具集成，以增強其功能。方法一：C語言程序與管道結合首先，編寫一個C程序調用readdir函數並輸出結果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian syslog如何學習 Apr 13, 2025 am 11:51 AM

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務，它幫助管理員監控和分析系統活動，從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括：集中收集和管理日誌消息；支持多種日誌輸出格式和目標位置（例如文件或網絡）；提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝：sudoaptupdatesud

Debian Nginx日誌路徑在哪裡 Apr 12, 2025 pm 11:33 PM

Debian系統中，Nginx的訪問日誌和錯誤日誌默認存儲位置如下：訪問日誌(accesslog):/var/log/nginx/access.log錯誤日誌(errorlog):/var/log/nginx/error.log以上路徑是標準DebianNginx安裝的默認配置。如果您在安裝過程中修改過日誌文件存放位置，請檢查您的Nginx配置文件（通常位於/etc/nginx/nginx.conf或/etc/nginx/sites-available/目錄下）。在配置文件中

See all articles

哈佛大學砸場子：DALL-E 2只是「黏合怪」，生成正確率只有22%

DALL-E 2還有啥問題？

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題