Mollick介紹了新圖像生成模型的含義
近期,谷歌和OpenAI發布的全新圖像生成模型引發廣泛關注,其核心技術與以往模型截然不同。 Ethan Mollick在One Useful Thing發表的文章深入探討了這些新模型的工作機制及其對人類用戶的影響。本文將對Mollick的觀點進行解讀。
多模態圖像生成的潛力
Mollick指出,傳統的圖像生成系統是多個模型協同工作的產物,並非單一模型完成所有任務。
他寫道:“以往,大型語言模型(LLM)生成圖像並非由LLM直接完成。AI會將文本提示發送給獨立的圖像生成工具,然後顯示結果。AI負責創建文本提示,而另一個能力較弱的系統負責生成圖像。”
擴散模型已成過去式
舊模型主要依賴擴散模型工作。擴散模型的工作原理是:將圖像引入噪聲,進行抽象處理,然後再去除噪聲,生成與計算機已知圖像庫中匹配提示的圖像。
然而,這種方法的局限性在於:生成的圖像缺乏模型自身的推理和判斷,只是對現有圖像庫的簡單組合,無法提供有價值的信息。
多模態控制的優勢
如今,多模態控制技術的出現徹底改變了這一現狀。
Mollick舉例說明:提示模型生成“沒有大象的房間,並標註原因”。傳統模型會生成包含大象的圖像,因為它無法理解提示的語境。生成的文本也可能毫無意義甚至包含虛構字符,因為模型對字母的理解也源於訓練數據。
而多模態模型則能精準地生成符合要求的圖像,並添加註釋,例如“門太小”,解釋為什麼房間裡沒有大象。
傳統模型的提示挑戰
傳統模型的一個顯著缺陷是:一旦要求其排除某個元素,它反而會包含該元素,因為它無法理解指令。此外,每次修改或調整都會改變圖像的基本結構。例如,修改人物的帽子可能會導致人物形象完全改變。
多模態圖像生成模型則能夠在保留原有結果的基礎上進行細微調整。
環境的保持
Mollick還展示了另一個例子:一隻手裡拿著特定物品的水獺,然後在不同環境和不同風格的背景下出現。這展現了多模態圖像生成器的精細整合能力。
完整的演示文稿
Mollick還展示瞭如何利用多模態模型設計完整的演示文稿,例如關於鱷梨醬的推介。只需提供簡單的指令,模型就能搜索互聯網上的相關信息,進行整合,並生成最終結果。
正如Mollick所言,這將迅速導致許多人類工作被取代。我們需要認真考慮建立相應的框架。
以上是Mollick介紹了新圖像生成模型的含義的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

介紹 Openai已根據備受期待的“草莓”建築發布了其新模型。這種稱為O1的創新模型增強了推理能力,使其可以通過問題進行思考

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題
