微軟必應完善文字生成影像能力,Adobe 今天也發布 Firefly,殺入生成式 AI 這場遊戲。
昨晚實在是有些熱鬧。
一邊英偉達 GTC 正在進行中,一邊谷歌正式開放了 Bard 的測試,這裡微軟必應也不甘寂寞。
今日,微軟正式宣布,必應搜尋引擎連接了 OpenAI 的 DALL·E 模型,增加了 AI 生成圖像的功能。
也就是說,在存取 ChatGPT 之後,必應再次強化,Bing Image Creator 能夠讓使用者用 DALL·E 模型產生影像。
「對於擁有必應預覽版權限的用戶,Bing Image Creator 將完全整合到必應聊天體驗中,首先在創意模式下推出。」微軟消費者行銷主管 Yusuf Mehdi 解釋道。 「透過輸入圖像描述,提供位置或活動等額外語境,選擇藝術風格,Image Creator 將根據用戶的想像生成圖像。」
必應具有三種回應模式:創意模式、平衡(balanced)模式和精確(precise)模式。創意模式下必應產生的結果通常是「原創和富有想像力的」,而精確模式則傾向於準確性和相關性,以獲得更真實和簡潔的答案。目前 Image Creator 只能在創意模式下使用。
值得一提的是,即使沒有必應預覽版的使用權限,用戶也可以透過直接存取 bing.com/create 單獨使用 Image Creator 來嘗試其圖像生成功能,目前僅支援英文輸入。微軟表示,隨著時間的推移,它將支援更多的語言輸入。
此外,微軟還在必應中推出了新的 AI 支援的視覺故事(visual Stories)和 Knowledge Cards 2.0。
我們簡單為大家梳理介紹下 OpenAI 文字生成圖像的 DALL·E 系列研究。
2021 年 1 月 6 日,OpenAI 部落格發布了兩個連接文字與圖像的神經網路:DALL・E 和 CLIP。 DALL・E 可以基於文字直接產生圖像,CLIP 則能夠完成圖像與文字類別的匹配。這兩項研究的發布,引起了社區極大的關注。
根據部落格介紹,DALL・E 可以將以自然語言形式表達的大量概念轉換為恰當的圖像,可以說是 GPT-3 的 120 億參數版本,可基於文字描述生成圖像。
DALL・E 範例。給出一句話「酪梨形狀的椅子」,就可以獲得綠油油、形狀各異的酪梨椅子圖像。
2 個月後,DALL·E 的論文和程式碼公開。
2022 年4 月7 日左右,DALL・E 迎來了升級版本-DALL・E 2。與 DALL・E 相比,DALL・E 2 在產生使用者描述的影像時具有更高的解析度和更低的延遲。並且,新版本也增添了一些新的功能,例如對原始影像進行編輯。
OpenAI 也公佈了 DALL・E 2 的研究論文《Hierarchical Text-Conditional Image Generation with CLIP Latents》。
論文網址:https://cdn.openai.com/papers/dall-e-2.pdf
這次必應存取的DALL・E 應該是經過更新迭代的。這在一定程度上,彌補了目前 ChatGPT 在跨模態生成方面缺失的體驗。不過等到 GPT-4 多模態能力開放後,或許能為我們帶來更多新的體驗。
最後提一句,今天還有一篇生成式 AI 的發布引起了業內人士的關注與討論。
那就是 Adobe 發布 Firefly。這是一系列用於創意表達的生成式 AI 模型,讓使用者可以透過鍵入指令快速修改圖像。目前,Firefly 開放了測試版本,有興趣的讀者可以申請體驗。
如今看來,生成式 AI 這場遊戲有越來越多的玩家湧入,競爭也變得越來越激烈。
以上是微軟必應再強化!接入OpenAI DALL·E模型,文字生成影像的詳細內容。更多資訊請關注PHP中文網其他相關文章!