首頁 科技週邊 人工智慧 AI早報 | 文字、圖像、影音、3D互相生成是什麼體驗?

AI早報 | 文字、圖像、影音、3D互相生成是什麼體驗?

May 26, 2023 pm 02:29 PM

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

當地時間5月9日,Meta宣布開源了一種可以將可以橫跨6種不同模態的全新AI模型ImageBind,包括視覺(圖像和視頻形式)、溫度(紅外線圖像)、文字、音頻、深度資訊、運動讀數(由慣性測量單元或IMU產生)。目前,相關原始碼已託管至GitHub。

何為橫跨6種模態?

ImageBind以視覺為核心,能夠在6個模態之間自由理解和轉換。 Meta展示了一些案例,如聽到狗叫畫出一隻狗,同時給出對應的深度圖和文字描述;如輸入鳥的圖像 海浪的聲音,得到鳥在海邊的圖像。

相比Midjourney、Stable Diffusion 和DALL-E 2 這樣將文字與圖像配對的圖像生成器,ImageBind 更像是廣撒網,可以連接文字、圖像/視訊、音訊、3D 測量(深度)、溫度資料(熱)和運動資料(來自IMU),而且它無需先針對每一種可能性進行訓練,直接預測資料之間的聯繫,類似於人類感知或想像環境的方式。

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

研究者表示 ImageBind 可以使用大規模視覺語言模型(如 CLIP)進行初始化,從而利用這些模型的豐富圖像和文字表示。因此,ImageBind 可以透過很少的訓練就適用於不同的模態和任務。

ImageBind 是 Meta 致力於創建多模態 AI 系統的一部分,從而實現從所有相關類型資料中學習。隨著模態數量的增加,ImageBind 為研究人員打開了嘗試開發全新整體性系統的閘門,例如結合 3D 和 IMU 感測器來設計或體驗身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文字、視訊和圖像來搜尋圖像、視訊、音訊檔案或文字資訊。

該模型目前只是一個研究項目,沒有直接的消費者和實際應用,但是它展現了生成式AI 在未來能夠生成沉浸式、多感官內容的方式,也表明了Meta正在以與OpenAI、Google 等競爭對手不同的方式,趟出一條屬於開源大模型的路。

最終,Meta 認為ImageBind 這項技術最終會超越目前的六種“感官”,其在博客上說道,“雖然我們在當前的研究中探索了六種模式,但我們相信引入連接盡可能多的感官的新模式——如觸覺、語音、嗅覺和大腦fMRI 信號——將使更豐富的以人為中心的人工智慧模型成為可能。」

ImageBind的用途

如果說 ChatGPT 可以充當搜尋引擎、問答社區,Midjourney 可以被用來當畫畫工具,那麼用 ImageBind 可以做什麼?

根據官方發布的 Demo 顯示,它可以直接用圖片產生音訊:

也可以音訊產生圖片:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

亦或直接給一個文本,就可以檢索相關的圖片或音頻內容:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

也可以給出音頻,產生相應的圖像:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

如上文所述, ImageBind 給出了未來生成式 AI 系統可以以多模態呈現的方式,同時,結合 Meta 內部的虛擬實境、混合實境和元宇宙等技術和場景結合。用 ImageBind 這樣的工具會在無障礙空間打開新的大門,譬如,產生即時多媒體描述來幫助有視力或聽力障礙的人更好地感知他們的直接環境。

關於多模態學習還有很多待發掘的內容。目前,人工智慧領域還沒有有效地量化那些只出現在較大模型中的擴展行為並且理解其應用。 ImageBind是朝著以嚴格的方式評估影像生成和檢索新應用並展示的方向邁進的一步。

作者:Ballad

來源:第一個電動網(www.d1ev.com)

以上是AI早報 | 文字、圖像、影音、3D互相生成是什麼體驗?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

最佳AI藝術生成器(免費付款)創意項目 最佳AI藝術生成器(免費付款)創意項目 Apr 02, 2025 pm 06:10 PM

本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。

開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) 最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比較了諸如Chatgpt,Gemini和Claude之類的頂級AI聊天機器人,重點介紹了其獨特功能,自定義選項以及自然語言處理和可靠性的性能。

頂級AI寫作助理來增強您的內容創建 頂級AI寫作助理來增強您的內容創建 Apr 02, 2025 pm 06:11 PM

文章討論了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的寫作助手,重點介紹了其獨特的內容創建功能。它認為Jasper在SEO優化方面表現出色,而AI工具有助於保持音調的組成

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

10個生成AI編碼擴展,在VS代碼中,您必須探索 10個生成AI編碼擴展,在VS代碼中,您必須探索 Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

選擇最佳的AI語音生成器:評論的頂級選項 選擇最佳的AI語音生成器:評論的頂級選項 Apr 02, 2025 pm 06:12 PM

本文評論了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高級AI語音生成器,重點介紹其功能,語音質量和滿足不同需求的適用性。

See all articles