Rumah Peranti teknologi AI AI Morning Post |. Apakah pengalaman teks, imej, audio dan video, dan penjanaan 3D antara satu sama lain?

AI Morning Post |. Apakah pengalaman teks, imej, audio dan video, dan penjanaan 3D antara satu sama lain?

May 26, 2023 pm 02:29 PM

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

Pada 9 Mei, waktu tempatan, Meta mengumumkan bahawa ia telah membuka model AI baharu yang dipanggil ImageBind yang boleh merangkumi 6 kaedah berbeza, termasuk penglihatan (imej dan video), suhu (imej inframerah), teks dan audio , maklumat kedalaman, bacaan gerakan (dijana oleh unit ukuran inersia atau IMU). Pada masa ini, kod sumber yang berkaitan telah dihoskan pada GitHub.

Apakah maksud menjangkau 6 mod?

ImageBind mengambil visi sebagai terasnya dan boleh memahami dan menukar antara 6 mod secara bebas. Meta menunjukkan beberapa kes, seperti mendengar anjing menyalak dan melukis anjing, dan memberikan peta kedalaman yang sepadan dan penerangan teks pada masa yang sama seperti memasukkan imej burung + bunyi ombak laut, dan mendapatkan imej seekor burung di pantai.

Berbanding dengan penjana imej seperti Midjourney, Stable Diffusion dan DALL-E 2 yang menggandingkan teks dengan imej, ImageBind lebih seperti menghantar jaring yang luas dan boleh menyambungkan teks, imej/video, audio, ukuran 3D (kedalaman), data suhu (panas) dan data gerakan (dari IMU), dan ia secara langsung meramalkan hubungan antara data tanpa latihan terlebih dahulu untuk setiap kemungkinan, sama seperti cara manusia melihat atau membayangkan alam sekitar.

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

Para penyelidik menyatakan bahawa ImageBind boleh dimulakan menggunakan model bahasa visual berskala besar seperti CLIP, dengan itu memanfaatkan perwakilan imej dan teks yang kaya bagi model ini. Oleh itu, ImageBind boleh disesuaikan dengan modaliti dan tugas yang berbeza dengan latihan yang sangat sedikit.

ImageBind adalah sebahagian daripada komitmen Meta untuk mencipta sistem AI berbilang modal yang belajar daripada semua jenis data yang berkaitan. Apabila bilangan modaliti meningkat, ImageBind membuka pintu air kepada penyelidik untuk cuba membangunkan sistem holistik baharu, seperti menggabungkan penderia 3D dan IMU untuk mereka bentuk atau mengalami dunia maya yang mengasyikkan. Ia juga menyediakan cara yang kaya untuk meneroka memori anda dengan menggunakan gabungan teks, video dan imej untuk mencari imej, video, fail audio atau maklumat teks.

Model ini pada masa ini hanya projek penyelidikan dan tidak mempunyai pengguna langsung atau aplikasi praktikal, tetapi ia menunjukkan bagaimana AI generatif boleh menjana kandungan yang mengasyikkan, pelbagai deria pada masa hadapan, dan juga menunjukkan bahawa Meta In cara yang berbeza daripada pesaing seperti OpenAI dan Google, ia menempa laluan ke arah model sumber terbuka yang besar.

Akhirnya, Meta percaya bahawa teknologi ImageBind akhirnya akan mengatasi enam "deria" semasa berkata di blognya, "Sementara kami meneroka enam mod dalam penyelidikan semasa kami, kami percaya dalam memperkenalkan seberapa banyak sambungan yang mungkin Modaliti deria baharu— seperti sentuhan, pertuturan, bau dan isyarat fMRI otak—akan membolehkan model AI berpusatkan manusia yang lebih kaya ”

Penggunaan ImageBind

Jika ChatGPT boleh berfungsi sebagai enjin carian dan komuniti Soal Jawab, dan Midjourney boleh digunakan sebagai alat lukisan, apakah yang boleh anda lakukan dengan ImageBind?

Menurut demo rasmi, ia boleh menjana audio terus daripada imej:

Anda juga boleh menjana gambar daripada audio:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

Atau hanya berikan teks untuk mendapatkan semula gambar atau kandungan audio yang berkaitan:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

Anda juga boleh memberikan audio dan menjana imej yang sepadan:

AI早报 | 文本、图像、音视频、3D互相生成是什么体验?

Seperti yang dinyatakan di atas, ImageBind menyediakan cara untuk sistem AI generatif masa hadapan dipersembahkan dalam pelbagai modaliti, dan pada masa yang sama, digabungkan dengan teknologi dan senario seperti realiti maya, realiti campuran dan metaverse dalam Meta. Menggunakan alatan seperti ImageBind akan membuka pintu baharu dalam ruang yang boleh diakses, contohnya, menjana penerangan multimedia masa nyata untuk membantu orang yang mengalami masalah penglihatan atau pendengaran lebih memahami persekitaran terdekat mereka.

Masih banyak yang perlu ditemui tentang pembelajaran pelbagai mod. Pada masa ini, bidang kecerdasan buatan tidak mengukur tingkah laku penskalaan secara berkesan yang hanya muncul dalam model yang lebih besar dan memahami aplikasinya. ImageBind ialah satu langkah ke arah menilai dan menunjukkan aplikasi baharu untuk penjanaan dan pengambilan imej dengan cara yang ketat.

Pengarang: Balada

Sumber: Rangkaian Elektrik Pertama (www.d1ev.com)

Atas ialah kandungan terperinci AI Morning Post |. Apakah pengalaman teks, imej, audio dan video, dan penjanaan 3D antara satu sama lain?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Saya cuba pengekodan getaran dengan kursor AI dan ia menakjubkan! Mar 20, 2025 pm 03:34 PM

Pengekodan Vibe membentuk semula dunia pembangunan perisian dengan membiarkan kami membuat aplikasi menggunakan bahasa semulajadi dan bukannya kod yang tidak berkesudahan. Diilhamkan oleh penglihatan seperti Andrej Karpathy, pendekatan inovatif ini membolehkan Dev

Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Top 5 Genai dilancarkan pada Februari 2025: GPT-4.5, Grok-3 & More! Mar 22, 2025 am 10:58 AM

Februari 2025 telah menjadi satu lagi bulan yang berubah-ubah untuk AI generatif, membawa kita beberapa peningkatan model yang paling dinanti-nantikan dan ciri-ciri baru yang hebat. Dari Xai's Grok 3 dan Anthropic's Claude 3.7 Sonnet, ke Openai's G

Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Bagaimana cara menggunakan Yolo V12 untuk pengesanan objek? Mar 22, 2025 am 11:07 AM

Yolo (anda hanya melihat sekali) telah menjadi kerangka pengesanan objek masa nyata yang terkemuka, dengan setiap lelaran bertambah baik pada versi sebelumnya. Versi terbaru Yolo V12 memperkenalkan kemajuan yang meningkatkan ketepatan

Adakah chatgpt 4 o tersedia? Adakah chatgpt 4 o tersedia? Mar 28, 2025 pm 05:29 PM

CHATGPT 4 kini tersedia dan digunakan secara meluas, menunjukkan penambahbaikan yang ketara dalam memahami konteks dan menjana tindak balas yang koheren berbanding dengan pendahulunya seperti ChATGPT 3.5. Perkembangan masa depan mungkin merangkumi lebih banyak Inter yang diperibadikan

Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Google ' s Gencast: Peramalan Cuaca dengan Demo Mini Gencast Mar 16, 2025 pm 01:46 PM

Google Deepmind's Gencast: AI Revolusioner untuk Peramalan Cuaca Peramalan cuaca telah menjalani transformasi dramatik, bergerak dari pemerhatian asas kepada ramalan berkuasa AI yang canggih. Google Deepmind's Gencast, tanah air

AI mana yang lebih baik daripada chatgpt? AI mana yang lebih baik daripada chatgpt? Mar 18, 2025 pm 06:05 PM

Artikel ini membincangkan model AI yang melampaui chatgpt, seperti Lamda, Llama, dan Grok, menonjolkan kelebihan mereka dalam ketepatan, pemahaman, dan kesan industri. (159 aksara)

O1 vs GPT-4O: Adakah model baru OpenAI ' lebih baik daripada GPT-4O? O1 vs GPT-4O: Adakah model baru OpenAI ' lebih baik daripada GPT-4O? Mar 16, 2025 am 11:47 AM

Openai's O1: Hadiah 12 Hari Bermula dengan model mereka yang paling berkuasa Ketibaan Disember membawa kelembapan global, kepingan salji di beberapa bahagian dunia, tetapi Openai baru sahaja bermula. Sam Altman dan pasukannya melancarkan mantan hadiah 12 hari

Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Penjana Seni AI Terbaik (Percuma & amp; Dibayar) untuk projek kreatif Apr 02, 2025 pm 06:10 PM

Artikel ini mengkaji semula penjana seni AI atas, membincangkan ciri -ciri mereka, kesesuaian untuk projek kreatif, dan nilai. Ia menyerlahkan Midjourney sebagai nilai terbaik untuk profesional dan mengesyorkan Dall-E 2 untuk seni berkualiti tinggi dan disesuaikan.

See all articles