Jadual Kandungan
Pengenalan
Ringkasan
Tinjauan Masa Depan
Rumah Peranti teknologi AI Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Jun 09, 2023 pm 08:22 PM
Penyelidikan kereta api

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Hasil penjanaan pemandangan 3D yang pelbagai dan berkualiti tinggi

  • Alamat kertas : https://arxiv.org/abs/2304.12670
  • Laman utama projek: http://weiyuli.xyz/Sin3DGen/

Pengenalan

Sejumlah besar kerja telah muncul dalam bidang penjanaan imej menggunakan penjanaan kandungan berbantukan kecerdasan buatan (AIGC), daripada pengekod auto variasi awal (VAE), ke generasi Daripada rangkaian adversarial (GAN) kepada model resapan yang popular baru-baru ini (Model Penyebaran), keupayaan penjanaan model telah bertambah baik dengan pesat. Model yang diwakili oleh Stable Diffusion, Midjourney, dsb. telah mencapai hasil yang tidak pernah berlaku sebelum ini dalam menghasilkan imej yang sangat realistik. Pada masa yang sama, dalam bidang penjanaan video, banyak kerja cemerlang telah muncul baru-baru ini, sebagai contoh, model generatif Runway boleh menghasilkan klip video imaginatif. Aplikasi ini telah banyak merendahkan ambang untuk penciptaan kandungan, menjadikannya mudah untuk semua orang mengubah idea liar mereka menjadi realiti.

Namun, apabila media yang membawa kandungan semakin banyak, orang ramai secara beransur-ansur tidak lagi berpuas hati dengan kandungan grafik dua dimensi seperti gambar, teks dan video. Dengan perkembangan berterusan teknologi permainan elektronik interaktif, terutamanya kematangan aplikasi secara beransur-ansur seperti realiti maya dan tambahan, orang ramai semakin berharap untuk berinteraksi dengan pemandangan dan objek dari perspektif tiga dimensi, yang membawa keperluan untuk kandungan tiga dimensi. Menjana permintaan yang lebih besar.

Cara menjana kandungan tiga dimensi berkualiti tinggi dengan cepat dengan struktur geometri yang halus dan penampilan yang sangat realistik sentiasa menjadi isu utama yang diterokai oleh penyelidik dalam komuniti grafik komputer. Penjanaan pintar kandungan tiga dimensi melalui komputer boleh membantu dalam pengeluaran aset digital yang penting dalam permainan, pengeluaran filem dan televisyen dalam aplikasi pengeluaran sebenar, sangat mengurangkan masa pembangunan kakitangan pengeluaran seni, mengurangkan kos perolehan aset dengan ketara, dan memendekkan pengeluaran keseluruhan Kitaran ini juga menyediakan kemungkinan teknikal untuk pengguna membawa beribu-ribu pengalaman visual yang diperibadikan. Bagi pengguna biasa, kemunculan alatan penciptaan kandungan 3D yang pantas dan mudah, digabungkan dengan aplikasi seperti pencetak 3D desktop, akan membawa lebih banyak imaginasi tanpa had kepada kehidupan hiburan pengguna biasa pada masa hadapan.

Pada masa ini, walaupun pengguna biasa boleh mencipta kandungan dua dimensi dengan mudah seperti imej dan video melalui peranti seperti kamera mudah alih, malah model dan mengimbas pemandangan tiga dimensi, secara amnya, tinggi. Penciptaan kandungan 3D yang berkualiti selalunya memerlukan pemodelan dan rendering manual oleh profesional berpengalaman menggunakan perisian seperti 3ds Max, Maya, Blender, dll., tetapi ini mempunyai kos pembelajaran yang tinggi dan keluk pertumbuhan yang curam.

Salah satu sebab utama ialah ekspresi kandungan tiga dimensi adalah sangat kompleks, seperti model geometri, peta tekstur atau animasi rangka watak. Malah dari segi ungkapan geometri, ia boleh dalam pelbagai bentuk seperti awan titik, voxel dan jerat. Kerumitan ungkapan tiga dimensi sangat mengehadkan pengumpulan data dan reka bentuk algoritma seterusnya.

Sebaliknya, data 3D secara semula jadi terhad, dan kos pemerolehan data adalah tinggi Ia selalunya memerlukan peralatan yang mahal dan proses pemerolehan yang kompleks, dan sukar untuk mengumpul yang besar bilangan data 3D dalam format bersatu. Ini menjadikan kebanyakan model generatif dalam terdorong data sukar digunakan.

Di peringkat algoritma, cara menyuap data tiga dimensi yang dikumpul ke dalam model pengiraan juga merupakan masalah yang sukar untuk diselesaikan. Overhed kuasa pengkomputeran pemprosesan data tiga dimensi secara eksponen lebih tinggi daripada data dua dimensi. Memanjangkan algoritma penjanaan dua dimensi kepada tiga dimensi secara ganas adalah sukar untuk diproses walaupun pemproses pengkomputeran selari yang paling maju dalam masa yang boleh diterima.

Atas sebab di atas, kebanyakan kerja penjanaan kandungan 3D semasa dihadkan kepada kategori tertentu atau hanya boleh menjana kandungan resolusi yang lebih rendah, menjadikannya sukar untuk menggunakannya pada proses pengeluaran sebenar.

Untuk menyelesaikan masalah di atas, Pasukan Chen Baoquan Universiti Peking bekerjasama dengan penyelidik dari Universiti Shandong dan Tencent AI Lab untuk mencadangkan senario sampel tunggal yang pertama tanpa latihan. Kaedah yang boleh menjana pelbagai pemandangan 3D berkualiti tinggi. Algoritma ini mempunyai kelebihan berikut:

1 Ia tidak memerlukan data latihan yang serupa berskala besar dan latihan jangka panjang, dan boleh menjana adegan tiga dimensi berkualiti tinggi dengan hanya menggunakan. satu sampel;

2, menggunakan Plenoxel berdasarkan medan sinaran saraf sebagai ekspresi tiga dimensi, pemandangan itu mempunyai penampilan yang sangat realistik dan boleh menghasilkan imej berbilang paparan foto-realistik. Adegan yang dihasilkan juga mengekalkan semua ciri sampel dengan sempurna, seperti kesan pantulan pada permukaan air yang berubah dengan sudut tontonan; 3, menyokong pelbagai pengeluaran aplikasi; senario, seperti adegan tiga dimensi Pengeditan, pengalihan saiz, analogi struktur adegan, menukar rupa pemandangan, dsb.

Pengenalan kaedah

Para penyelidik mencadangkan rangka kerja penjanaan progresif berskala, seperti yang ditunjukkan dalam rajah di bawah. Idea teras algoritma adalah untuk membongkar adegan sampel menjadi berbilang blok, memperkenalkan bunyi Gaussian, dan kemudian memasangnya semula menjadi adegan baharu yang serupa dengan cara yang serupa dengan blok bangunan.

Pengarang menggunakan medan pemetaan koordinat dan ekspresi heterogen sampel untuk mewakili pemandangan yang dijana, menjadikan penjanaan berkualiti tinggi boleh dilaksanakan. Bagi menjadikan proses pengoptimuman algoritma lebih mantap, kajian ini juga mencadangkan kaedah pengoptimuman berdasarkan campuran nilai dan koordinat. Pada masa yang sama, untuk menyelesaikan masalah penggunaan sumber secara besar-besaran dalam pengiraan tiga dimensi, penyelidikan ini menggunakan strategi pengoptimuman anggaran yang tepat, yang membolehkan penjanaan adegan baharu berkualiti tinggi dalam beberapa minit tanpa sebarang latihan. Sila rujuk kertas asal untuk butiran lanjut teknikal.

Penjanaan adegan rawak


Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Dengan satu adegan sampel 3D seperti yang terdapat dalam kotak di sebelah kiri, adegan baharu dengan geometri kompleks dan rupa realistik boleh dijana dengan cepat. Kaedah ini boleh mengendalikan objek dengan topologi kompleks, seperti kaktus, gerbang dan bangku batu, dan pemandangan yang dijana dengan sempurna mengekalkan geometri halus dan penampilan berkualiti tinggi bagi adegan sampel. Tiada model generatif semasa berdasarkan rangkaian saraf yang mencapai kualiti dan kepelbagaian yang serupa.

Penjanaan pemandangan besar resolusi tinggi

Kaedah ini boleh menjana resolusi yang sangat tinggi dengan cekap kandungan 3D. Seperti yang ditunjukkan di atas, kita boleh menjana bahagian "Ribu Batu Sungai dan Pergunungan" resolusi 1328 x 512 x 200 dengan memasukkan bahagian tunggal "Ribuan Batu Sungai dan Pergunungan" tiga dimensi dengan resolusi 512 x 512 x 200 di penjuru kiri sebelah atas, dan jadikannya 4096 x 1024 imej berbilang paparan 2D dengan peleraian tinggi.

Penjanaan pemandangan tanpa sempadan dunia sebenar

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf Penulis juga mengesahkan kaedah penjanaan yang dicadangkan pada pemandangan semula jadi sebenar. Dengan menggunakan kaedah pemprosesan yang serupa dengan NeRF++, selepas memisahkan latar depan dan latar belakang secara eksplisit seperti langit, dan menjana kandungan latar depan secara berasingan, adegan baharu boleh dijana dalam adegan tanpa sempadan di dunia nyata.

Senario aplikasi lain

Suntingan adegan

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian sarafMenggunakan rangka kerja algoritma generasi yang sama, dengan menambahkan sekatan yang dinyatakan secara buatan, operasi penyuntingan seperti pemadaman, penyalinan dan pengubahsuaian objek dalam pemandangan tiga dimensi boleh dilakukan. Seperti yang ditunjukkan dalam gambar, anda boleh mengalih keluar gunung dari tempat kejadian dan mengisi lubang secara automatik, menduplikasinya untuk mencipta tiga puncak atau menjadikan gunung itu lebih besar.

Ubah Hala Saiz

Kaedah ini juga boleh meregangkan atau memampatkan objek tiga dimensi sambil mengekalkan bentuk setempatnya. Bingkai hijau dalam gambar menunjukkan adegan sampel asal, yang memanjangkan kereta api tiga dimensi sambil mengekalkan saiz tempatan tingkap.

Penjanaan analogi struktur


Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Sama seperti pemindahan gaya imej, memandangkan dua adegan A dan B, kita boleh mencipta pemandangan baharu yang mempunyai rupa dan ciri geometri A, tetapi mempunyai struktur yang serupa dengan B. Sebagai contoh, kita boleh merujuk kepada gunung salji untuk mengubah gunung lain menjadi gunung salji tiga dimensi.

Tukar contoh adegan

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Disebabkan Kaedah ini menggunakan ekspresi heterogen untuk adegan yang dihasilkan, dan boleh menjana adegan baharu yang lebih pelbagai dengan hanya mengubah suai adegan sampel yang dipetakan. Contohnya, dengan menggunakan medan pemetaan pemandangan yang sama S untuk memetakan pemandangan pada masa atau musim yang berbeza, hasil penjanaan yang lebih kaya boleh diperolehi.

Ringkasan

Kerja ini berorientasikan bidang penjanaan kandungan 3D Ia mencadangkan model penjanaan pemandangan semula jadi 3D berdasarkan satu sampel untuk kali pertama, mencuba untuk menyelesaikan masalah kaedah penjanaan 3D semasa Terdapat masalah seperti keperluan data yang besar, overhed kuasa pengkomputeran yang tinggi, dan kualiti penjanaan yang lemah. Kerja ini memfokuskan pada adegan semula jadi yang lebih umum dengan maklumat semantik yang lemah, memberi lebih perhatian kepada kepelbagaian dan kualiti kandungan yang dijana. Algoritma ini diilhamkan terutamanya oleh teknologi yang berkaitan dengan penjanaan imej tekstur dalam grafik komputer tradisional, dan digabungkan dengan medan sinaran saraf baru-baru ini, ia dengan cepat boleh menjana pemandangan tiga dimensi berkualiti tinggi dan telah menunjukkan pelbagai aplikasi praktikal.

Tinjauan Masa Depan

Kerja ini mempunyai fleksibiliti yang kuat, bukan sahaja boleh digabungkan dengan ekspresi neural semasa, tetapi juga sesuai untuk ekspresi geometri saluran paip pemaparan tradisional, seperti poligon. mesh. Walaupun kami memberi tumpuan kepada data dan model yang besar, kami juga harus menyemak alat grafik tradisional dari semasa ke semasa. Penyelidik percaya bahawa dalam masa terdekat, dalam bidang AIGC 3D, alat grafik tradisional digabungkan dengan ekspresi saraf berkualiti tinggi dan model generasi berkuasa akan mencipta percikan yang lebih cemerlang, seterusnya mempromosikan kualiti dan kelajuan penjanaan kandungan 3D, dan membebaskan kreativiti Rakyat. .

Kajian ini telah dibincangkan oleh ramai netizen:

Sesetengah netizen berkata: (Penyelidikan ini) bagus untuk pembangunan permainan, anda hanya perlu untuk memodelkan satu model untuk menjana banyak versi baharu.

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf

Sesetengah orang bersetuju sepenuhnya dengan pandangan di atas Pembangun permainan, individu dan syarikat kecil boleh mendapat manfaat daripada jenis ini daripada model.

Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf


Atas ialah kandungan terperinci Penjanaan pemandangan 3D: Hasilkan hasil yang pelbagai daripada sampel tunggal tanpa sebarang latihan rangkaian saraf. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tinggalkan seni bina pengekod-penyahkod dan gunakan model resapan untuk pengesanan tepi, yang lebih berkesan Universiti Teknologi Pertahanan Nasional mencadangkan DiffusionEdge Tinggalkan seni bina pengekod-penyahkod dan gunakan model resapan untuk pengesanan tepi, yang lebih berkesan Universiti Teknologi Pertahanan Nasional mencadangkan DiffusionEdge Feb 07, 2024 pm 10:12 PM

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Tongyi Qianwen adalah sumber terbuka sekali lagi, Qwen1.5 membawakan enam model volum, dan prestasinya melebihi GPT3.5 Tongyi Qianwen adalah sumber terbuka sekali lagi, Qwen1.5 membawakan enam model volum, dan prestasinya melebihi GPT3.5 Feb 07, 2024 pm 10:15 PM

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Model besar juga boleh dihiris, dan Microsoft SliceGPT sangat meningkatkan kecekapan pengiraan LLAMA-2 Model besar juga boleh dihiris, dan Microsoft SliceGPT sangat meningkatkan kecekapan pengiraan LLAMA-2 Jan 31, 2024 am 11:39 AM

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

LLaVA-1.6, yang mengejar Gemini Pro dan meningkatkan keupayaan penaakulan dan OCR, terlalu berkuasa LLaVA-1.6, yang mengejar Gemini Pro dan meningkatkan keupayaan penaakulan dan OCR, terlalu berkuasa Feb 01, 2024 pm 04:51 PM

Pada April tahun lepas, penyelidik dari Universiti Wisconsin-Madison, Penyelidikan Microsoft dan Universiti Columbia bersama-sama mengeluarkan LLaVA (Pembantu Bahasa dan Penglihatan Besar). Walaupun LLaVA hanya dilatih dengan set data arahan berbilang modal yang kecil, ia menunjukkan keputusan inferens yang hampir sama dengan GPT-4 pada beberapa sampel. Kemudian pada bulan Oktober, mereka melancarkan LLaVA-1.5, yang menyegarkan SOTA dalam 11 penanda aras dengan pengubahsuaian mudah kepada LLaVA asal. Hasil peningkatan ini sangat mengujakan, membawa kejayaan baharu kepada bidang pembantu AI berbilang modal. Pasukan penyelidik mengumumkan pelancaran versi LLaVA-1.6, menyasarkan penaakulan, OCR dan

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

See all articles