


Wang Wenbing, ketua algoritma Rokid: 'Bunyi' di bawah AR berada dalam keadaan 'indah'.
Bunyi ada di mana-mana dalam kehidupan seharian kita dan merupakan bahagian yang sangat diperlukan, dan perkara yang sama berlaku di dunia metaverse. Untuk mencapai rangkaian penuh rendaman dalam adegan Metaverse, peningkatan berterusan dan pembangunan pelbagai teknologi bunyi diperlukan. Pada "AISummit Global Artificial Intelligence Technology Conference " yang diadakan baru-baru ini oleh 51CTO, Wang Wenbing, ketua algoritma Rokid , membuat ucapan Ucaptama "Bunyi dalam AR di bawah Tanah "Hebat" memperkenalkan konsep medan bunyi spatial 6DoF yang dibangunkan sendiri oleh Rokid, modul teknikal utama, kesukaran teknikal, trend pembangunan menggabungkan dengan AR dan niat asal untuk membangunkan teknologi, menerangkan bidang bunyi spatial Satu manifestasi penting teknologi dalam dunia metaverse.
Kandungan kuliah kini disusun seperti berikut:
Apakah medan bunyi spatial 6dof?
Apabila bercakap tentang isu ini, anda boleh mengetepikan pengehadan teknikal dahulu dan bayangkan bagaimana bunyi pada AR harus dipersembahkan. Malah, kebanyakan TV dan telefon mudah alih yang kami gunakan sekarang adalah dua saluran seperti stereo Teater rumah telah pun menggunakan berbilang saluran, dan adegan profesional seperti panggung wayang juga mempunyai pembesar suara susun atur ruang.
Bagaimanakah ia harus dipersembahkan pada AR? Kita boleh bayangkan adegan, seperti mesyuarat dalam talian atau pendidikan dalam talian yang sangat popular sekarang Jika anda melihat orang digital di sebelah kanan dalam dunia metaverse bercakap sepanjang masa, tetapi suara itu datang dari kiri anda, adakah ia berasa pelik. kali ini?
Di samping itu, kita boleh membayangkan permainan AR Dalam penglihatan 2D sebelumnya, bunyi hanya bergerak dengan fokus penglihatan, tetapi dalam julat 360 darjah adegan 3D. , Mata manusia tidak dapat menangkap keseluruhan fokus visual, tetapi bunyi mempunyai fokus global. Inilah sebabnya mengapa dalam banyak permainan, orang akan menukar perspektif mengikut bunyi. Oleh itu, kita dapat melihat beberapa ciri yang perlu ada pada AR: ia perlu memenuhi sensitiviti tinggi orang terhadap bunyi, fokus global bunyi dan keperluan realisme bunyi.
Seterusnya, mari kita perkenalkan perkembangan bentuk bunyi daripada tiga dimensi.
Pertama, dimensi ungkapan spatial. Keseluruhan dimensi ekspresi bunyi berjulat daripada mono/stereo kepada berbilang saluran dalam satah 5.1/7.1/9.1/..., kepada berbilang saluran dalam ruang 5.1.x/7.1.x, dsb. semakin banyak pembesar suara, dan penempatan mereka juga telah meningkat dari satah ke angkasa lepas; Dari awal lagi, berasaskan saluran (iaitu, pengekodan berasaskan saluran, setiap saluran akan mempunyai pelbagai bunyi, seperti ungkapan saluran kiri dan kanan biasa kami), kepada berasaskan objek (juga untuk mengekod objek yang berlaku), termasuk sumber filem Dolby Atmos yang semua orang tonton di pawagam Contohnya, apabila bola meriam ditembak jatuh, objek bola meriam itu dikodkan secara khas, dan trajektori pergerakannya direkodkan dalam metadata, dan kemudian. Ia dimainkan mengikut kedudukan pembesar suara yang sepadan; tetapi matlamat utama kami adalah untuk mencapai kesan sepenuhnya berdasarkan tempat kejadian, sama dengan kaedah bunyi panorama seperti HOA Kami berharap ia bukan hanya bola meriam, tetapi juga kejatuhan bunga , rumput dan daun Ia mempunyai rasa ruang.
Ketiga, dimensi pengalaman XR. Pada masa lalu, bunyi maya telah dipisahkan daripada dunia nyata Kini dalam XR, terutamanya dalam AR, apa yang kami lakukan ialah penyepaduan maya dan realiti.
Sebab orang boleh membezakan bunyi dengan terperinci yang begitu halus adalah kerana mod binaural, secara teknikalnya ialah ITD dan ILD, iaitu perbezaan masa dan perbezaan intensiti bunyi antara kedua-duanya. telinga. Kedua-dua perbezaan ini akan membantu kita mencari arah bunyi objek dengan cepat.
Jadi bagaimana untuk menjadikan bunyi 3D popular? Bagaimana untuk menembusi had tempat? Bagaimana untuk mengurangkan kos penggunaan pengguna? Bagaimanakah semua orang boleh menikmati teknologi? Medan bunyi spatial 6dof yang dibangunkan sendiri oleh Rokid akan membantu menyelesaikan masalah ini.
6dof medan bunyi spatial boleh dibahagikan kepada dua bahagian daripada nama: 6dof dan medan bunyi spatial. 6dof terutamanya menyatakan enam darjah kebebasan Giroskop menyediakan putaran di sekitar tiga arah XYZ, dan pecutan memberikan pecutan dalam tiga arah XYZ.
Medan bunyi spatial 6dof melibatkan penjanaan, penyebaran, rendering, pengekodan dan penyahkodan bunyi, serta gabungan dan interaksi maya dan bunyi sebenar sepanjang proses.
Modul teknologi utama medan bunyi spatial 6dof termasuk HRTF, pemaparan medan bunyi dan kesan bunyi. HRTF ialah fungsi impak sumber bunyi dari medan bebas ke gegendang telinga Ia adalah proses penghantaran bunyi bulat ke telinga manusia dalam persekitaran ruang anechoic yang disimulasikan. Penyampaian medan bunyi boleh memberi orang keupayaan untuk membezakan kedudukan bunyi dengan mendengar, dan boleh menggabungkan objek maya dan sebenar untuk mengendalikan dengan sempurna kesan objek sebenar pada sumber bunyi maya. Kesan bunyi adalah untuk memperkayakan kualiti bunyi dengan menggunakan pembesar suara terbuka yang direka untuk privasi bagi mengurangkan kebocoran bunyi dan memastikan kelantangan. SDK di bahagian atas rajah seni bina menyediakan modul spatial luaran, iaitu eksport enjin ruang dan eksport enjin pertuturan. Maklumat spatial boleh diperoleh dan dimodelkan, membantu menyepadukan dunia digital dan fizikal. Selain itu, kami juga telah membuat beberapa pengubahsuaian pada Kesan Bilik. Rangka kerja keseluruhannya adalah serupa dengan struktur rangkaian klasik Pertama, rangkaian dibina, dan kemudian rangkaian tanpa kerugian teori dijana Kemudian, berdasarkan teori ini, pelbagai tetapan berkaitan pengecilan dan kehilangan dibuat, termasuk penyerapan, oklusi, refleksi. dll. Sebenarnya, tujuan kami sendiri bukanlah untuk menghasilkan pelbagai kesan bunyi Kami hanya menyediakan kesan bunyi berdasarkan senario penggunaan produk, seperti teater atau muzik, supaya pengguna boleh mencapai pengalaman audio-visual yang baik pada cermin mata AR generasi akan datang Rokid Max. 6dof perbandingan medan bunyi angkasa. Bahagian kiri ialah kesan SDK pihak ketiga Apabila berputar dari 0 darjah kepada 90 darjah, perubahan setiap frekuensi tidak lancar, dan penurunannya tajam pada mulanya, dan perubahan seterusnya adalah sangat kecil. Medan bunyi spatial 6dof yang dibuat oleh Rokid di sebelah kanan mempunyai perubahan yang jelas dalam jalur frekuensi yang berbeza apabila kedudukan anda berubah Gambar menunjukkan prestasi sudut yang berbeza, jalur frekuensi yang berbeza dan amplitud yang berbeza.
Pertama, rendaman, orang ramai boleh mengikuti yang sebenar dunia Menyediakan maklum balas untuk menyepadukan dan berinteraksi dengan lebih baik secara maya dan nyata, dan benar-benar mencapai pengalaman yang mengasyikkan. Semua bunyi di alam maya tidak seharusnya bebas daripada pengaruh mana-mana objek di dunia nyata, kerana ini akan membuatkan orang ramai merasakan ia masih terpisah. Selain penyepaduan, interaksi juga diperlukan Contohnya, dalam dunia maya, anda boleh berinteraksi dengan bunyi yang dipertingkatkan pada terminal AR melalui kaedah yang berbeza seperti suara dan gerak isyarat, untuk memilih untuk menjeda, memainkan atau menukar tetingkap yang berbeza. tahap dan perspektif, atau merasai suara minat anda sendiri dan banyak lagi. Yang kedua ialah penghalusan, yang melibatkan penerokaan dan amalan yang diperhalusi dalam pelbagai aspek seperti HRTF, resolusi, kaedah ujian dan penyesuaian. Perkara yang lebih sukar untuk diperhalusi ialah hantaran kepala, kerana kaedah penjanaan hantaran kepala itu sendiri lebih memakan masa dan susah payah Ia perlu memainkan setiap titik pada jarak yang berbeza di seluruh ruang sfera, dan kemudian mencubanya saluran telinga. Pada masa ini, sesetengah sarjana sedang mengkaji cara menjana tahap pemurnian yang sama dengan titik persampelan yang lebih sedikit, dan cara mencapai ketepatan yang lebih tinggi melalui interpolasi atau cara teknikal lain pada masa yang sama, dari perspektif jangka panjang, had Satu pemurnian disesuaikan pelaksanaan. Yang ketiga ialah privasi dan kesan bunyi, dan alami pesta pendengaran yang dibawa oleh bunyi dalam jalur frekuensi yang berbeza. Harmonik yang berbeza atau jalur frekuensi yang berbeza memberi kita perasaan yang berbeza. Sebagai contoh, gema yang teruk akan menjejaskan pendengaran manusia, manakala gema yang sesuai akan membawa pengalaman mendengar yang kaya dari segi kualiti bunyi terutamanya gema awal, ia sering digunakan untuk menilai timbre, di bawah 3K Gema dan pantulan sisi akan membantu mewujudkan rasa yang lebih baik; ruang dan kedalaman, manakala komponen frekuensi tinggi akan membantu kita mencapai rasa sekeliling. Mengapa Rokid mencipta medan bunyi spatial? Terdapat tiga sebab utama: Pertama, rendaman. Kami telah mengejar integrasi dunia digital dan dunia fizikal, seperti kejelasan semasa bermain permainan, realiti mesyuarat dalam talian atau pendidikan dalam talian. 2. Interaksi maya dan nyata. Kami percaya bahawa masa depan di dunia ini akan menjadi gabungan realiti dan realiti Berdasarkan gabungan itu, banyak interaksi boleh dibuat, termasuk proses persepsi ruang, interaksi tingkah laku subjektif, dll. Persepsi ruang merujuk kepada aspek dunia seperti saiz objek, saiz ruang, bahan, dan lain-lain. Persepsi ini kemudiannya membentuk kesan kepada bunyi maya interaksi tingkah laku subjektif ialah campur tangan manusia, pemilihan, dan interaksi dengan bunyi dalam dunia digital. Tiga, kualiti terbaik. AR Glass berbeza daripada telefon mudah alih, tablet, TV dan produk lain. Apabila anda menggunakan telefon mudah alih anda, pemotongan atau ketinggalan rangkaian boleh diterima, tetapi keperluan masa nyata untuk AR Glass yang dipakai pada mata anda adalah sangat tinggi. Bagaimanakah kita boleh mencapai keperluan masa nyata yang tinggi ini? Ini melibatkan pengoptimuman keseluruhan algoritma, kejuruteraan, sistem, perkakasan dan aplikasi. Ini adalah misi yang kami laksanakan dengan harapan Rokid untuk terus mempromosikan dan mempopularkan keupayaan ini kepada orang ramai melalui produk AR Glass, kami juga berharap dapat menggunakan teknologi ini sebagai sebahagian daripada OS Yoda kami Keupayaan asas dikeluarkan, dengan itu secara tidak langsung memberi manfaat kepada pengguna dan memperkasakan semua lapisan masyarakat melalui penggunaan pembangun. Tayangan ulang ucapan persidangan dan PPT kini dalam talian Pergi ke laman web rasmi untuk melihat kandungan yang menarik (https://www.php. .cn/link/53253027fef2ab5162a602f2acfed431 )
Teknologi utama medan bunyi spatial 6dof
Dengan kemunculan tahun 2020 dan peningkatan teknologi AR dan VR, pembangunan medan bunyi spatial juga telah membawa peluang baharu.
Niat asal untuk meneroka medan bunyi spatial
Atas ialah kandungan terperinci Wang Wenbing, ketua algoritma Rokid: 'Bunyi' di bawah AR berada dalam keadaan 'indah'.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas
