Penyelidik di MIT dan IBM Watson AI Lab telah mencipta model pembelajaran mesin yang meramalkan perkara yang akan didengari oleh pendengar di lokasi berbeza dalam ruang 3D.
Para penyelidik mula-mula menggunakan model pembelajaran mesin ini untuk memahami cara sebarang bunyi dalam bilik bergerak melalui ruang, membina gambar bilik 3D dengan cara yang sama seperti orang memahami persekitaran mereka melalui bunyi.
Dalam kertas kerja yang dikarang bersama oleh pelajar siswazah Jabatan Kejuruteraan Elektrik dan Sains Komputer (EECS) MIT Yilun Du, penyelidik menunjukkan cara teknik yang serupa dengan pemodelan 3D visual boleh digunakan pada akustik .
Tetapi mereka perlu menghadapi perbezaan dalam perambatan bunyi dan cahaya. Contohnya, disebabkan halangan, bentuk bilik dan ciri bunyi, pendengar di lokasi berbeza dalam bilik mungkin mempunyai tanggapan bunyi yang sangat berbeza, menjadikan keputusan tidak dapat diramalkan.
Untuk menyelesaikan masalah ini, penyelidik membina tandatangan akustik ke dalam model mereka. Pertama, semua perkara lain adalah sama, menukar kedudukan sumber bunyi dan pendengar tidak mengubah apa yang didengari oleh pendengar. Bunyi juga dipengaruhi terutamanya oleh keadaan setempat, seperti halangan antara pendengar dan sumber bunyi.
Du berkata: "Setakat ini, kebanyakan penyelidik hanya menumpukan pada pemodelan visual. Tetapi sebagai manusia, kita mempunyai pelbagai mod persepsi. Bukan sahaja penglihatan adalah penting, tetapi bunyi juga penting. Saya fikir ini Kerja membuka hala tuju penyelidikan yang menarik untuk menggunakan bunyi dengan lebih baik untuk mensimulasikan dunia."
Menggunakan kaedah ini, model medan akustik saraf (NAF) yang dijana dapat merawak titik pada grid. Persampelan untuk memahami ciri-ciri lokasi tertentu. Sebagai contoh, berada dekat dengan pintu boleh mempengaruhi apa yang didengari oleh pendengar dari seberang bilik.
Model ini dapat meramalkan kemungkinan pendengaran pendengar daripada rangsangan akustik tertentu berdasarkan kedudukan relatif pendengar di dalam bilik.
Makalah itu menyatakan: "Dengan memodelkan perambatan akustik dalam adegan sebagai sistem invarian masa linear, NAF belajar untuk terus memetakan kedudukan pemancar dan pendengar kepada fungsi tindak balas impuls saraf, yang boleh digunakan "Kami menunjukkan bahawa kesinambungan NAF membolehkan kami memberikan bunyi spatial kepada pendengar di lokasi sewenang-wenangnya dan meramalkan penyebaran bunyi ke lokasi baharu."
Pengetua, MIT-IBM Watson AI Lab. Penyelidik Chuang Gan, yang juga terlibat dalam projek itu, berkata: "Teknologi baharu ini mungkin membawa peluang baharu untuk mencipta pengalaman mendalam berbilang mod dalam aplikasi Metaverse
Kami tahu bahawa tidak semua Pembaca Reg akan teruja dengan kes penggunaan ini.
Atas ialah kandungan terperinci Penyelidikan pembelajaran mesin dalam akustik boleh membuka kunci metaverse multimodal. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!