Jadual Kandungan
"Sepanjang dekad akan datang, kami akan menggunakan model yang benar-benar berbilang bahasa dalam pengeluaran, membolehkan pembangun membina aplikasi yang boleh difahami oleh sesiapa sahaja dalam mana-mana bahasa, benar-benar melepaskan kuasa pengecaman pertuturan kepada dunia." >
3. ASR berskala besar untuk semua orang
4. Kerjasama manusia-mesin
5. ASR yang Bertanggungjawab
Rumah Peranti teknologi AI Dalam sepuluh tahun akan datang, pengecaman pertuturan AI akan berkembang dalam lima arah ini

Dalam sepuluh tahun akan datang, pengecaman pertuturan AI akan berkembang dalam lima arah ini

Apr 11, 2023 pm 08:10 PM
padang teknologi asr

​ Pengarang |. Migüel Jetté

Disusun |. bluemin

Editor |. Pembangunan penting telah dicapai dalam penggunaan komersil Salah satu petunjuk pengukuran ialah berbilang model ASR peringkat perusahaan yang berasaskan sepenuhnya pada rangkaian saraf telah berjaya dilancarkan, seperti Alexa, Rev, AssemblyAI, ASAPP, dsb. Pada 2016, Microsoft Research menerbitkan artikel yang mengumumkan bahawa model mereka telah mencapai prestasi peringkat manusia (seperti yang diukur dengan kadar ralat perkataan) pada set data "Papan Suis" berusia 25 tahun. Ketepatan ASR terus bertambah baik, mencapai prestasi peringkat manusia merentas lebih banyak set data dan kes penggunaan.

未来十年,AI 语音识别将朝着这五个方向发展Sumber imej: Catatan blog Awni Hannun "Pengiktirafan Ucapan tidak Diselesaikan"

Oleh kerana ketepatan pengecaman teknologi ASR telah bertambah baik, senario aplikasi telah menjadi semakin popular Kami percaya bahawa ia belum menjadi puncak penggunaan komersial ASR, dan aplikasi penyelidikan dan pasaran dalam bidang ini masih belum diterokai. Kami meramalkan bahawa sistem penyelidikan dan komersil berkaitan suara AI akan menumpukan pada lima bidang berikut dalam sepuluh tahun akan datang:

Model ASR berbilang bahasa

"Sepanjang dekad akan datang, kami akan menggunakan model yang benar-benar berbilang bahasa dalam pengeluaran, membolehkan pembangun membina aplikasi yang boleh difahami oleh sesiapa sahaja dalam mana-mana bahasa, benar-benar melepaskan kuasa pengecaman pertuturan kepada dunia." >

Sumber imej: "Pembelajaran perwakilan silang bahasa tanpa pengawasan untuk pengecaman pertuturan" yang diterbitkan oleh Alexis Conneau et al pada 2020

Model ASR komersil hari ini kebanyakannya menggunakan Ia dilatih pada set data bahasa Inggeris dan. oleh itu mempunyai ketepatan yang lebih tinggi pada input bahasa Inggeris. Terdapat minat jangka panjang yang lebih besar dalam bahasa Inggeris dalam bidang akademik dan industri disebabkan oleh ketersediaan data dan permintaan pasaran. Walaupun ketepatan pengiktirafan bahasa komersial popular seperti Perancis, Sepanyol, Portugis dan Jerman juga munasabah, jelas terdapat ekor panjang bahasa dengan data latihan terhad dan kualiti keluaran ASR yang agak rendah. 未来十年,AI 语音识别将朝着这五个方向发展

Selain itu, kebanyakan sistem perniagaan adalah berdasarkan satu bahasa, yang tidak boleh digunakan pada senario berbilang bahasa yang unik kepada banyak masyarakat. Multilingualisme boleh berbentuk bahasa back-to-back, seperti pengaturcaraan media di negara dwibahasa. Amazon telah membuat kemajuan besar dalam menangani masalah ini dengan melancarkan produk yang menyepadukan pengenalan bahasa (LID) dan ASR baru-baru ini. Sebaliknya, menterjemah bahasa (juga dikenali sebagai penukaran kod) ialah sistem bahasa yang digunakan oleh individu untuk menggabungkan perkataan dan tatabahasa daripada dua bahasa dalam ayat yang sama. Ini adalah kawasan di mana akademia terus membuat kemajuan yang menarik.

Sama seperti bidang pemprosesan bahasa semula jadi menggunakan pendekatan berbilang bahasa, kita akan melihat ASR mengikutinya dalam dekad akan datang. Sambil kami mempelajari cara memanfaatkan teknologi hujung ke hujung yang baru muncul, kami akan melatih model berbilang bahasa berskala besar yang boleh memindahkan pembelajaran antara berbilang bahasa. XLS-R Meta ialah contoh yang baik: dalam satu demo, pengguna boleh bercakap mana-mana daripada 21 bahasa tanpa menyatakan bahasa, dan model itu akhirnya akan diterjemahkan ke bahasa Inggeris. Dengan memahami dan menggunakan persamaan antara bahasa, sistem ASR yang lebih pintar ini akan menyediakan kebolehgunaan ASR berkualiti tinggi untuk bahasa sumber rendah dan kes penggunaan bahasa campuran dan akan membolehkan aplikasi gred komersial.

2. Objek keluaran standard yang kaya

“Dalam sepuluh tahun akan datang, kami percaya bahawa sistem ASR komersial akan mengeluarkan objek transkripsi yang lebih kaya, Di sana Lebih daripada perkataan mudah, kami menjangkakan bahawa output yang lebih kaya ini akan disokong oleh badan piawai seperti W3C supaya semua API akan mengembalikan output yang dibina sama, yang akan membebaskan semua orang di dunia Aplikasi.

" Walaupun Institut Piawaian dan Teknologi Kebangsaan (NIST) mempunyai tradisi lama untuk menerokai "transkripsi kaya", ia hanya menconteng permukaan dalam memasukkannya ke dalam format piawai dan berskala untuk output ASR. Konsep transkripsi kaya pada mulanya melibatkan penggunaan huruf besar, tanda baca dan diari, tetapi sedikit sebanyak berkembang kepada peranan penutur dan rangkaian acara pertuturan bukan lisan. Inovasi yang dijangkakan termasuk menyalin pertuturan bertindih daripada penutur yang berbeza, emosi yang berbeza-beza dan ciri paralinguistik lain, serta julat adegan dan peristiwa pertuturan bukan linguistik malah bukan manusia, serta menyalin kepelbagaian berasaskan teks atau linguistik. Tanaka et al. menggambarkan senario di mana pengguna mungkin ingin memilih antara pilihan transkripsi dengan pelbagai kekayaan, dan jelas sekali jumlah dan sifat maklumat tambahan yang kami ramalkan boleh ditentukan, bergantung pada aplikasi hiliran.

Sistem ASR tradisional mampu menjana grid berbilang hipotesis dalam proses mengenal pasti perkataan yang dituturkan, yang telah terbukti memberi manfaat besar dalam transkripsi bantuan manusia, sistem dialog yang dituturkan dan perolehan maklumat. Memasukkan maklumat n-terbaik dalam format output yang kaya akan menggalakkan lebih ramai pengguna menggunakan sistem ASR, dengan itu meningkatkan pengalaman pengguna. Walaupun tiada standard yang wujud pada masa ini untuk menstruktur atau menyimpan maklumat tambahan yang sedang atau berpotensi dijana semasa penyahkodan pertuturan, Piawaian Transkripsi Pertuturan Terbuka CallMiner (OVTS) ialah langkah kukuh ke arah ini, menjadikannya mudah bagi perusahaan untuk meneroka dan memilih vendor ASR Berbilang.

Kami meramalkan bahawa pada masa hadapan, sistem ASR akan menghasilkan output yang lebih kaya dalam format standard, membolehkan aplikasi hiliran yang lebih berkuasa. Sebagai contoh, sistem ASR mungkin mengeluarkan set penuh jejaring yang mungkin, dan aplikasi boleh menggunakan data tambahan ini untuk melakukan transkripsi automatik pintar semasa mengedit transkrip. Begitu juga, transkripsi ASR yang termasuk metadata tambahan seperti dialek serantau, aksen, bunyi ambien atau mood yang dikesan boleh mendayakan aplikasi carian yang lebih berkuasa.

3. ASR berskala besar untuk semua orang

“Dalam dekad ini, ASR berskala besar (iaitu, penswastaan, Mampu, boleh dipercayai, dan pantas) akan menjadi sebahagian daripada kehidupan harian setiap orang Sistem ini akan dapat mencari video, mengindeks semua kandungan media yang kami gunakan, dan menjadikan setiap video boleh diakses oleh pengguna bermasalah pendengaran di seluruh dunia dan video boleh diakses dan boleh diambil tindakan ”

未来十年,AI 语音识别将朝着这五个方向发展

未来十年,AI 语音识别将朝着这五个方向发展

Kita mungkin semua menggunakan perisian audio dan video: Podcast, strim media sosial, video dalam talian, sembang kumpulan langsung, mesyuarat Zum dan banyak lagi. Namun kandungan yang berkaitan jarang ditranskripsikan dalam amalan. Hari ini, transkripsi kandungan telah menjadi salah satu pasaran terbesar untuk API ASR dan akan berkembang pesat sepanjang dekad akan datang, terutamanya memandangkan ketepatan dan kemampuannya. Setelah berkata demikian, transkripsi ASR pada masa ini hanya digunakan untuk aplikasi tertentu (video siaran, persidangan dan podcast tertentu, dsb.). Akibatnya, ramai orang tidak dapat mengakses kandungan media ini dan mendapati sukar untuk mencari maklumat yang berkaitan selepas siaran atau acara.

Pada masa hadapan, keadaan ini akan berubah. Seperti yang diramalkan oleh Matt Thompson pada 2010, pada satu ketika ASR akan menjadi murah dan cukup meluas sehingga kita akan mengalami apa yang dipanggilnya "kebolehtuturan". Kami meramalkan bahawa pada masa hadapan hampir semua kandungan audio dan video akan ditranskripsi dan dibuat serta-merta boleh diakses, disimpan dan boleh dicari pada skala. Tetapi pembangunan ASR tidak akan berhenti di sini, kami juga berharap kandungan ini dapat diambil tindakan. Kami berharap setiap audio dan video yang digunakan atau terlibat akan memberikan konteks tambahan, seperti cerapan yang dijana secara automatik daripada podcast atau persidangan, atau ringkasan automatik detik penting dalam video, dsb. Kami berharap sistem NLP dapat merutinkan pemprosesan di atas.

4. Kerjasama manusia-mesin

“Menjelang akhir abad ini, kita akan mempunyai sistem ASR yang berkembang seperti kehidupan organisma , belajar secara berterusan dengan bantuan manusia atau penyeliaan kendiri, sistem ini akan belajar daripada sumber yang berbeza di dunia nyata, memahami perkataan dan variasi bahasa baharu dalam masa nyata dan bukannya secara tidak segerak, nyahpepijat kendiri dan memantau penggunaan yang berbeza secara automatik." 🎜>

未来十年,AI 语音识别将朝着这五个方向发展

Memandangkan ASR menjadi arus perdana dan meliputi lebih banyak kes penggunaan, kerjasama manusia-mesin akan memainkan peranan penting. Latihan model ASR mencerminkan perkara ini dengan baik. Hari ini, set data sumber terbuka dan model pra-latihan mengurangkan halangan kepada kemasukan vendor ASR. Walau bagaimanapun, proses latihan masih agak mudah: mengumpul data, menganotasi data, melatih model, menilai keputusan, menambah baik model. Tetapi ini adalah proses yang perlahan dan, dalam banyak kes, terdedah kepada ralat kerana kesukaran dalam penalaan atau data yang tidak mencukupi. Garnerin et al. memerhatikan bahawa kehilangan metadata dan ketidakkonsistenan dalam perwakilan merentas korporat menjadikannya sukar untuk menjamin ketepatan yang sama dalam prestasi ASR, yang juga merupakan masalah yang cuba diselesaikan oleh Reid dan Walker semasa membangunkan standard metadata.

Pada masa hadapan, manusia akan menyelia latihan ASR dengan cekap melalui cara yang bijak dan memainkan peranan yang semakin penting dalam mempercepatkan pembelajaran mesin. Pendekatan Human-in-the-loop meletakkan pengulas manusia dalam gelung pembelajaran mesin/maklum balas, membolehkan semakan berterusan dan pelarasan hasil model. Ini akan menjadikan pembelajaran mesin lebih pantas dan lebih cekap, menghasilkan output berkualiti tinggi. Pada awal tahun ini, kami membincangkan cara penambahbaikan pada ASR akan membolehkan transkrip manusia Rev (dipanggil "Revvers") melakukan penyuntingan pasca pada draf ASR, menjadikannya lebih produktif. Transkripsi Revver boleh dimasukkan terus ke dalam model ASR yang dipertingkatkan, membentuk kitaran yang mulia.

Satu bidang yang pakar bahasa manusia kekal penting dalam ASR ialah penormalan teks songsang (ITN), di mana mereka menukar rentetan yang diiktiraf (seperti "lima dolar") ke dalam bentuk bertulis yang diharapkan (seperti " $5”). Pusateri et al mencadangkan pendekatan hibrid menggunakan "model tatabahasa dan statistik buatan tangan", dan Zhang et al meneruskannya dengan mengekang RNN dengan FST buatan tangan.

5. ASR yang Bertanggungjawab

“Seperti semua sistem AI, sistem ASR masa hadapan akan mematuhi Prinsip etika AI yang lebih ketat supaya sistem merawat semua orang sama, mempunyai tahap kebolehjelasan yang lebih tinggi, bertanggungjawab terhadap keputusannya, dan menghormati privasi pengguna dan data mereka ”

未来十年,AI 语音识别将朝着这五个方向发展

Sistem ASR masa hadapan Etika AI akan dipatuhi: keadilan, kebolehjelasan, menghormati privasi dan akauntabiliti.

Kesaksamaan: Sistem ASR yang adil boleh mengecam pertuturan tanpa mengira latar belakang penceramah, status sosioekonomi atau ciri lain. Perlu diingat bahawa membina sistem sedemikian memerlukan mengenal pasti dan mengurangkan berat sebelah dalam model dan data latihan kami. Nasib baik, kerajaan, NGO dan perniagaan sudah berusaha untuk mewujudkan infrastruktur untuk mengenal pasti dan mengurangkan berat sebelah.

Kebolehtafsiran: Sistem ASR tidak lagi menjadi "kotak hitam": ia akan menerangkan pengumpulan dan analisis data, prestasi model dan proses output atas permintaan. Keperluan ketelusan tambahan ini membolehkan pengawasan manusia yang lebih baik terhadap latihan dan prestasi model. Seperti Gerlings et al., kami melihat kebolehtafsiran daripada perspektif pelbagai pihak berkepentingan (termasuk penyelidik, pembangun, pelanggan, dan dalam kes Rev, transkripsi). Penyelidik mungkin ingin mengetahui sebab untuk mengeluarkan teks yang salah untuk mengurangkan masalah manakala transkripsi mungkin mahukan beberapa bukti mengapa ASR berpendapat ia berbuat demikian untuk membantu mereka menilai keberkesanannya, terutamanya dalam situasi bising di mana ASR mungkin lebih cekap daripada Orang; "mendengar" lebih baik. Weitz et al. mengambil langkah pertama yang penting ke arah kebolehtafsiran untuk pengguna akhir dalam konteks pengecaman kata kunci audio. Laguarta dan Subirana telah menggabungkan tafsiran berpandukan doktor ke dalam sistem biomarker pertuturan untuk pengesanan penyakit Alzheimer.

Hormati Privasi: "Suara" dianggap "data peribadi" di bawah pelbagai undang-undang A.S. dan antarabangsa, dan oleh itu, pengumpulan dan pemprosesan rakaman suara tertakluk pada perlindungan privasi peribadi yang ketat. Di Rev, kami telah menyediakan keselamatan data dan keupayaan kawalan, dan sistem ASR masa hadapan akan terus menghormati privasi data pengguna dan privasi model. Dalam kebanyakan kes, ini berkemungkinan besar melibatkan menolak model ASR ke tepi (pada peranti atau penyemak imbas). Cabaran privasi suara mendorong penyelidikan dalam bidang ini, dan banyak bidang kuasa, seperti Kesatuan Eropah, telah memulakan usaha perundangan. Bidang pembelajaran mesin yang memelihara privasi menjanjikan untuk menarik perhatian kepada aspek kritikal teknologi ini, membolehkan ia diterima secara meluas dan dipercayai oleh orang ramai.

Accountability: Kami akan memantau sistem ASR untuk memastikan ia mematuhi tiga prinsip pertama. Ini seterusnya memerlukan pelaburan sumber dan infrastruktur untuk mereka bentuk dan membangunkan sistem pemantauan yang diperlukan dan untuk mengambil tindakan sebagai tindak balas kepada penemuan. Syarikat yang menggunakan sistem ASR akan bertanggungjawab ke atas penggunaan teknologi mereka dan membuat usaha khusus untuk mematuhi prinsip etika ASR. Perlu dinyatakan bahawa manusia, sebagai pereka bentuk, penyelenggara dan pengguna sistem ASR, akan bertanggungjawab untuk melaksanakan dan menguatkuasakan prinsip-prinsip ini—satu lagi contoh kerjasama manusia-mesin.

Pautan rujukan: https://thegradient.pub/the-future-of-speech-recognition/https://awni.github.io/speech-recognition/​

Atas ialah kandungan terperinci Dalam sepuluh tahun akan datang, pengecaman pertuturan AI akan berkembang dalam lima arah ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora? Kertas Stable Diffusion 3 akhirnya telah dikeluarkan, dan butiran seni bina didedahkan Adakah ia akan membantu untuk menghasilkan semula Sora? Mar 06, 2024 pm 05:34 PM

Kertas StableDiffusion3 akhirnya di sini! Model ini dikeluarkan dua minggu lalu dan menggunakan seni bina DiT (DiffusionTransformer) yang sama seperti Sora. Ia menimbulkan kekecohan apabila ia dikeluarkan. Berbanding dengan versi sebelumnya, kualiti imej yang dijana oleh StableDiffusion3 telah dipertingkatkan dengan ketara Ia kini menyokong gesaan berbilang tema, dan kesan penulisan teks juga telah dipertingkatkan, dan aksara bercelaru tidak lagi muncul. StabilityAI menegaskan bahawa StableDiffusion3 ialah satu siri model dengan saiz parameter antara 800M hingga 8B. Julat parameter ini bermakna model boleh dijalankan terus pada banyak peranti mudah alih, dengan ketara mengurangkan penggunaan AI

Adakah anda benar-benar menguasai penukaran sistem koordinat? Isu berbilang sensor yang tidak dapat dipisahkan daripada pemanduan autonomi Adakah anda benar-benar menguasai penukaran sistem koordinat? Isu berbilang sensor yang tidak dapat dipisahkan daripada pemanduan autonomi Oct 12, 2023 am 11:21 AM

Artikel perintis dan utama pertama terutamanya memperkenalkan beberapa sistem koordinat yang biasa digunakan dalam teknologi pemanduan autonomi, dan cara melengkapkan korelasi dan penukaran antara mereka, dan akhirnya membina model persekitaran bersatu. Fokus di sini adalah untuk memahami penukaran daripada kenderaan kepada badan tegar kamera (parameter luaran), penukaran kamera kepada imej (parameter dalaman) dan penukaran unit imej kepada piksel. Penukaran daripada 3D kepada 2D akan mempunyai herotan, terjemahan, dsb. Perkara utama: Sistem koordinat kenderaan dan sistem koordinat badan kamera perlu ditulis semula: sistem koordinat satah dan sistem koordinat piksel Kesukaran: herotan imej mesti dipertimbangkan Kedua-dua penyahherotan dan penambahan herotan diberi pampasan pada satah imej. 2. Pengenalan Terdapat empat sistem penglihatan secara keseluruhannya: sistem koordinat satah piksel (u, v), sistem koordinat imej (x, y), sistem koordinat kamera () dan sistem koordinat dunia (). Terdapat hubungan antara setiap sistem koordinat,

Artikel ini sudah cukup untuk anda membaca tentang pemanduan autonomi dan ramalan trajektori! Artikel ini sudah cukup untuk anda membaca tentang pemanduan autonomi dan ramalan trajektori! Feb 28, 2024 pm 07:20 PM

Ramalan trajektori memainkan peranan penting dalam pemanduan autonomi Ramalan trajektori pemanduan autonomi merujuk kepada meramalkan trajektori pemanduan masa hadapan kenderaan dengan menganalisis pelbagai data semasa proses pemanduan kenderaan. Sebagai modul teras pemanduan autonomi, kualiti ramalan trajektori adalah penting untuk kawalan perancangan hiliran. Tugas ramalan trajektori mempunyai timbunan teknologi yang kaya dan memerlukan kebiasaan dengan persepsi dinamik/statik pemanduan autonomi, peta ketepatan tinggi, garisan lorong, kemahiran seni bina rangkaian saraf (CNN&GNN&Transformer), dll. Sangat sukar untuk bermula! Ramai peminat berharap untuk memulakan ramalan trajektori secepat mungkin dan mengelakkan perangkap Hari ini saya akan mengambil kira beberapa masalah biasa dan kaedah pembelajaran pengenalan untuk ramalan trajektori! Pengetahuan berkaitan pengenalan 1. Adakah kertas pratonton teratur? A: Tengok survey dulu, hlm

DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! DualBEV: mengatasi BEVFormer dan BEVDet4D dengan ketara, buka buku! Mar 21, 2024 pm 05:21 PM

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.

Apakah lima bidang media kendiri yang paling menguntungkan? Apakah hala tuju sokongan Douyin pada 2024? Apakah lima bidang media kendiri yang paling menguntungkan? Apakah hala tuju sokongan Douyin pada 2024? Mar 22, 2024 am 10:11 AM

Dengan perkembangan pesat Internet, industri media kendiri telah menjadi tumpuan perhatian lebih ramai orang. Dalam industri ini, beberapa kawasan telah menarik banyak perhatian kerana prospek pasaran yang luas dan keuntungannya. Artikel ini akan mendedahkan kepada anda lima bidang media kendiri yang paling menguntungkan, dan membincangkan hala tuju sokongan Douyin pada 2024 untuk membantu anda memahami dengan lebih baik peluang pembangunan media kendiri. 1. Apakah lima bidang media kendiri yang paling menguntungkan? Dengan peningkatan pendidikan dalam talian, bidang pendidikan dan latihan telah menjadi semakin popular. Orang ramai bersedia untuk melabur dalam memperoleh pengetahuan dan kemahiran, bukan sahaja dalam kursus akademik tetapi juga dalam latihan kemahiran dan kemajuan di tempat kerja. Pencipta media kendiri boleh mencapai keuntungan dengan mencipta kandungan pendidikan berkualiti tinggi untuk menarik pelajar membayar untuk pembelajaran. Trend ini menunjukkan bahawa orang ramai berminat dengan pembelajaran sepanjang hayat

Model dunia penjanaan video adegan pemanduan berbilang paparan autonomi | Model dunia penjanaan video adegan pemanduan berbilang paparan autonomi | Oct 23, 2023 am 11:13 AM

Beberapa pemikiran peribadi pengarang Dalam bidang pemanduan autonomi, dengan pembangunan sub-tugas/penyelesaian hujung-ke-hujung berasaskan BEV, data latihan berbilang paparan berkualiti tinggi dan pembinaan adegan simulasi yang sepadan telah menjadi semakin penting. Sebagai tindak balas kepada titik kesakitan tugas semasa, "kualiti tinggi" boleh dipecahkan kepada tiga aspek: senario ekor panjang dalam dimensi berbeza: seperti kenderaan jarak dekat dalam data halangan dan sudut arah tepat semasa pemotongan kereta, dan data garis lorong. . Ini selalunya bergantung pada sejumlah besar pengumpulan data dan strategi perlombongan data yang kompleks, yang memerlukan kos yang tinggi. Nilai sebenar 3D - imej sangat konsisten: Pemerolehan data BEV semasa sering dipengaruhi oleh ralat dalam pemasangan/penentukuran sensor, peta berketepatan tinggi dan algoritma pembinaan semula itu sendiri. ini membawa saya kepada

GSLAM |. Seni bina dan penanda aras umum SLAM GSLAM |. Seni bina dan penanda aras umum SLAM Oct 20, 2023 am 11:37 AM

Tiba-tiba menemui kertas 19 tahun GSLAM: Rangka Kerja SLAM Umum dan kod sumber terbuka Penanda Aras: https://github.com/zdzhaoyong/GSLAM Pergi terus ke teks penuh dan rasai kualiti karya ini~1 Teknologi SLAM Abstrak telah mencapai banyak kejayaan baru-baru ini dan menarik ramai yang menarik perhatian syarikat berteknologi tinggi. Walau bagaimanapun, cara untuk antara muka dengan algoritma sedia ada atau yang baru muncul untuk melaksanakan penandaarasan dengan cekap pada kelajuan, kekukuhan dan mudah alih masih menjadi persoalan. Dalam kertas kerja ini, satu platform SLAM baharu yang dipanggil GSLAM dicadangkan, yang bukan sahaja menyediakan keupayaan penilaian tetapi juga menyediakan penyelidik dengan cara yang berguna untuk membangunkan sistem SLAM mereka sendiri dengan pantas.

'Minecraft' bertukar menjadi bandar AI, dan penduduk NPC memainkan peranan seperti orang sebenar 'Minecraft' bertukar menjadi bandar AI, dan penduduk NPC memainkan peranan seperti orang sebenar Jan 02, 2024 pm 06:25 PM

Sila ambil perhatian bahawa lelaki persegi ini berkerut dahi, memikirkan identiti "tetamu tidak diundang" di hadapannya. Ternyata dia berada dalam situasi berbahaya, dan apabila dia menyedari perkara ini, dia segera memulakan pencarian mental untuk mencari strategi untuk menyelesaikan masalah itu. Akhirnya, dia memutuskan untuk melarikan diri dari tempat kejadian dan kemudian mendapatkan bantuan secepat mungkin dan mengambil tindakan segera. Pada masa yang sama, orang di seberang sana memikirkan perkara yang sama seperti dia... Terdapat adegan sedemikian dalam "Minecraft" di mana semua watak dikawal oleh kecerdasan buatan. Setiap daripada mereka mempunyai latar identiti yang unik Contohnya, gadis yang disebutkan sebelum ini adalah seorang kurier berusia 17 tahun tetapi bijak dan berani. Mereka mempunyai daya ingatan dan pemikiran serta hidup seperti manusia di bandar kecil yang terletak di Minecraft ini. Apa yang mendorong mereka adalah sesuatu yang baru,

See all articles