Hanya 1/4 jumlah data digunakan untuk memulihkan 100% butiran suara kehidupan sebenar, menggunakan teknologi sintesis pertuturan dialog ghaib terkini pada Volcano Voice!-AI-php.cn

Menghitung bintang dan mengharapkan bulan, beribu-ribu peminat Jay telah menunggu selama 6 tahun Tidak lama dahulu, Jay Chou akhirnya mengeluarkan album baharu! Sebaik sahaja ia masuk dalam talian, ia mencetuskan perbincangan di seluruh Internet.

Sementara semua orang tenggelam dalam kenangan indah tahun-tahun subur itu, rakan yang menyiarkan audio viral itu berkata: Perbualan ini sebenarnya disintesis melalui ucapan!

Apabila bercakap tentang "sintesis pertuturan", anda mungkin memikirkan sesuatu seperti ini:

• >Navigasi mempunyai pelbagai jenis tetapi nada mekanikal "belok kiri di persimpangan di hadapan"

•

Apabila menjawab telefon, orang di sebelah sana menjawab dengan janggal dan tanpa emosi "Helo, ini xx "Pusat Kad Kredit" "Little Handsome"...

Kini ia secara langsung telah menumbangkan stereotaip ramai orang. Teknologi sintesis pertuturan telah dapat mencapai perkara yang sama kesan yang sempurna dan semula jadi seperti audio di atas. Penerbit audio ini -

Volcano Voice, ByteDance

AI Lab Speech & Audio Intelligent Speech and Audio Team , dan melalui dua keping audio, kami boleh menguraikan sorotan teknikal dengan lebih baik kepada orang ramai. Teks yang dimasukkan dalam ayat ini betul-betul sama, iaitu, "Masakan Selatan lebih suka sos pencicah. Sebagai contoh, ini adalah kali pertama saya di Shanghai bahawa saya mengetahui bahawa sayur-sayuran dalam barbeku juga perlu dihidangkan dengan sos pencicah." Tetapi kesan audio yang disintesis jelas berbeza, iaitu audio kedua diperoleh daripada teknologi sintesis pertuturan dialog ghaib baharu yang dilancarkan oleh Volcano Voice Team kali ini. Imbas kembali keadaan ekspresi harian manusia Otak memerlukan masa berfikir untuk memproses maklumat. Apabila bercakap tentang bahasa, orang secara tidak sengaja akan teragak-agak, sebutan, penyongsangan, malah menukar perkataan mereka di tengah-tengah ayat, gagap dan mengulangi. Ini menghasilkan sejumlah besar ungkapan halus yang sukar untuk diperhatikan. Fenomena ini sukar ditangkap dan dipulihkan dalam TTS tradisional. Pengeluaran semula yang sempurna bagi kehalusan ini adalah sumber misteri yang menyukarkan untuk membezakan keaslian bunyi, dan juga merupakan misteri audio yang disebutkan di atas.

Khususnya,

Teknologi sintesis pertuturan dialog ghaib terbaharu yang dikeluarkan oleh Pasukan Suara Volcano

lebih realistik dan semula jadi daripada TTS tradisional, iaitu , zarah modal , bunyi penyedutan, jeda apabila teragak-agak, dan sebutan perkataan semuanya dihasilkan semula dengan sempurna Dan hanya 1/4 daripada data perpustakaan bunyi konvensional boleh dipulihkan dengan sempurna kepada ciri-ciri irama halus dan tabiat sebutan sebenar. orang, membolehkan anda Menggubah kesan adalah lebih realistik.

Hasil penilaian profesional menunjukkan bahawa pada asasnya tiada perbezaan antara teknologi baharu Huoshan Voice ini dan rakaman orang sebenar, dan sukar bagi pengulas untuk membezakannya.

Selain itu, teknologi ini telah digunakan dalam banyak senario seperti alih suara video dan perkhidmatan pelanggan telefon Ia akan dilancarkan di laman web rasmi Volcano Engine Voice Technology dalam masa terdekat. Bagaimanakah teknologi yang begitu berkuasa dicapai?

Menurut laporan, tercungap-cungap yang disebutkan di atas, menelan, pemanjangan sebutan perkataan secara tidak sengaja apabila berfikir, ketawa rendah dan manifestasi lain yang sering berlaku dalam komunikasi sebenar telah telah Ia dipanggil fenomena paralanguage (paralanguage) Walaupun ini adalah manifestasi paling realistik dari proses pemikiran dan ekspresi otak manusia, kerana rangka kerja teknologi sintesis pertuturan tradisional tidak dapat memodelkan fenomena paralanguage yang diedarkan jarang, jadi dalam Pemulihan of irama ketika bercakap adalah terhad dan terlalu "betul".

Berdasarkan kesukaran di atas, teknologi sintesis pertuturan ghaib Volcano Voice membuat penemuan dari dua peringkat:

teks dan pemodelan pertuturan Khususnya, :

• Transliterasi bahasa sehari-hari terkawal membolehkan teks menerima bahasa sehari-hari dengan lebih baik dan mengelakkan kesan akhir terlalu ditulis. •

Pada peringkat pertuturan, pasukan membuat penemuan dalam model analisis teks dan menambah

ramalan parabahasa tambahan pada bahagian input TTS , meniru ciri sebutan orang sebenar untuk mencapai kesan pertuturan semula jadi dan spontan.

Perlu dinyatakan bahawa pasukan telah meningkatkan kestabilan dan ekspresi model dengan berkesan dengan menggunakan penyelesaian pemodelan TTS dengan ciri tanpa pengawasan, menggunakan hanya 1/4 daripada saiz data perpustakaan bunyi konvensional Anda boleh mencapai kesan irama yang sangat semula jadi dan boleh diubah, bukankah ia hebat?

Hanya 1/4 jumlah data digunakan untuk memulihkan 100% butiran suara kehidupan sebenar, menggunakan teknologi sintesis pertuturan dialog ghaib terkini pada Volcano Voice!

Didedikasikan kepada teks bahasa sehari-hari untuk menjadikan "ungkapan orang sebenar" jelas pada halaman

Teks adalah input teknologi sintesis pertuturan. -teks sintesis tidak cukup semulajadi, atau memerlukan banyak usaha dan pelarasan berterusan, yang memakan masa dan intensif buruh. Untuk menyelesaikan masalah sedemikian, pasukan Huoshan Voice menggunakan penyelesaian dua peringkat dan mencapai keputusan yang baik:

• Fasa 1: Penggunaan Kaedah penyeliaan sendiri menggunakan data pseudo untuk melatih model bahasa pertuturan, yang mengurangkan jumlah data yang diperlukan pada masa yang sama, struktur rangkaian penunjuk diperkenalkan ke dalam model untuk meningkatkan kebolehkawalan teks.

• Fasa 2: Gunakan sejumlah kecil data anotasi manual berkualiti tinggi untuk memperhalusi model bahasa pertuturan pra-latihan, dan akhirnya mencapai kawalan dan kesan teks bahasa pertuturan semula jadi.

Teks asal

Teks ramalan automatik

Masakan Selatan lebih suka sos pencicah, seperti saya. kali pertama saya di Shanghai bahawa saya mengetahui bahawa sayur-sayuran dalam barbeku juga perlu dihidangkan dengan sos pencicah

Hmm, Masakan Selatan, saya sangatlebih suka menggunakan sos pencicah atau sesuatu, Sebagai contoh, kali pertama saya eh, kali pertama saya pergi ke Shanghai, dan saya menyedari bahawa sayur-sayuran dalam barbeku juga perlu disertakan dengan sos pencicah.

Seperti ketika kita pergi jalan ke beli kobis, orang selatan kata nak separuh kobis, orang utara kata saya bawak kobis setengah troli

Nah ini Ia hampir seperti apabila kita keluar untuk membeli kobis, orang selatan berkata saya mahu separuh kobis, dan kemudian orang utara berkata saya mahu separuh kubis

Malah, masakan selatan lebih menitikberatkan rasa perencah iaitu chef menggunakan perencah untuk menunjukkan kemahirannya

Ya, sebenarnya masakan selatan lebih mementingkan rasa perencah Dalam erti kata lain, cef menggunakan perasa untuk dipamerkan kemahirannya

Pemodelan parabahasa + kepelbagaian prosodik adalah luar biasa Realisme suara telah ditingkatkan sepenuhnya

Untuk memulihkan orang sebenar, berbeza daripada ucapan Tradisional. teknologi sintesis, Huoshan Speech juga telah menjalankan penyelidikan mendalam mengenai pemodelan parabahasa dan kepelbagaian prosodik masing-masing. Dari segi pemodelan paralanguage, teknologi sintesis yang diperkenalkan oleh pasukan membolehkan model akustik memodelkan pelbagai fenomena paralinguistik seperti penyedutan, ketawa, teragak-agak dan pembetulan yang muncul dalam ekspresi semula jadi, dan menggabungkannya dengan teks Maklumat semantik secara automatik dimasukkan ke dalam fenomena paralinguistik . Pertimbangkan kedua-dua rasional dan rawak semasa proses penyisipan, menjadikan prestasi lebih semula jadi dan nyata.

Audio Seperti pagi kami pada dasarnya

Teks

Ghaib

Saya rasa begitu

Tarik nafas >Ia sebenarnya sangat bagus untuk badan.

AudioC.wav

Tengok kerja kami sekarang, pagi dipanjangkan

> Pada asasnya saya tidak banyak bersarapan.

D.wav

terjebak >Ia susu soya dan roti doh goreng.

AudioE.wav

Dia mestilah Pembetulan slip>, teringin sangat nak makan daging.

ParalangTest_is_000008_npy_01_new2.wav

“

Dalam penerokaan kepelbagaian prosodi, kami menggabungkan teknologi pembelajaran perwakilan tanpa pengawasan dan secara bebas membangunkan rangka kerja model akustik yang sangat ekspresif Melalui penyahgandingan sebutan, irama dan timbre, kami bukan sahaja Ia mengurangkan permintaan untuk volum data dan mencapai pemodelan yang cekap bagi fenomena sebutan frekuensi yang sangat rendah Pada masa yang sama, ia menggunakan ciri perwakilan tanpa pengawasan dan menggabungkan frekuensi asas dan maklumat tenaga tahap fonem untuk mencapai perubahan semula jadi dalam prosodi dan mempromosikan dialog berkualiti tinggi generasi." akhir pasukan Volcano Voice.

Hanya 1/4 jumlah data digunakan untuk memulihkan 100% butiran suara kehidupan sebenar, menggunakan teknologi sintesis pertuturan dialog ghaib terkini pada Volcano Voice! Huoshan Voice, ByteDance AI Lab Speech&Audio pasukan suara dan audio pintar, telah lama berkhidmat untuk Douyin, Jianying, Novel Tomato, Feishu Perniagaan lain menyediakan peneraju Keupayaan teknologi suara AI dan penyelesaian produk suara tindanan penuh, dan membuka perkhidmatan teknikal kepada perusahaan luar melalui Enjin Volcano.

Atas ialah kandungan terperinci Hanya 1/4 jumlah data digunakan untuk memulihkan 100% butiran suara kehidupan sebenar, menggunakan teknologi sintesis pertuturan dialog ghaib terkini pada Volcano Voice!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!