Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat?-AI-php.cn

Jadual Kandungan

Rumah

Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat?

王林

Jul 04, 2023 pm 05:57 PM

ai suara

Dunia suara yang disertai AI sangat ajaib. Ia bukan sahaja boleh menukar suara seseorang kepada mana-mana orang lain, tetapi juga bertukar suara dengan haiwan.

Kami tahu bahawa matlamat penukaran suara adalah untuk menukar suara sumber kepada suara sasaran sambil mengekalkan kandungan tidak berubah. Kaedah penukaran pertuturan mana-mana ke mana-mana baru-baru ini meningkatkan keaslian dan persamaan pembesar suara, tetapi dengan mengorbankan kerumitan yang sangat meningkat. Ini bermakna latihan dan inferens menjadi lebih mahal, menjadikan penambahbaikan sukar untuk dinilai dan diwujudkan.

Persoalannya, adakah penukaran pertuturan berkualiti tinggi memerlukan kerumitan? Dalam makalah baru-baru ini dari Universiti Stellenbosch di Afrika Selatan, beberapa penyelidik meneroka isu ini.

Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat?

Alamat kertas: https://arxiv.org/pdf/2305.18975.pdf
Alamat GitHub: https://bshall.github.io/

c Sorotan penyelidikan ialah:

Mereka memperkenalkan K-Nearest Neighbor Speech Conversion (kNN-VC), kaedah penukaran sebarang-ke-mana-mana pertuturan yang mudah dan berkuasa . Daripada melatih model transformasi eksplisit, regresi jiran terdekat K hanya digunakan.

Secara khusus, penyelidik mula-mula menggunakan model perwakilan pertuturan yang diselia sendiri untuk mengekstrak urutan ciri ujaran sumber dan sebutan rujukan, dan kemudian menukar setiap bingkai perwakilan sumber kepada pembesar suara sasaran dengan menggantikannya dengan jiran terdekat dalam rujukan , dan akhirnya gunakan vocoder saraf untuk mensintesis ciri yang ditukar untuk mendapatkan pertuturan yang ditukar.

Berdasarkan keputusannya, di sebalik kesederhanaannya, KNN-VC mencapai kebolehfahaman yang setanding malah dipertingkatkan dan persamaan pembesar suara dalam kedua-dua penilaian subjektif dan objektif berbanding beberapa sistem penukaran pertuturan garis dasar.

Mari kita hayati kesan penukaran suara KNN-VC. Melihat dahulu pada penukaran suara manusia, KNN-VC digunakan pada pembesar suara sumber dan sasaran yang tidak kelihatan dalam set data LibriSpeech. Suara Disintesis

KNN-VC juga menyokong penukaran suara merentas bahasa , Contohnya, Sepanyol ke Jerman, Jerman ke Jepun, Cina ke Sepanyol.

Source Chinese 00: 08

target Bahasa Sepanyol 00: 05 Ucapan Keistimewaan 300: 08 even lebih luar biasa, KNN-VC masih dapat menukar suara manusia dan bunyi salakan anjing.

Sumber anjing menyalak00:09

Sumber suara manusia

00:05

Suara sintetik 0:09

Suara sintetik 5

00:05

Mari kita lihat bagaimana KNN-VC berjalan dan membandingkan dengan kaedah jixian yang lain. Gambaran Keseluruhan Kaedah dan Keputusan Eksperimen

Rajah seni bina kNN-VC ditunjukkan di bawah, mengikut struktur pengekod-penukar-vokoder. Mula-mula pengekod mengekstrak perwakilan yang diselia sendiri bagi sumber dan ucapan rujukan, kemudian penukar memetakan setiap bingkai sumber kepada jiran terdekat mereka dalam rujukan, dan akhirnya vokoder menjana bentuk gelombang audio berdasarkan ciri yang ditukar.

Pengekod menggunakan WavLM, penukar menggunakan regresi jiran terdekat K, dan vocoder menggunakan HiFiGAN. Satu-satunya komponen yang memerlukan latihan ialah vocoder. Untuk pengekod WavLM, penyelidik hanya menggunakan model WavLM-Large yang telah dilatih dan tidak melakukan sebarang latihan mengenainya dalam artikel. Bagi model transformasi kNN, kNN adalah bukan parametrik dan tidak memerlukan sebarang latihan. Untuk vokoder HiFiGAN, repo pengarang HiFiGAN asal telah digunakan untuk mengekod ciri WavLM, menjadi satu-satunya bahagian yang memerlukan latihan.

Gambar

Dalam percubaan, penyelidik terlebih dahulu membandingkan KNN-VC dengan kaedah asas lain, menggunakan data sasaran terbesar yang tersedia (kira-kira 8 minit audio bagi setiap pembesar suara) untuk menguji sistem penukaran pertuturan .

Untuk KNN-VC, penyelidik menggunakan semua data sasaran sebagai set padanan. Untuk kaedah garis dasar, mereka purata pembenaman pembesar suara untuk setiap ujaran sasaran.

Jadual 1 di bawah melaporkan keputusan untuk kebolehfahaman, keaslian dan persamaan pembesar suara untuk setiap model. Seperti yang dapat dilihat, kNN-VC mencapai keaslian dan kejelasan yang serupa dengan FreeVC garis dasar terbaik, tetapi dengan persamaan pembesar suara yang dipertingkatkan dengan ketara. Ini juga mengesahkan penegasan artikel ini: penukaran pertuturan berkualiti tinggi tidak memerlukan kerumitan yang meningkat.

Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat?

Di samping itu, penyelidik ingin memahami sejauh mana peningkatan disebabkan oleh HiFi-GAN yang dilatih pada data pra-padanan, dan sejauh mana saiz data pembesar suara sasaran mempengaruhi kebolehfahaman dan persamaan pembesar suara.

Rajah 2 di bawah menunjukkan hubungan antara WER (lebih kecil lebih baik) dan EER (lebih tinggi adalah lebih baik) untuk dua varian HiFi-GAN pada saiz pembesar suara sasaran yang berbeza.

Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat? Gambar

Komen hangat netizen

Untuk kaedah penukaran pertuturan baharu ini kNN-VC yang "hanya menggunakan jiran terdekat", sesetengah orang berpendapat bahawa model pertuturan yang telah dilatih digunakan dalam model pertuturan yang telah dilatih. , jadi "sahaja" digunakan Tidak cukup tepat. Tetapi tidak dapat dinafikan bahawa kNN-VC masih lebih ringkas berbanding model lain.

Hasilnya juga membuktikan bahawa kNN-VC adalah sama berkesan, jika bukan yang terbaik, berbanding kaedah penukaran pertuturan mana-mana kepada mana-mana yang sangat kompleks. .

Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat? Gambar

Atas ialah kandungan terperinci Betapa menakjubkan model penukaran pertuturan mudah yang menyokong pertukaran bahasa silang, suara manusia dan salakan anjing dan hanya menggunakan jiran terdekat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7488

Tutorial CakePHP

1377

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Cara menambah lajur baru dalam SQL Apr 09, 2025 pm 02:09 PM

Tambah lajur baru ke jadual yang sedia ada dalam SQL dengan menggunakan pernyataan Alter Table. Langkah -langkah khusus termasuk: Menentukan nama jadual dan maklumat lajur, menulis pernyataan Alter Jadual, dan melaksanakan pernyataan. Sebagai contoh, tambahkan lajur e -mel ke Jadual Pelanggan (Varchar (50)): Alter Jadual Pelanggan Tambah Varchar E -mel (50);

Apakah sintaks untuk menambah lajur dalam SQL Apr 09, 2025 pm 02:51 PM

Sintaks untuk menambah lajur dalam sql adalah alter table table_name tambah column_name data_type [not null] [default default_value]; Di mana table_name adalah nama jadual, column_name adalah nama lajur baru, data_type adalah jenis data, tidak null menentukan sama ada nilai null dibenarkan, dan lalai default_value menentukan nilai lalai.

Jadual Jelas SQL: Petua Pengoptimuman Prestasi Apr 09, 2025 pm 02:54 PM

Petua untuk Meningkatkan Prestasi Pembersihan Jadual SQL: Gunakan jadual Truncate dan bukannya memadam, membebaskan ruang dan menetapkan semula lajur Identiti. Lumpuhkan kekangan utama asing untuk mengelakkan penghapusan cascading. Gunakan operasi enkapsulasi transaksi untuk memastikan konsistensi data. Batch memadam data besar dan hadkan bilangan baris melalui had. Membina semula indeks selepas membersihkan untuk meningkatkan kecekapan pertanyaan.

Cara menetapkan nilai lalai semasa menambahkan lajur dalam sql Apr 09, 2025 pm 02:45 PM

Tetapkan nilai lalai untuk lajur yang baru ditambahkan, gunakan pernyataan ALTER Jadual: Tentukan Menambah Lajur dan Tetapkan Nilai Lalai: Alter Table Table_Name Tambah Column_Name Data_Type Default Default_Value; Gunakan klausa kekangan untuk menentukan nilai lalai: alter table Table_name Tambah lajur Column_name data_type kekangan default_constraint default_value;

Gunakan penyataan padam untuk membersihkan jadual SQL Apr 09, 2025 pm 03:00 PM

Ya, pernyataan padam boleh digunakan untuk membersihkan jadual SQL, langkah -langkahnya adalah seperti berikut: Gunakan pernyataan padam: padam dari meja_name; Ganti Table_name dengan nama jadual untuk dibersihkan.

phpmyadmin mencipta jadual data Apr 10, 2025 pm 11:00 PM

Untuk membuat jadual data menggunakan phpmyadmin, langkah -langkah berikut adalah penting: Sambungkan ke pangkalan data dan klik tab baru. Namakan jadual dan pilih enjin penyimpanan (disyorkan innoDB). Tambah butiran lajur dengan mengklik butang Tambah Lajur, termasuk nama lajur, jenis data, sama ada untuk membenarkan nilai null, dan sifat lain. Pilih satu atau lebih lajur sebagai kunci utama. Klik butang Simpan untuk membuat jadual dan lajur.

Bagaimana untuk menangani pemecahan memori Redis? Apr 10, 2025 pm 02:24 PM

Pemecahan ingatan redis merujuk kepada kewujudan kawasan bebas kecil dalam ingatan yang diperuntukkan yang tidak dapat ditugaskan semula. Strategi mengatasi termasuk: Mulakan semula Redis: Kosongkan memori sepenuhnya, tetapi perkhidmatan mengganggu. Mengoptimumkan struktur data: Gunakan struktur yang lebih sesuai untuk Redis untuk mengurangkan bilangan peruntukan dan siaran memori. Laraskan parameter konfigurasi: Gunakan dasar untuk menghapuskan pasangan nilai kunci yang paling kurang baru-baru ini. Gunakan mekanisme kegigihan: sandarkan data secara teratur dan mulakan semula redis untuk membersihkan serpihan. Pantau penggunaan memori: Cari masalah tepat pada masanya dan ambil langkah.

Cara Membuat Pangkalan Data Oracle Cara Membuat Pangkalan Data Oracle Apr 11, 2025 pm 02:33 PM

Mewujudkan pangkalan data Oracle tidak mudah, anda perlu memahami mekanisme asas. 1. Anda perlu memahami konsep pangkalan data dan Oracle DBMS; 2. Menguasai konsep teras seperti SID, CDB (pangkalan data kontena), PDB (pangkalan data pluggable); 3. Gunakan SQL*Plus untuk membuat CDB, dan kemudian buat PDB, anda perlu menentukan parameter seperti saiz, bilangan fail data, dan laluan; 4. Aplikasi lanjutan perlu menyesuaikan set aksara, memori dan parameter lain, dan melakukan penalaan prestasi; 5. Beri perhatian kepada ruang cakera, keizinan dan parameter, dan terus memantau dan mengoptimumkan prestasi pangkalan data. Hanya dengan menguasai ia dengan mahir memerlukan amalan yang berterusan, anda boleh benar -benar memahami penciptaan dan pengurusan pangkalan data Oracle.

See all articles