Adakah ini rupa masa depan komunikasi antara manusia?
Baru-baru ini, projek teks-ke-ucapan yang dipanggil ChatTTS telah menjadi popular, menarik perhatian hebat daripada semua orang. Dalam masa tiga hari sahaja, ia telah memperoleh 9.2k bintang di GitHub.
Alamat projek: https://github.com/2noise/ChatTTS/tree/main
Penulis sendiri juga berkata pada x bahawa ChatTTS telah menembusi siling sumber terbuka. Walau bagaimanapun, yang kini menjadi sumber terbuka hanyalah model asas, yang belum diselia dan diperhalusi oleh SFT.
Projek ini menukar teks kepada pertuturan Kesannya adalah seperti ini: ChatTTS bukan sahaja boleh berbahasa Cina, tetapi juga bahasa Inggeris Ia juga menyokong beberapa kawalan halus, yang membolehkan anda menambah ketawa dan ketawa semasa bercakap jeda, serta zarah modal, sangat boleh dimainkan. Ia boleh mengeluarkan semula suara orang yang telah meninggal dunia Jika anda ingin mendengar persidangan pembangunan Steve Jobs sekali lagi, anda boleh melakukannya pada bila-bila masa. Mendengarnya meniru timbre Swift, kedua-dua intonasi dan perubahan dalam nada sangat dekat dengannya, dan hampir tiada rasa AI langsung. Anda juga boleh berbahasa Cina dan Inggeris dengan baik Dengan loghat separuh bahasa Inggeris dan separuh bahasa Cina ini, anda cukup berani untuk memasuki kalangan kebolehan bahasa ChatTTS telah mencapai tahap seterusnya.站 Audio di atas adalah dari stesen B: https://www.bilibili.com/video/bv1zn4y1o7iv/?share_source=copy_web&vd_source=983EC32A3036B1CF2699E4FDBCE3C28 Semasa paparan, kita dapat melihat bahawa Chattts boleh mencapai kelancaran sintesis semula jadi Pertuturan yang sama masa; ia juga boleh meramalkan dan mengawal ciri-ciri prosodik yang halus, termasuk ketawa, jeda dan perkataan yang disisipkan mengatasi kebanyakan model TTS sumber terbuka dari segi prosodi. Pada masa ini ChatTTS menyokong bahasa Cina dan Inggeris. Model terbesar telah dilatih menggunakan lebih daripada 100,000 jam data Cina dan Inggeris. Versi sumber terbuka dalam HuggingFace ialah versi yang telah dilatih selama 40,000 jam tetapi belum lagi SFT.
Perlu dinyatakan bahawa audio yang dipaparkan di atas semuanya dihasilkan berdasarkan teknologi sintesis pertuturan dan bertujuan untuk mempamerkan pencapaian teknologi dan tidak bertujuan untuk menyinggung perasaan atau melanggar hak orang lain. Sejurus projek itu dikeluarkan, netizen dari segenap lapisan masyarakat mencubanya dan mendapati bunyi itu memang sukar untuk dibezakan antara asli dan palsu. Sesetengah orang menggunakan GPT untuk menjana teks dan membiarkan ChatTTS "membaca"nya. Perbezaan antara nada dan intonasi orang sebenar adalah sangat kecil: . , secara semulajadi saya ingin mencubanya. Bagaimana untuk menggunakan ChatTTS sebagai pengganti mulut anda. Anda boleh merujuk kepada kaedah berikut untuk beroperasi.Alamat pengalaman dalam talian: https://huggingface.co/spaces/Dzkaka/ChatTTS
ChatTTS terutamanya mempunyai dua fungsi teras, yang pertama ialah teks ke pertuturan, dan yang kedua ialah dialog suara masa nyata dengan model bahasa yang besar. Sebagai tambahan kepada fungsi ini, anda boleh melaraskan timbre pembesar suara yang ditentukan secara digital dalam "Audio Seed", atau membaling dadu untuk menjana satu secara rawak. Walau bagaimanapun, ramai penguji mengatakan bahawa jika parameter yang sama digunakan setiap kali, nada yang dihasilkan tidak semestinya tetap.
2Noise mengatakan bahawa pada masa ini ia menyokong pengklonan bunyi, tetapi memerlukan jumlah data yang lebih besar.
Selepas memasukkan teks dalam kotak teks, ChatTTS akan menjana rima dan jeda secara automatik untuk anda, dan juga menambah beberapa zarah modal seperti "kemudian". Jika anda menambahkan [ketawa] dan [uv_break] pada teks semasa menaip, anda boleh mengawal ChatTTS secara manual untuk menghasilkan sedikit "ketawa" semasa bercakap.
Walau bagaimanapun, ChatTTS masih belum dapat mengendalikan teks yang agak panjang Beberapa netizen memintanya untuk mencabar buku audio dan mendapati versi awal tidak boleh menjana audio lebih lama daripada 30 saat dan perlu dibaiki secara manual. Apabila menemui teks yang agak panjang, pembahagian perkataan ChatTTS juga akan menghadapi masalah.
Atas ialah kandungan terperinci Hot ChatTTS menembusi siling suara sumber terbuka dan memperoleh 9k bintang dalam masa 3 hari. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!