Seed-TTS ialah model penjanaan pertuturan besar yang dikeluarkan baru-baru ini oleh pasukan model ByteDance Doubao.
, pertuturan yang dihasilkannya hampir **tiada beza** dengan orang sebenar, malah sebutan **kecacatan** boleh dijana terutama dari segi pembelajaran meniru percakapan manusia, **kesetiaan** dan ** kefasihan **semuanya mempunyai prestasi **cemerlang**.
Sebagai contoh, sediakan secebis ucapan kepada Seed-TTS, Ia boleh menjana ucapan baharu berdasarkan teks, dan membawa ciri bunyi bahan asal.
Bahan asal (Prompt): Suara Cina yang dihasilkan Benih-TTS:
Tiba-tiba kedengaran gelak tawa di sekeliling saya. Saya memandang mereka, meluruskan dada saya dengan semangat yang tinggi, menggoyangkan lengan saya yang berisi, dan ketawa kecil: "Daging di badan saya adalah untuk menutup pesona saya yang luar biasa, jika tidak, tidakkah saya akan menakutkan anda semua? ?”
Pertuturan bahasa Inggeris juga boleh dihasilkan dan masih boleh "menghasilkan semula" ciri-ciri penutur bahasa Cina. Seed-TTS menghasilkan ucapan Bahasa Inggeris: Tiba-tiba, kedengaran tawa di sebelah saya, saya memandang mereka, berdiri tegak dengan semangat yang tinggi, menggoyang-goyangkan lengan sedikit dan tersenyum ringan, sambil berkata, "Daging di badan saya adalah untuk menyembunyikan pesona saya yang meledak. Jika tidak, adakah ia tidak akan menakutkan anda?" dan keluarkan "perasaan" watak dalam suara:
Hei, adakah anda juga ingin mempunyai cinta yang manis? "A Little Smile Is Lovely" ialah pilihan terbaik anda. Protagonis lelaki dan perempuan adalah gadis cantik di sekolah Saya tidak dapat mengelak daripada berkata "Makcik" hanya memikirkannya"~
Bukan sahaja ia boleh menjana suara "single", Seed-TTS malah boleh mempersembahkan "pencerita" yang sesuai dengan watak dan emosi berdasarkan plot novel dan ciri-ciri watak yang berbeza.
"Adakah pil ini... ubat atau afrodisiak atau sebagainya? Kenapa bau saya sangat mirip dengan apa yang dikatakan oleh dua beradik itu? Nah, tidakkah anda fikir... Adakah awak merancang menentang saya?" Han Li terpegun lama selepas mendengarnya. Dia tiba-tiba rasa seperti muntah darah. Fikiran gadis ini terlalu sukar difahami. Dia boleh mengaitkan Pil Yingxiang dengan afrodisiak. Malangnya, Han Li tidak tahu sama ada mahu mengagumi sikap berhati-hati pihak lain atau menjerit tiga kali kerana dia telah dianiaya tanpa sebab. "Nampaknya apa yang kamu katakan itu benar. Namun, saya masih perlu membawanya kepada kakak kedua saya untuk diuji sebelum menggunakannya. Lagipun, keluarga anak perempuan kita mesti berhati-hati." . " Han Li terdiam dan hanya boleh batuk beberapa kali untuk menutup rasa malu di wajahnya. Dia kini merasakan lebih baik dia menjauhkan diri daripada jembalang kecil ini, jika tidak, dia akan mati tertekan pada satu ketika. "Huh, tetapi jika ubat ini berkesan seperti yang kamu katakan, maka kamu telah lulus ujian! Jika abang senior menghadapi sebarang kesulitan di Mo Mansion mulai sekarang, kamu boleh datang ke Caihuan untuk mendapatkan bantuan. Saya hanya perlu mengumpul beberapa As kecil. ganjaran, saya pasti akan dapat membantu anda menyelesaikan masalah itu sepenuhnya "Baiklah, kakak junior, jika abang senior saya ada sesuatu untuk dilakukan, saya pasti akan meminta bantuan anda Han Li kembali ke keadaan biasa dan membalasnya ini dengan senyuman di wajahnya, tetapi di dalam hatinya Kemudian dia berfikir dengan kejam: "Peliknya saya mencari peminat wang seperti kamu.”Untuk lebih banyak demonstrasi dan prinsip, sila lihat kertas asal dan paparan kesan:
-
Pautan kertas: https://arxiv.org/abs.24/24 fect paparan :https://bytedancespeech.github.io/seedtts_tech_report/
Sebelum keluaran laporan teknikal, sebahagian daripada teknologi Seed-TTS telah berada dalam talian untuk tempoh masa dalam produk C-side, dan telah menerima banyak pujian sebenar daripada pengguna, dan telah dipuji secara meluas oleh dunia luar Model sintesis pertuturan dan model pembiakan bunyi beg kacang disediakan untuk perkhidmatan pengkomersialan teknikal
Ingin mendengar perkongsian pasukan mengenai sorotan teknikal. , nilai penyelidikan dan cabaran diatasi
Model besar asas penjanaan pertuturan Q yang telah anda perhatikan? Ada seorang profesor yang bekerja dalam pengiktirafan pertuturan dan kemudiannya bekerja di sebuah syarikat Seed-TTS Selepas menontonnya, dia memberi maklum balas bahawa dia mahu menontonnya baru-baru ini merasakan bahawa masih ada ruang untuk penambahbaikan, saya sangat gembira selepas mendengarnya. S: Mengapa anda gembira Profesor sedang mencari topik penyelidikan yang berkaitan pada masa ini, dia melihat keputusan kami dan memberi kami komen yang positif, dan saya merasakan bahawa keputusan kami sudah sangat baik, dan kami perlu mencari soalan lain pengiktirafan untuk kita S: Berbanding dengan keputusan sebelumnya, apakah perbezaan antara Seed-TTS Ia adalah model asas untuk penjanaan pertuturan, iaitu sedikit berbeza daripada pertuturan? model generasi Secara khusus, TTS tradisional ialah model tugasan tunggal, tetapi untuk model asas, kami berharap ia boleh melakukan apa sahaja, membuat sebarang bunyi dan membolehkan kami mengawal banyak dimensi pada masa yang sama, seperti dialek , tabiat lisan orang sebenar, dan juga kecacatan fonetik seperti menelan perkataan
Selagi terdapat kaedah pertuturan di dunia, bahasa Inggeris dan Jepun , Cina, dan juga dialek dalam pelbagai bahasa, seperti dialek Shaanxi dan Dialek Henan dalam bahasa cina... Atau gembira, sedih, menangis, marah, selagi manusia ada, kita semua mahu ia keluar
S: Adakah semua idea di atas telah tercapaiA: Sebahagian besar daripadanya sudah tentu, terdapat beberapa tempat yang tidak boleh dilakukan, tetapi teknologi sentiasa bergerak ke hadapan. yang mempunyai pemahaman yang mendalam di peringkat teks Kami juga berharap untuk benar-benar menjadikan ia sebagai "asas" S: Cabaran membuat "model asas" adalah Perkara pertama ialah pemodelan terperinci lebih baik Dulu, TTS mudah dilaksanakan sebagai sistem penyiaran, tetapi ia berbunyi seperti "bunyi mesin, dan bunyi seperti manusia, memerlukan banyak terperinci. Khususnya, manusia sangat sensitif terhadap bunyi mereka sendiri Walaupun meow anak anjing dan anak kucing tidak semula jadi, mereka mungkin tidak didengari. Kedua, ia memerlukan sifat semula jadi yang tinggi dan kestabilan yang tinggi. Kebanyakan TTS arus perdana dalam tempoh dua tahun lalu adalah berdasarkan pengetahuan dan model tempoh masa, yang ditakrifkan untuk setiap telefon, tetapi ekspresif terhad dari bahagian bawah. Jika anda mengalih keluar ini, akan ada isu kestabilan dan keaslian, yang merupakan satu lagi cabaran. Yang ketiga ialah liputan data (Data Coverage) adalah sangat besar. Kami ingin meniru suara sesiapa sahaja dan pelbagai dialek bahasa, termasuk meniru ketidaksempurnaan dalam sebutan manusia, seperti menelan perkataan dan sebutan bukan standard. Untuk membina semula ciri ini dan memulihkan "ketidaksempurnaan", liputan data (Liputan Data) mestilah tinggi. Sebelum ini, data yang digunakan dalam industri adalah mengikut urutan ratusan atau ribuan jam, dan terdapat model pada urutan puluhan ribu jam Data yang digunakan oleh Seed-TTS adalah jauh lebih besar daripada sebelumnya. Jumlah data yang begitu besar juga akan membawa keseimbangan antara kualiti dan kuantiti, yang juga merupakan satu kesukaran.Keempat , reka bentuk model. Dalam situasi berskala besar, cara mereka bentuk model untuk mencapai kesan yang lebih baik dalam semua aspek juga merupakan satu cabaran besar. Akhirnya, ada cabaran kejuruteraan. Seperti yang dinyatakan di atas, skala besar data kami dan kerumitan model yang tinggi secara semula jadi akan membawa masalah kejuruteraan, yang beberapa orang telah selesaikan sebelum ini. S: Dari perspektif teknikal, apakah nilai menyelesaikan cabaran ini? A Mengutamakan teks dan imej, pertuturan mempunyai atribut kedua-dua teks dan imej yang manakah lebih sesuai untuk pemodelan pertuturan adalah soalan yang perlu kami jawab. Pertuturan dan teks mempunyai banyak persamaan Bagaimana mereka bentuk representasi pertuturan agar lebih sesuai untuk pemodelan model bahasa juga merupakan masalah yang perlu diselesaikan.
Cara menggunakan pembelajaran pengukuhan untuk mengintegrasikan pelbagai maklumat keutamaan subjektif dan objektif ke dalam sistem penjanaan juga merupakan salah satu masalah.
Terdapat banyak sorotan lain, termasuk isu kestabilan model penjanaan pertuturan autoregresif. Selain itu, melalui kajian ini, kami juga cuba melihat isu-isu TTS dari sudut luar bidang TTS.
S: Anda menyebut penyelidikan tentang model bahasa dan model resapan Apakah kesimpulan yang boleh kita buat daripadanya? . .
Selain itu, selepas perbandingan yang meluas antara kedua-dua sistem, kami mendapati bahawa model bahasa agak mesra untuk pemprosesan penstriman, dan model penyebaran lebih sesuai untuk pemprosesan penyuntingan, saya percaya bahawa pada masa hadapan, kedua-duanya akan terus bercantum. S: Untuk kedua-dua sistem ini, apakah masalah teknikal yang secara khusus diselesaikan oleh Seed-TTS? J: Untuk sistem model bahasa, ia terutamanya menyelesaikan Tokenizer dan kestabilan pertuturan. Untuk pemodelan model bahasa, tokenisasi pertuturan ialah bahagian teras. Pada masa ini, terdapat Tokenizer yang berterusan dan diskret di pasaran, dan pasukan telah menjalankan banyak penerokaan. Kami mendapati bahawa reka bentuk maklumat yang terkandung dalam token mempunyai kesan yang sangat kritikal terhadap prestasi dan kestabilan keseluruhan model dalam semua aspek Ini termasuk bukan sahaja maklumat token, kadar bingkai, dsb., tetapi juga bagaimana untuk tokenize dan cara mengubahnya kembali menjadi bunyi. Pada masa ini, ini tidak banyak diterokai dalam industri. Dari segi kestabilan model bahasa, kami telah membuat pelbagai penerokaan dalam token, reka bentuk model, strategi penyahkodan dan penyediaan data, dan benar-benar memenuhi keperluan industri dan aplikasi. Untuk sistem Resapan tulen, memandangkan model tempoh tambahan dialih keluar, kesukaran juga tertumpu pada kestabilan. Selepas banyak percubaan, kami juga telah mencapai penunjuk yang sangat baik pada pautan ini.
S: Mengenai "model pertuturan dan teks mempunyai banyak persamaan", apakah ini memberi inspirasi kepada kita? J: Dari perspektif model teks besar, model penjanaan pertuturan juga boleh dibahagikan kepada Pralatihan, Arahan Penalaan Halus dan Latihan Pasca. Antaranya, Pretrain boleh meningkatkan keupayaan asas model, yang secara khusus dicerminkan dalam keupayaan Pembelajaran Inkonteks, seperti penerusan timbre, pengklonan suara dan keupayaan lain. Untuk Instruct Fine-Tuning, tujuan utama adalah menggunakan Instruct untuk menjadikan proses penjanaan pertuturan lebih terkawal, sama seperti pengarah dan pelakon membuat permintaan, bercakap lebih cepat atau lebih perlahan, bagaimana untuk menarik perhatian orang, ini semua disepadukan oleh kami Masuk. Akhirnya, kami juga mendapati bahawa pembelajaran pengukuhan boleh menambah baik model dalam banyak dimensi, menyepadukan pelbagai maklumat keutamaan subjektif dan objektif ke dalam sistem penjanaan, termasuk kestabilan, kawalan, ekspresif, keaslian, dll. Tidak ramai orang dalam industri yang meneroka aspek ini.
Berdasarkan perkara di atas, kami juga meneroka kaedah menggunakan data sintetik untuk Penyulingan Sendiri, dan juga memperoleh faedah yang sangat baik. Ini agak biasa digunakan dalam teks LLM, dan agak jarang diterokai sebelum ini dalam industri pertuturan.S: Anda menyebut tiga kali bahawa "beberapa isu kurang diterokai dalam industri Apa yang menyebabkan fenomena ini?" A:Di satu pihak, penyelidikan terdahulu dalam bidang penjanaan pertuturan adalah agak bebas, dan terdapat banyak pengalaman tradisional dalam industri, yang mungkin tidak lagi digunakan di bawah trend AIGC ini. Dari perspektif yang lebih luas, penjanaan pertuturan mempunyai banyak persamaan dengan penjanaan teks dan imej. Perkembangan pesat model teks besar dan penjanaan imej juga telah membawa kita banyak pemikiran baharu. Memandangkan ia mengambil masa untuk mempromosikan idea baharu, masih terdapat sedikit penerokaan dalam industri. Sebaliknya, ramai penyelidik bekerja di sekolah dan tidak mempunyai sumber yang berkaitan. Terdapat banyak projek sistematik di sini Bukan sahaja kami boleh melakukannya, tetapi kami juga telah meneroka secara terperinci dan menemui beberapa model yang boleh mengambil kira kestabilan, ekspresif dan kerumitan pengiraan. Tetapi adakah ini yang terbaik yang boleh kita lakukan? Mungkin masih perlu terus meneroka. S: Adakah terdapat sebarang detik penting dalam keseluruhan proses penyelidikan? J: Kesan asas dikeluarkan tahun lepas, kami telah banyak mengulang menggunakan kes sebenar sebagai pelbagai kestabilan, kelewatan paket pertama, bilangan mata wang, jumlah pengiraan, dsb.) dalam senario ini. Berbanding dahulu, kesannya kini telah banyak bertambah baik. Di manakah hilangnya model penjanaan pertuturan besar?
S: Melihat kembali sekarang, apakah nilai keseluruhan kajian? J: Dari perspektif nilai Seed-TTS itu sendiri, suara bukan sepenuhnya alat, tetapi bentuk interaksi manusia yang paling langsung. Sebagai contoh, daripada filem senyap kepada talkie, perubahan kecil adalah lonjakan besar dalam industri. Hubungan emosi antara orang lebih bergantung pada suara Contohnya, apabila seorang kanak-kanak memanggil ayah, hubungan emosi yang diberikannya kepada anda berbeza sama sekali daripada membaca teks. Jika kita mahu menuju ke arah AI sebenar, keaslian pertuturan adalah komponen utama. Pada masa lalu, mesin yang kami bayangkan semuanya adalah suara mesin, seperti Moss dalam "The Wandering Earth". Jika AI benar-benar boleh menjadi seperti pembantu dan rakan kongsi anda, hubungan emosi yang dibawa oleh suara adalah penting. Jarvis dalam "Iron Man" diingati oleh ramai orang kerana ia disuarakan oleh orang sebenar. Selain itu, dari segi aplikasi, terdapat banyak senario untuk aplikasi suara, seperti novel dan e-book, reka bentuk watak, terjemahan video, watak maya, penyiaran, dan ekspresi pelakon. termasuk gagap dan ketidakupayaan untuk menyebut bunyi orang masih boleh mengekspresikan diri mereka dengan bantuan teknologi suara. Selagi senario suara bukan media maklumat semata-mata, ada ruang untuk diterapkan Ini juga merupakan motivasi kami untuk menjadikan model asas itu bagus. S: Undang-undang penskalaan telah dianggap sebagai "iman" oleh sesetengah pengamal Bagi model penjanaan pertuturan, apakah keputusan selepas kita menskalakan data dan model? J: Walaupun pada skala yang sangat besar, kami akan sentiasa melihat faedah semasa kami terus meningkat. Secara umum, dengan meningkatkan magnitud Skala, kami sangat terkejut melihat model itu terus memperoleh keupayaan baharu. S: Mengikut pemerhatian anda, di manakah had ini? J: Pada masa ini, kita masih boleh melihat faedah setiap masa, dan kita pasti perlu terus meneroka. Namun, kami telah membuktikan bahawa dengan reka bentuk model yang betul, kami boleh memecahkan pemikiran tradisional TTS. Pada masa lalu, kami bergantung pada sejumlah kecil data berkualiti tinggi, tetapi kini kami terus meningkatkan magnitud dan boleh mencapai faedah yang lebih tinggi. S: Apakah pencerahan yang ada pada GPT4-o untuk kita? . Ini mengemukakan banyak keperluan baharu untuk kerja kami.
S: Apakah peringkat pembangunan semasa model besar dalam bidang pertuturan? J:Di satu pihak, kami berharap model itu mempunyai ekspresi dan kawalan seorang pelakon profesional. Selalunya, ucapan yang dihasilkan oleh model tidak jauh berbeza daripada orang sebenar, bagaimanapun, dalam filem dan drama TV, pelakon mengekspresikan emosi dengan sangat kuat, dan ketumpatan maklumat agak tinggi, jadi mereka tidak sejajar sepenuhnya. Kita semua mahu melengkapkan Kes Sudut.Sebaliknya ialah pengendalian butiran, termasuk pemprosesan dan pengoptimuman Bad Case untuk menyelesaikan situasi long-tail yang luar biasa. Kerja model besar memerlukan penyertaan sebilangan besar bakat cemerlangS: Dalam keluaran Seed-TTS ini, rakan sekerja dari seluruh dunia mengambil bahagian ramai yang turut serta? J:Dengan perkembangan industri, kerjasama antara berbilang orang tidak dapat dielakkan. Untuk mencapai matlamat akhir model besar sambil memenuhi keperluan perindustrian, ia tidak boleh disokong oleh 1-2 idea, dan ramai orang mesti mengambil bahagian. Semua peserta sangat profesional. Sebagai contoh, data kami memerlukan pelajar profesional untuk mengambil bahagian dalam pemprosesan. Contoh lain ialah proses pelaksanaan melibatkan banyak butiran dan memerlukan kerjasama pelajar yang pakar dalam penilaian dan sokongan kejuruteraan. Mereka semua memberikan sumbangan yang besar. Kita dapat melihat bahawa dalam kalangan pemain arus perdana dalam penyelidikan canggih AI, projek mempunyai bilangan peserta yang sangat ramai, dan pelajar profesional bertanggungjawab untuk setiap pautan bakat berketumpatan tinggi dan kompleks kerjasama dan penyelarasan yang tepat, keperluan untuk kemahiran organisasi juga sangat tinggi. S: Apakah suasana pasukan pada pendapat anda? J:Saya rasa ia disebabkan oleh "pemacu" dan "perincian". "Kepentingan" tercermin dalam setiap orang yang mengambil inisiatif untuk melakukan sesuatu. Ia juga merupakan proses yang didorong sendiri, lahir daripada rasa ingin tahu dan idea untuk mengubah industri. Suasana ini lebih seperti syarikat permulaan, dengan lebih sedikit syarikat besar. S: Anda juga menyebut bahawa pasukan akan "memilih butiran" bagaimana anda memahami perkara ini? J: Ini mengenai memilih butiran dalam adegan sebenar. Untuk kerja penjanaan, mudah untuk melakukan demo yang cantik dalam demo, tetapi dalam aplikasi sebenar, sistem akan menghadapi pelbagai masalah terperinci. Untuk memastikan model sentiasa dijana dengan kualiti yang tinggi dan memenuhi keperluan pengguna, kami mempunyai keperluan yang sangat ketat mengenai kestabilan dan keteguhan sistem, yang memerlukan penggilapan berulang untuk memastikan setiap butiran adalah berkualiti tinggi. Sebaliknya, untuk Demo, kami tidak melakukan banyak pengoptimuman. S: Adakah kita mempunyai sebarang perdebatan dalaman tentang "tidak melakukan terlalu banyak pengoptimuman demo"? . Semasa proses itu, didapati terdapat jurang yang besar antara produk dan demo, yang benar-benar mengubah industri. S: Adakah teknologi yang berkaitan sedang digunakan dalam Apl Doubao? A: Teknologi berkaitan telah digunakan untuk tempoh masa. kerja akhir dalam talian. S: Apakah kata kunci yang boleh meringkaskan pasukan kami? A: Yang pertama adalah profesional. Ini dicerminkan dalam banyak aspek, termasuk data, infrastruktur, reka bentuk model, dsb. Kami akan memberi perhatian kepada butiran setiap pautan secara profesional, dan berusaha untuk mencapai prestasi muktamad dari perspektif pelaksanaan industri. Perkataan kedua ialah fokus dan memandu. Untuk mencapai matlamat kami, tumpuan dan pemanduan amat diperlukan. Oleh itu, semua orang sangat melabur Apabila hasilnya benar-benar dicapai, semua orang merasai pencapaian dan memperoleh keyakinan. Perkataan ketiga ialah perpaduan. Apabila bekerja dalam pasukan, semua orang tidak mempunyai rasa wilayah dan kerjasama yang lancar Ini membuatkan saya berasa sangat selesa, yang jarang berlaku di syarikat besar. S: Apakah kualiti orang yang pasukan kami harap dapat terus tarik? J: Pertama sekali, lihat sama ada nilai-nilai itu boleh konsisten. Kebolehan sudah tentu satu aspek, tetapi yang lebih penting, kami berharap untuk mencari rakan kongsi yang berada dalam keadaan yang sama supaya semua orang boleh mencapai kesedaran diri. Kerjasama di bawah nilai seperti ini secara semula jadi akan lancar. Yang kedua ialah kepelbagaian latar belakang. Pada masa ini, kaedah yang digunakan dalam pelbagai bidang AI adalah serupa, dan semua orang secara beransur-ansur menyepadukan ke arah yang sama Oleh itu, pengalaman dalam pembelajaran pengukuhan, pengecaman visual, pengecaman audio dan bidang lain memainkan peranan penting dalam penjanaan.Kami berharap pelajar dari latar belakang profesional yang berbeza boleh mengambil bahagian. Saya seorang yang memahami pertuturan dan telah bertukar kepada TTS. Akhir sekali, inisiatif subjektif dan keupayaan pembelajaran, dan mengejar kerja yang tinggi. Tugas generatif juga mempunyai banyak ciri unik Kami berharap calon dapat mencari gabungan tugasan dan pengalaman mereka sendiri . Pelajar juga dikehendaki untuk terus maju dengan visi ini setiap hari. .
Jika anda juga mempunyai cita-cita dan semangat untuk teknologi model besar, dan mengenali suasana pasukan Doubao Large Model, sila log masuk ke laman web rasmi Pasukan Model Besar Doubao di team.doubao.com atau ikuti akaun awam rasmi pasukan, Ketahui lebih lanjut tentang kemajuan teknikal, cerita pasukan dan maklumat pengambilan: ByteDance Top Seed Talent Plan sedang merekrut Kami berharap dapat terus menarik dan merekrut bakat terbaik dengan matlamat dan cita-cita yang tinggi untuk ". mengubah dunia dengan teknologi." Sertai kami dan anda akan bekerjasama dengan saintis dan jurutera terbaik untuk mengambil bahagian dalam cabaran teknikal teratas industri dan menangani masalah yang sukar. Alu-alukan untuk menekan dan menahan kod QR di bawah atau klik untuk membaca teks asal dan menyerahkan resume anda. Klik pautan ini untuk menghantar kerja anda dengan satu klik! Atas ialah kandungan terperinci Telinga saya betul, bunyinya terlalu nyata, teknologi Seed-TTS bagi sintesis pertuturan Byte Beanbao didedahkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!