Ciptaan AI sangat menakjubkan, tetapi banyak cabaran masih perlu diatasi-AI-php.cn

Ciptaan AI sangat menakjubkan, tetapi banyak cabaran masih perlu diatasi

Pada Ogos 2022, sebuah lukisan digital yang dipanggil "Space Opera" memenangi kejuaraan dan menimbulkan kontroversi besar AIGC (Kandungan Dijana AI) telah keluar dari kalangan Insiden yang kerap muncul di khalayak ramai mata. Model robot sembang ChatGPT yang dikeluarkan oleh OpenAI pada 30 November tahun yang sama adalah percuma dan terbuka kepada orang ramai, yang telah menimbulkan minat yang meluas dalam AIGC Pelbagai soalan mewah, seperti menukar kod, bercakap tentang pengetahuan, bertanya soalan tentang kehidupan. . "Kepintaran" dan "cerdik" ChatGPT "Ia mengagumkan dan menyegarkan. | Penggunaan generasi 3.5 Dengan kaedah RLHF (Reinforcement Learning from Human Feedback) kita lebih memahami maksud bahasa manusia iaitu ketika berinteraksi dengan manusia dalam berbual, menulis artikel, menjawab pertanyaan, menyemak kod dan sebagainya, kita lebih seperti orang yang telah memberikan pemikiran yang teliti selepas "berfikiran serius".

Berdepan dengan topik hangat dalam kalangan, menurut Stephen, seorang penyelidik mengenai algoritma sintesis pertuturan dan audio Huoshan: "Sebab mengapa AIGC begitu popular baru-baru ini tidak dapat dipisahkan daripada langkah demi langkah peningkatan dalam kualiti kandungan yang dihasilkan oleh AI sebagai pencetus alat pengeluaran Untuk mencapai kecekapan yang lebih tinggi, AIGC merangkumi banyak arahan seperti penjanaan teks, penjanaan audio, penjanaan imej dan penjanaan video, yang seterusnya akan merangsang perkembangan pesat tiruan. teknologi kecerdasan di belakangnya dan secara beransur-ansur mencerminkan nilai komersial yang hebat "

Beremosi dan boleh bercakap dan bertindak telah menjadi kesukaran utama suara AI

Kami sering mengeluh bahawa lukisan AI membolehkan anda menghargai. "imaginasi" AI Soal Jawab AI yang diwakili oleh ChatGPT Ia akan mengejutkan anda kerana pengetahuannya dan "kebolehbacaan" jawapan, manakala suara AI menguji sama ada orang itu dapat memahami kandungan dengan betul seperti orang sebenar dan menyatakan ia dengan memadankan nada watak dan nada yang sesuai dengan situasi , ini sering dilihat dalam kerjasama antara Suara Huoshan (pasukan suara dan audio pintar ByteDance AI) dan Novel Tomato membolehkan anda untuk mendengar mana-mana versi teks novel secara langsung, dan ia berbunyi "lebih bijak" ": Dengan nada yang berbeza dan nada yang sesuai, anda boleh menjadi "ratu drama" dan melakukan "emosi, kemarahan, kesedihan dan kegembiraan" apabila membaca dengan kuat.

Adalah difahamkan bahawa untuk AI menjadi ekspresif dan berkebolehan bercakap dan bertindak, pertama sekali perlu memastikan kandungan output tidak dibaca dengan betul, yang memerlukan model analisis teks untuk analisis. "Dalam Novel Tomato, kami menggunakan model seni bina Transformer BERT, yang digunakan secara meluas dalam medan NLP, sebagai analisis teks bahagian hadapan. Terutamanya melalui model regularisasi (TN) dan model bahagian hadapan berbilang tugas rangkaian saraf ditambah campuran peraturan, digabungkan dengan pembetulan peraturan manual jangka panjang, kami secara berterusan Ia meningkatkan ketepatan peringkat ayat bahagian hadapan dan mengurangkan keperluan kuasa pengkomputeran melalui penyulingan, kuantifikasi dan teknologi lain.”

Selain itu, dalam Untuk menjadikan suara lebih baik, pasukan juga menambah lebih banyak modul berfungsi berdasarkan proses TTS biasa. Sebagai contoh, struktur BERT juga digunakan dalam atribusi peranan untuk memodelkan dua tugas penentuan dialog dan nyahkekaburan rujukan Selain itu, struktur yang serupa juga digunakan untuk ramalan emosi. "Biasanya akan ada perbualan berbilang orang dalam novel, dan setiap penceramah mempunyai pelbagai emosi sendiri. Jika timbre dan emosi boleh dipisahkan, ekspresi ucapan yang disintesis boleh dikawal dengan lebih baik, dan timbre dan emosi yang berbeza boleh dapat dicapai. Gabungan fleksibel emosi yang berbeza adalah sangat penting "

Satu perkara penting ialah untuk membolehkan AI memahami teks pelbagai jenis novel, Huoshan Voice turut memimpin dalam mencadangkan "AI. model pemahaman teks", yang merupakan satu set sistem AI pemahaman teks panjang berbilang untuk tugasan. Ia secara automatik boleh membezakan watak dialog daripada teks novel, mengenal pasti emosi yang ingin diungkapkan dalam dialog, dan meramalkan jeda yang munasabah antara ayat, yang meningkatkan kecekapan pengeluaran buku audio AI berkualiti tinggi dengan berkesan dan mengatasi kesesakan pengeluaran manual .

Ciptaan AI sangat menakjubkan, tetapi banyak cabaran masih perlu diatasi Model “Pemahaman Teks Al”

Tambahan pula, berdasarkan sebutan yang jelas, irama yang koheren dan turun naik intonasi, pasukan Huoshan Voice membangunkan sendiri model akustik kawalan gaya hujung-ke-hujung pembelajaran separa penyeliaan untuk menjadikan suara mengikut Plutchik. Wheel. of Emotions), menunjukkan pelbagai warna emosi seperti kegembiraan, kesedihan, kejutan, ketakutan, dan lain-lain, menggunakan kaedah penghijrahan emosi untuk memberikan sebutan tanpa emosi kesan sintesis pelbagai emosi. Ia lebih baik menyatakan "menyatakan perasaan melalui bunyi" dan memodelkan dengan teliti dan memulihkan fenomena "paralanguage" yang sering berlaku dalam bahasa manusia, menyedari jeda untuk loghat, soalan retorik, ketawa dan tangisan, dan pelbagai fenomena biasa lain dalam buku audio. dan lain-lain. mencapai tafsiran yang indah tentang kandungan teks.

“Kesannya hampir dengan ucapan orang sebenar, supaya suara AI terakhir dapat mencerminkan kesan watak yang berbeza dalam konteks yang berbeza Ini adalah matlamat yang kami kejar pada masa hadapan berharap untuk mencapai ini melalui teks - Model latihan bersama pertuturan yang besar mengekstrak perwakilan daripada teks dalam konteks yang berbeza dan meningkatkan kadar kejayaan pengenalan watak dengan model sintesis pertuturan berbilang bicara yang besar, atribut seperti emosi, gaya, nada dan loghat; dipisahkan dan boleh dipindahkan secara bebas pada masa yang sama Hasilkan bunyi latar yang sepadan berdasarkan penerangan teks untuk meningkatkan rasa rendaman apabila mendengar buku audio ”

Meningkatkan kualiti kandungan dan kecekapan pengeluaran ialah nilai teras AIGC

Dalam lebih banyak amalan, kami telah mendapati, sebagai tambahan kepada teks dan imej, orang menggunakan interaksi suara dalam julat aplikasi yang lebih luas Sebagai contoh, orang sering mengeluarkan arahan untuk mengawal pelbagai peralatan elektrik melalui interaksi suara di rumah ; semasa dalam perjalanan, mereka menggunakan pembantu suara dalam kereta untuk melengkapkan navigasi, tempahan restoran, dsb. dan dalam adegan pejabat Pembantu persidangan yang digunakan pada frekuensi sederhana dan tinggi tidak dapat dipisahkan daripada penyelesaian suara pintar untuk meningkatkan kualiti kandungan dan kecekapan pengeluaran.

Dalam hal ini, pasukan Huoshan Voice juga telah membuat lebih banyak percubaan inovatif yang berkaitan Sebagai contoh, hari ini apabila video pendek telah menjadi fesyen nasional, dalam menghadapi rakaman rawak penciptaan video kumpulan UGC dan tidak terkawal. kualiti audio, dsb. Disebabkan oleh faktor praktikal, penyelesaian sari kata pintar Huoshan Voice boleh menambah sari kata pada ciptaan video secara automatik Ia bukan sahaja dapat mengenali bahasa dan dialek yang biasa digunakan seperti bahasa Cina, Inggeris dan Kantonis, tetapi juga mengenali lagu.

Dalam hal ini, W, pengurus produk Huoshan Speech and Audio Understanding, menambah: "Dalam penghasilan kandungan video, kaedah tradisional menambah sari kata memerlukan pencipta untuk menentukan dan membaca pruf video beberapa kali, dan juga perlu bingkai demi bingkai berdasarkan masa mula Penjajaran, selalunya video selama 10 minit memerlukan beberapa jam masa pasca produksi Di samping itu, pasukan sari kata mesti mahir dalam pelbagai bahasa dan biasa dengan pengeluaran fail sari kata. Kos keseluruhan pengeluaran video adalah sangat tinggi, yang sangat sukar bagi pencipta individu dalam era video pendek hari ini atau ia telah lama tidak dapat dicapai oleh pengguna yang hanya merakam kehidupan mereka > Untuk mengurangkan ambang penciptaan dan membolehkan semua pencipta menghasilkan kandungan video berkualiti tinggi dengan mudah dan merakam kehidupan yang indah, Huoshan Voice dibangunkan sendiri dan dilancarkan penyelesaian sari kata. Ia bukan sahaja dapat mengecam dialek dan lagu dengan cekap, tetapi ia juga boleh mempunyai kesan pengecaman yang baik pada adegan di mana bahasa bercampur dan bercakap dan nyanyian bercampur di samping itu, melalui ciri audio dan analisis domain kandungan ciptaan pengguna, dan pengoptimuman algoritma, pengecaman pertuturan boleh dipertingkatkan dengan ketara Prestasi dalam adegan yang kompleks seperti adegan hingar dan berbilang orang bercakap. Khususnya, pengguna mudah alih mempunyai keperluan yang lebih tinggi untuk masa respons fungsi, iaitu, mereka mahu sari kata menjadi pantas dan tepat Untuk tujuan ini, Huoshan Voice telah membuat banyak pengoptimuman dan strategi kejuruteraan. Video 1 minit boleh disiapkan hanya 2-3 saat.

Seperti yang kita sedia maklum, apabila berhadapan dengan kandungan yang sama, kecekapan pemerolehan maklumat audio manusia adalah jauh lebih rendah daripada maklumat teks Kunci untuk menukar pertuturan kepada teks untuk dirakam dan digunakan terletak pada pengecaman pertuturan , seperti pelancaran Volcano Voice Penyelesaian sari kata masa nyata "seribu perkataan ke dalam teks, satu perkataan bernilai seribu perkataan" menggunakan pautan AI untuk "pengecaman pertuturan + terjemahan pertuturan" untuk membuat merentas desa dan komunikasi merentas bahasa lebih lancar dengan menjana rekod dan minit mesyuarat secara automatik, Ia boleh meningkatkan kecekapan kerja peserta dengan ketara dan mengurangkan beban kerja pengisihan selepas mesyuarat dan rakaman pertengahan mesyuarat. Adalah dijangka bahawa dengan perkembangan pesat teknologi, suara AI akan meningkatkan saluran output maklumat untuk interaksi manusia-komputer dan meningkatkan kecekapan pemerolehan maklumat.

Begitu juga berhadapan dengan masalah peningkatan kualiti dan kecekapan yang dibawa oleh AIGC, menurut Y, pengurus produk Interaksi Suara Suara Huoshan, AIGC sememangnya dijangka akan dilaksanakan dalam senario tambahan interaksi suara pintar, termasuk ringkasan perbualan, ucapan Fungsi perkhidmatan pelanggan seperti pengesyoran teknikal, keselesaan emosi dan ringkasan pesanan kerja menyediakan penyelesaian tambahan untuk meningkatkan kecekapan pengeluaran. Sebagai contoh, apabila perbualan manusia-mesin mencetuskan perbualan manusia-mesin, ringkasan perbualan perbualan manusia-mesin boleh dijana secara automatik untuk membantu mesin manusia memahami permintaan pengguna dengan lebih cepat dan mengelakkan gangguan secara tiba-tiba untuk menyemak sejarah sembang. ; semasa perbualan dengan orang itu, Dengan memahami ucapan pengguna, keupayaan AIGC digunakan untuk menjana jawapan untuk rujukan perkhidmatan pelanggan, yang meningkatkan kecekapan dialog perkhidmatan pelanggan.

“Selain itu, ia juga boleh memainkan peranan dalam mengendalikan situasi yang tidak normal Contohnya, apabila pengguna mudah marah, marah, dsb., AICG secara automatik boleh menjana kata-kata yang menenangkan untuk rujukan perkhidmatan pelanggan, meningkatkan kepuasan perkhidmatan, dsb. masa depan, dengan pelbagai modal Memandangkan teknologi dan teknologi AIGC terus matang, mungkin manusia digital maya boleh menggantikan sebahagian daripada tenaga buruh dan secara langsung melayani pelanggan dalam simbiosis manusia-mesin, yang akan mengurangkan kos buruh dengan ketara dan meningkatkan kecekapan perkhidmatan "Tetapi beliau juga menjelaskan bahawa AIGC hari ini masih mempunyai ia tidak dapat benar-benar menghasilkan kandungan secara bebas dan masih di peringkat membantu manusia untuk meningkatkan kecekapan pengeluaran kandungan.

Kos, hak cipta dan kepraktisan masih menjadi halangan dalam pembangunan AIGC

Sama ada jawapan menakjubkan yang diberikan oleh ChatGPT atau suara menyentuh hati yang dilakukan oleh AI dalam novel Tomato, malah Musk juga kagum : Kami tidak jauh dari kecerdasan buatan yang berbahaya. Ini seolah-olah menunjukkan bahawa era AIGC akan datang.

Walau bagaimanapun, Stephen, seorang penyelidik pada algoritma sintesis pertuturan dan audio Huoshan yang telah bekerja di barisan hadapan algoritma AI selama bertahun-tahun, mempunyai pertimbangan yang lebih bijak: "Teknologi di sebalik AIGC mungkin melaksanakan gabungan pelbagai mod pada masa hadapan, bukan hanya tugas generatif modal tunggal, sama seperti proses penciptaan kandungan manusia, tidak hanya membayangkan kandungan baharu berdasarkan satu bentuk pengetahuan, contohnya, seperti tugas menjana interaktif orang digital, pada masa ini terutamanya adalah ramalan wajah, ekspresi, postur dan tindakan Pada masa hadapan, model generatif boleh digunakan untuk meramalkan ciri ini untuk meningkatkan sinergi antara ciri dan mengurangkan beban kerja yang disebabkan oleh rakaman berasingan Selain itu, ia juga akan berdasarkan multi-modal Perwakilan yang diperoleh dengan memahami tugasan adalah berdasarkan ekspresi, nada dan pergerakan badan pengguna yang bercakap, dan maklum balas yang sepadan diberikan pada imej dan bunyi yang dijana "

Selain ramalan perkembangan teknologi, satu perkara yang tidak boleh diabaikan ialah pada masa ini AIGC masih menghadapi cabaran besar dalam kos, hak cipta dan praktikal. Beliau percaya bahawa kos semasa AIGC kekal tinggi Manifestasi yang paling jelas ialah teknologi penjanaan teks, imej dan video yang berkualiti tinggi, dsb., semuanya sepadan dengan penggunaan sejumlah besar sumber perkakasan dalam peringkat latihan dan inferens. yang menyukarkan universiti dan institusi penyelidikan untuk mengambil bahagian di dalamnya, yang tidak kondusif untuk menggalakkan pembangunan industri.

“Selain itu, dari segi perlindungan hak cipta, beberapa kandungan yang dihasilkan pada masa ini mungkin digunakan untuk menjalankan aktiviti yang menyalahi undang-undang, jadi semakin penting untuk menambah perlindungan hak cipta pada kandungan, seperti imej dan tera air audio, tetapi selepas menambah Semasa proses, anda juga mesti mempertimbangkan untuk tidak menyebabkan kegagalan tera air disebabkan kaedah pasca pemprosesan seperti memotong dan mencampurkan "

Pada tahun 2022 yang lalu, walaupun kesan aplikasi teknologi dalam penjanaan imej dan video telah bertambah baik dengan ketara, masih ada keperluan untuk itu Hanya selepas sejumlah besar penyaringan manual boleh benar-benar dilaksanakan dan menjana komik dan video sensitif konteks berdasarkan bab teks yang panjang bukan sahaja memastikan kesinambungan adegan, tetapi juga mencerminkan perubahan dalam watak Masih banyak masalah teknikal yang perlu diselesaikan untuk mengelakkan manual Mengubah kecerdasan menjadi "kecerdasan buatan" adalah satu cabaran, jadi masih ada lebih banyak ruang untuk penambahbaikan. kepraktisan.

Kami mungkin berfikir bahawa sebab mengapa AIGC, sebagai kaedah pengeluaran kandungan baharu, telah menarik perhatian sepenuhnya menggambarkan keinginan semua lapisan masyarakat untuk kandungan, terutamanya platform Internet, cara memahami, mencipta, dan berinteraksi serta mengedarkan kandungan sememangnya membawa peluang dan cabaran kepada teknologi AI hari ini.

Atas ialah kandungan terperinci Ciptaan AI sangat menakjubkan, tetapi banyak cabaran masih perlu diatasi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!