Ada satu kisah tentang Menara Babel dalam Bible Dikatakan bahawa manusia bersatu untuk merancang untuk membina menara yang tinggi, dengan harapan untuk membawa ke syurga, tetapi Tuhan mengganggu bahasa manusia dan rancangan itu gagal. Hari ini, teknologi AI dijangka meruntuhkan sekatan antara bahasa manusia dan membantu manusia mencipta Menara Babel yang bertamadun.
Baru-baru ini, kajian oleh Meta telah mengambil langkah penting ke arah aspek ini Mereka memanggil kaedah baru yang dicadangkan secara Massively Multilingual Speech (MMS), yang berdasarkan The Bible digunakan sebagai sebahagian. daripada data latihan dan keputusan berikut diperoleh:
Bagaimanakah Meta menyelesaikan masalah kekurangan data dalam banyak bahasa yang jarang ditemui? Kaedah yang mereka gunakan adalah menarik, menggunakan corpora agama, kerana corpora seperti Bible mempunyai data pertuturan yang paling "selaras". Walaupun set data ini condong ke arah kandungan agama dan kebanyakannya menampilkan suara lelaki, makalah itu menunjukkan bahawa model itu juga berprestasi baik dalam domain lain apabila menggunakan suara wanita. Ini ialah tingkah laku yang muncul bagi model asas, dan ia benar-benar menakjubkan. Apa yang lebih menakjubkan ialah Meta telah mengeluarkan semua model yang baru dibangunkan (pengecaman pertuturan, TTS dan pengecaman bahasa) secara percuma!
Untuk mencipta model pertuturan yang boleh mengecam ribuan perkataan, cabaran pertama adalah untuk mengumpul data audio dalam pelbagai bahasa, kerana set data pertuturan terbesar yang tersedia pada masa ini hanya Up kepada 100 bahasa. Untuk mengatasi masalah ini, penyelidik Meta menggunakan teks agama, seperti Bible, yang telah diterjemahkan ke dalam pelbagai bahasa, dan terjemahan tersebut telah dikaji secara meluas. Terjemahan ini mempunyai rakaman audio orang yang membacanya dalam bahasa yang berbeza, dan audio ini juga tersedia secara umum. Menggunakan audio ini, penyelidik mencipta set data yang mengandungi audio orang yang membaca Perjanjian Baru dalam 1,100 bahasa, dengan purata panjang audio selama 32 jam bagi setiap bahasa.
Mereka kemudiannya menyertakan rakaman tanpa nota bagi banyak bacaan Kristian lain, meningkatkan bilangan bahasa yang tersedia kepada lebih 4,000. Walaupun bidang set data ini adalah tunggal dan kebanyakannya terdiri daripada suara lelaki, hasil analisis menunjukkan bahawa model Meta yang baru dibangunkan menunjukkan prestasi yang sama baik pada suara wanita, dan model itu tidak terlalu berat sebelah ke arah menghasilkan lebih banyak bahasa keagamaan. Para penyelidik menyatakan dalam blog bahawa ini disebabkan terutamanya oleh kaedah Pengelasan Temporal Connectionist yang mereka gunakan, yang jauh lebih baik daripada model bahasa besar (LLM) atau model pengecaman pertuturan urutan-ke-jujukan Lebih terhad.
Analisis potensi situasi berat sebelah jantina. Pada penanda aras FLEURS, model pengecaman pertuturan automatik yang dilatih pada set data Pertuturan Berbilang Bahasa (MMS) mempunyai kadar ralat yang serupa untuk suara lelaki dan perempuan.
Untuk meningkatkan kualiti data supaya ia boleh digunakan oleh algoritma pembelajaran mesin, mereka juga menggunakan beberapa kaedah prapemprosesan. Mula-mula, mereka melatih model penjajaran pada data sedia ada daripada lebih 100 bahasa, dan kemudian memasangkannya dengan algoritma penjajaran paksa yang cekap yang boleh mengendalikan rakaman yang sangat lama melebihi 20 minit. Selepas itu, selepas beberapa pusingan proses penjajaran, langkah terakhir penapisan silang pengesahan dilakukan untuk mengalih keluar data yang mungkin tidak sejajar berdasarkan ketepatan model. Untuk memudahkan penyelidik lain mencipta set data pertuturan baharu, Meta menambah algoritma penjajaran pada PyTorch dan mengeluarkan model penjajaran.
Untuk melatih model pengecaman pertuturan diselia yang boleh digunakan secara universal, hanya 32 jam data bagi setiap bahasa tidak mencukupi. Oleh itu, model mereka dibangunkan berdasarkan wav2vec 2.0, iaitu penyelidikan terdahulu mereka tentang pembelajaran perwakilan pertuturan yang diselia sendiri, yang boleh mengurangkan jumlah data berlabel yang diperlukan untuk latihan. Khususnya, penyelidik melatih model penyeliaan sendiri menggunakan kira-kira 500,000 jam data pertuturan dalam lebih daripada 1,400 bahasa-lebih daripada lima kali lebih banyak bahasa daripada mana-mana kajian terdahulu. Kemudian, berdasarkan tugasan pertuturan tertentu (seperti pengecaman pertuturan berbilang bahasa atau pengecaman bahasa), penyelidik memperhalusi model yang dihasilkan.
Para penyelidik menilai model yang baru dibangunkan pada beberapa penanda aras sedia ada.
Latihan model pengecaman pertuturan berbilang bahasa menggunakan model wav2vec 2.0 dengan 1 bilion parameter dan set data latihan mengandungi lebih daripada 1,100 bahasa. Prestasi model menurun apabila bilangan bahasa meningkat, tetapi penurunannya sangat kecil: apabila bilangan bahasa meningkat dari 61 kepada 1107, kadar ralat aksara meningkat hanya 0.4%, tetapi liputan bahasa meningkat lebih banyak. daripada 18 kali.
Pada ujian penanda aras 61 bahasa FLEURS, kadar ralat aksara berubah apabila bilangan bahasa meningkat, kadar ralat Semakin tinggi ia, semakin teruk modelnya.
Dengan membandingkan model Whisper OpenAI, para penyelidik mendapati bahawa kadar ralat perkataan model mereka hanya separuh daripada Whisper, manakala model baharu menyokong 11 kali lebih banyak bahasa. Keputusan ini menunjukkan keupayaan unggul kaedah baharu.
Perbandingan kadar ralat perkataan antara OpenAI Whisper dan MMS pada penanda aras 54 bahasa FLEURS yang setanding secara langsung.
Seterusnya, menggunakan set data sedia ada sebelumnya (seperti FLEURS dan CommonVoice) dan set data baharu, penyelidik Meta juga melatih model pengenalan bahasa (LID) dan menggunakan tugas FLEURS LID dinilai . Hasilnya menunjukkan bahawa bukan sahaja model baharu ini berprestasi hebat, tetapi ia juga menyokong 40 kali lebih banyak bahasa.
Penyelidikan terdahulu juga hanya menyokong lebih daripada 100 bahasa pada penanda aras VoxLingua-107, manakala MMS menyokong lebih daripada 4000 bahasa.
Selain itu, Meta telah membina sistem teks ke pertuturan yang menyokong 1,100 bahasa. Data latihan untuk model teks-ke-ucapan semasa biasanya korpus pertuturan daripada satu pembesar suara. Satu batasan data MMS ialah banyak bahasa hanya mempunyai sebilangan kecil pembesar suara, selalunya satu pembesar suara. Walau bagaimanapun, ini menjadi kelebihan apabila membina sistem teks ke pertuturan, jadi Meta membina sistem TTS yang menyokong lebih daripada 1,100 bahasa. Penyelidik mengatakan kualiti pertuturan yang dihasilkan oleh sistem ini sebenarnya agak baik, dan beberapa contoh diberikan di bawah.
Demo model teks-ke-ucapan MMS untuk bahasa Yoruba, Iroko dan Maithili.
Walaupun begitu, penyelidik mengatakan bahawa teknologi AI masih belum sempurna, dan perkara yang sama berlaku untuk MMS. Sebagai contoh, MMS mungkin tersalah transkripsi perkataan atau frasa yang dipilih semasa pertuturan ke teks. Ini boleh mengakibatkan bahasa yang menyinggung dan/atau tidak tepat dalam output. Para penyelidik menekankan kepentingan bekerja dengan komuniti AI untuk membangun secara bertanggungjawab.
Banyak bahasa di seluruh dunia terancam, dan batasan pengecaman pertuturan dan teknologi penjanaan pertuturan semasa hanya akan mempercepatkan lagi trend ini. Pengkaji membayangkan dalam blog: Mungkin teknologi boleh menggalakkan orang ramai mengekalkan bahasa mereka sendiri, kerana dengan teknologi yang baik, mereka boleh menggunakan bahasa kegemaran mereka untuk mendapatkan maklumat dan menggunakan teknologi.
Mereka percaya projek MMS adalah langkah penting ke arah ini. Mereka juga berkata bahawa projek itu akan terus dibangunkan dan akan menyokong lebih banyak bahasa pada masa hadapan, malah akan menyelesaikan masalah dialek dan loghat.
Atas ialah kandungan terperinci Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!