Jadual Kandungan
Kaedah yang baru dicadangkan
Hasil
Nilai menyokong seribu perkataan dengan satu model
Rumah Peranti teknologi AI Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

May 29, 2023 pm 03:45 PM
teknologi Model

Ada satu kisah tentang Menara Babel dalam Bible Dikatakan bahawa manusia bersatu untuk merancang untuk membina menara yang tinggi, dengan harapan untuk membawa ke syurga, tetapi Tuhan mengganggu bahasa manusia dan rancangan itu gagal. Hari ini, teknologi AI dijangka meruntuhkan sekatan antara bahasa manusia dan membantu manusia mencipta Menara Babel yang bertamadun.

Baru-baru ini, kajian oleh Meta telah mengambil langkah penting ke arah aspek ini Mereka memanggil kaedah baru yang dicadangkan secara Massively Multilingual Speech (MMS), yang berdasarkan The Bible digunakan sebagai sebahagian. daripada data latihan dan keputusan berikut diperoleh:

  • Pengecaman pertuturan berbilang bahasa dengan 1 bilion parameter diperoleh menggunakan latihan wave2vec 2.0 pada 1107 bahasa Berbanding dengan OpenAI's Whisper model, kadar ralat model dikurangkan lebih daripada 50%.
  • Satu model sintesis audio menyokong teks ke pertuturan (TTS) untuk 1107 bahasa ini.
  • Membangunkan pengelas pengecaman bahasa yang mampu mengenal pasti 4017 bahasa.

Bagaimanakah Meta menyelesaikan masalah kekurangan data dalam banyak bahasa yang jarang ditemui? Kaedah yang mereka gunakan adalah menarik, menggunakan corpora agama, kerana corpora seperti Bible mempunyai data pertuturan yang paling "selaras". Walaupun set data ini condong ke arah kandungan agama dan kebanyakannya menampilkan suara lelaki, makalah itu menunjukkan bahawa model itu juga berprestasi baik dalam domain lain apabila menggunakan suara wanita. Ini ialah tingkah laku yang muncul bagi model asas, dan ia benar-benar menakjubkan. Apa yang lebih menakjubkan ialah Meta telah mengeluarkan semua model yang baru dibangunkan (pengecaman pertuturan, TTS dan pengecaman bahasa) secara percuma!

  • Muat turun model: https://github.com/facebookresearch/fairseq/tree/main/examples/mms
  • Alamat kertas: https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

Kaedah yang baru dicadangkan

Untuk mencipta model pertuturan yang boleh mengecam ribuan perkataan, cabaran pertama adalah untuk mengumpul data audio dalam pelbagai bahasa, kerana set data pertuturan terbesar yang tersedia pada masa ini hanya Up kepada 100 bahasa. Untuk mengatasi masalah ini, penyelidik Meta menggunakan teks agama, seperti Bible, yang telah diterjemahkan ke dalam pelbagai bahasa, dan terjemahan tersebut telah dikaji secara meluas. Terjemahan ini mempunyai rakaman audio orang yang membacanya dalam bahasa yang berbeza, dan audio ini juga tersedia secara umum. Menggunakan audio ini, penyelidik mencipta set data yang mengandungi audio orang yang membaca Perjanjian Baru dalam 1,100 bahasa, dengan purata panjang audio selama 32 jam bagi setiap bahasa.

Mereka kemudiannya menyertakan rakaman tanpa nota bagi banyak bacaan Kristian lain, meningkatkan bilangan bahasa yang tersedia kepada lebih 4,000. Walaupun bidang set data ini adalah tunggal dan kebanyakannya terdiri daripada suara lelaki, hasil analisis menunjukkan bahawa model Meta yang baru dibangunkan menunjukkan prestasi yang sama baik pada suara wanita, dan model itu tidak terlalu berat sebelah ke arah menghasilkan lebih banyak bahasa keagamaan. Para penyelidik menyatakan dalam blog bahawa ini disebabkan terutamanya oleh kaedah Pengelasan Temporal Connectionist yang mereka gunakan, yang jauh lebih baik daripada model bahasa besar (LLM) atau model pengecaman pertuturan urutan-ke-jujukan Lebih terhad.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Analisis potensi situasi berat sebelah jantina. Pada penanda aras FLEURS, model pengecaman pertuturan automatik yang dilatih pada set data Pertuturan Berbilang Bahasa (MMS) mempunyai kadar ralat yang serupa untuk suara lelaki dan perempuan.

Untuk meningkatkan kualiti data supaya ia boleh digunakan oleh algoritma pembelajaran mesin, mereka juga menggunakan beberapa kaedah prapemprosesan. Mula-mula, mereka melatih model penjajaran pada data sedia ada daripada lebih 100 bahasa, dan kemudian memasangkannya dengan algoritma penjajaran paksa yang cekap yang boleh mengendalikan rakaman yang sangat lama melebihi 20 minit. Selepas itu, selepas beberapa pusingan proses penjajaran, langkah terakhir penapisan silang pengesahan dilakukan untuk mengalih keluar data yang mungkin tidak sejajar berdasarkan ketepatan model. Untuk memudahkan penyelidik lain mencipta set data pertuturan baharu, Meta menambah algoritma penjajaran pada PyTorch dan mengeluarkan model penjajaran.

Untuk melatih model pengecaman pertuturan diselia yang boleh digunakan secara universal, hanya 32 jam data bagi setiap bahasa tidak mencukupi. Oleh itu, model mereka dibangunkan berdasarkan wav2vec 2.0, iaitu penyelidikan terdahulu mereka tentang pembelajaran perwakilan pertuturan yang diselia sendiri, yang boleh mengurangkan jumlah data berlabel yang diperlukan untuk latihan. Khususnya, penyelidik melatih model penyeliaan sendiri menggunakan kira-kira 500,000 jam data pertuturan dalam lebih daripada 1,400 bahasa-lebih daripada lima kali lebih banyak bahasa daripada mana-mana kajian terdahulu. Kemudian, berdasarkan tugasan pertuturan tertentu (seperti pengecaman pertuturan berbilang bahasa atau pengecaman bahasa), penyelidik memperhalusi model yang dihasilkan.

Hasil

Para penyelidik menilai model yang baru dibangunkan pada beberapa penanda aras sedia ada.

Latihan model pengecaman pertuturan berbilang bahasa menggunakan model wav2vec 2.0 dengan 1 bilion parameter dan set data latihan mengandungi lebih daripada 1,100 bahasa. Prestasi model menurun apabila bilangan bahasa meningkat, tetapi penurunannya sangat kecil: apabila bilangan bahasa meningkat dari 61 kepada 1107, kadar ralat aksara meningkat hanya 0.4%, tetapi liputan bahasa meningkat lebih banyak. daripada 18 kali.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Pada ujian penanda aras 61 bahasa FLEURS, kadar ralat aksara berubah apabila bilangan bahasa meningkat, kadar ralat Semakin tinggi ia, semakin teruk modelnya.

Dengan membandingkan model Whisper OpenAI, para penyelidik mendapati bahawa kadar ralat perkataan model mereka hanya separuh daripada Whisper, manakala model baharu menyokong 11 kali lebih banyak bahasa. Keputusan ini menunjukkan keupayaan unggul kaedah baharu.

Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa

Perbandingan kadar ralat perkataan antara OpenAI Whisper dan MMS pada penanda aras 54 bahasa FLEURS yang setanding secara langsung.

Seterusnya, menggunakan set data sedia ada sebelumnya (seperti FLEURS dan CommonVoice) dan set data baharu, penyelidik Meta juga melatih model pengenalan bahasa (LID) dan menggunakan tugas FLEURS LID dinilai . Hasilnya menunjukkan bahawa bukan sahaja model baharu ini berprestasi hebat, tetapi ia juga menyokong 40 kali lebih banyak bahasa.

Penyelidikan terdahulu juga hanya menyokong lebih daripada 100 bahasa pada penanda aras VoxLingua-107, manakala MMS menyokong lebih daripada 4000 bahasa.

Selain itu, Meta telah membina sistem teks ke pertuturan yang menyokong 1,100 bahasa. Data latihan untuk model teks-ke-ucapan semasa biasanya korpus pertuturan daripada satu pembesar suara. Satu batasan data MMS ialah banyak bahasa hanya mempunyai sebilangan kecil pembesar suara, selalunya satu pembesar suara. Walau bagaimanapun, ini menjadi kelebihan apabila membina sistem teks ke pertuturan, jadi Meta membina sistem TTS yang menyokong lebih daripada 1,100 bahasa. Penyelidik mengatakan kualiti pertuturan yang dihasilkan oleh sistem ini sebenarnya agak baik, dan beberapa contoh diberikan di bawah.

Demo model teks-ke-ucapan MMS untuk bahasa Yoruba, Iroko dan Maithili.

Walaupun begitu, penyelidik mengatakan bahawa teknologi AI masih belum sempurna, dan perkara yang sama berlaku untuk MMS. Sebagai contoh, MMS mungkin tersalah transkripsi perkataan atau frasa yang dipilih semasa pertuturan ke teks. Ini boleh mengakibatkan bahasa yang menyinggung dan/atau tidak tepat dalam output. Para penyelidik menekankan kepentingan bekerja dengan komuniti AI untuk membangun secara bertanggungjawab.

Nilai menyokong seribu perkataan dengan satu model

Banyak bahasa di seluruh dunia terancam, dan batasan pengecaman pertuturan dan teknologi penjanaan pertuturan semasa hanya akan mempercepatkan lagi trend ini. Pengkaji membayangkan dalam blog: Mungkin teknologi boleh menggalakkan orang ramai mengekalkan bahasa mereka sendiri, kerana dengan teknologi yang baik, mereka boleh menggunakan bahasa kegemaran mereka untuk mendapatkan maklumat dan menggunakan teknologi.

Mereka percaya projek MMS adalah langkah penting ke arah ini. Mereka juga berkata bahawa projek itu akan terus dibangunkan dan akan menyokong lebih banyak bahasa pada masa hadapan, malah akan menyelesaikan masalah dialek dan loghat.

Atas ialah kandungan terperinci Meta menggunakan Bible untuk melatih model super multi-bahasa: mengenali 1107 bahasa dan mengenal pasti 4017 bahasa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Yang terbaru dari Universiti Oxford! Mickey: Padanan imej 2D dalam SOTA 3D! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

Pautan projek ditulis di hadapan: https://nianticlabs.github.io/mickey/ Memandangkan dua gambar, pose kamera di antara mereka boleh dianggarkan dengan mewujudkan kesesuaian antara gambar. Biasanya, surat-menyurat ini adalah 2D hingga 2D, dan anggaran pose kami adalah skala-tak tentu. Sesetengah aplikasi, seperti realiti tambahan segera pada bila-bila masa, di mana-mana sahaja, memerlukan anggaran pose metrik skala, jadi mereka bergantung pada penganggar kedalaman luaran untuk memulihkan skala. Makalah ini mencadangkan MicKey, proses pemadanan titik utama yang mampu meramalkan korespondensi metrik dalam ruang kamera 3D. Dengan mempelajari padanan koordinat 3D merentas imej, kami dapat membuat kesimpulan relatif metrik

See all articles