Amalan teknologi suara Zuoyebang-AI-php.cn

Dalam persidangan teknologi kecerdasan buatan global AISummit yang dihoskan oleh 51CTO, Encik Wang Qiangqiang, ketua pasukan suara Zuoyebang, memimpin penonton Berikut adalah ucaptama "Amalan Teknologi Pertuturan Zuoyebang", yang mentafsir amalan teknologi pertuturan Zuoyebang dari tiga aspek: sintesis pertuturan, penilaian pertuturan dan pengecaman pertuturan Kandungan merangkumi pelaksanaan hujung ke hujung dalam pengecaman pertuturan, data yang cekap penggunaan, dan tinggi Membetulkan kesilapan sebutan pertuturan dalam senario serentak, serta meningkatkan keupayaan pembezaan faktor model dan anti-gangguan.

Untuk membolehkan lebih ramai pelajar yang berminat dalam teknologi suara memahami trend pembangunan semasa dan amalan teknikal teknologi suara yang canggih, kandungan ucapan guru Wang Qiangqiang kini disusun seperti berikut, dengan harapan dapat membawanya kepada anda Beberapa inspirasi.

1. Sintesis pertuturan

Sintesis pertuturan volum data kecil

Untuk teknologi sintesis pertuturan tradisional, ia akan mengambil masa sepuluh jam atau lebih untuk mensintesis sepenuhnya sesi rakaman yang panjang . Ini adalah cabaran besar untuk perakam, dan hanya sedikit orang yang dapat mengekalkan sebutan yang baik untuk masa yang lama. Melalui teknologi sintesis pertuturan volum data kecil, kita hanya perlu menggunakan berpuluh-puluh ayat dan beberapa minit pertuturan yang dituturkan oleh perakam untuk mencapai kesan sintesis pertuturan yang lengkap.

Teknologi sintesis pertuturan volum data kecil dibahagikan secara kasar kepada dua kategori. Kategori pertama adalah untuk situasi di mana anotasi dan pertuturan tidak sepadan Terdapat dua kaedah pemprosesan utama: satu ialah pembelajaran penyeliaan sendiri, yang menggunakan pembelajaran algoritma penyeliaan sendiri untuk mendapatkan surat-menyurat antara unit pemodelan dan audio, dan kemudian menggunakan. anotasi orang tertentu kepada Korpus ialah Finetune untuk mencapai kesan sintesis yang lebih baik yang kedua ialah mengenal pasti korpus tidak berlabel melalui ASR, dan menggunakan TTS untuk mensintesis dwi fungsi dan kaedah pembelajaran dwi untuk meningkatkan kesan sintesis TTS secara beransur-ansur.

Untuk pemadanan teks dan audio, kaedah pemprosesan utama juga dibahagikan kepada dua jenis: satu ialah membina model pra-latihan berbilang bahasa dengan korpus beranotasi. Yang lain adalah berdasarkan penyelesaian ini. Berbilang pembesar suara dalam bahasa yang sama dilatih dengan data beranotasi, dan Finetune dilakukan menggunakan data pembesar suara sasaran untuk mencapai kesan yang diingini.

Rangka kerja teknologi sintesis pertuturan

Amalan teknologi suara Zuoyebang

Rangka kerja teknologi sintesis pertuturan Zuoyebang menggunakan FastSpeech2 dalam bahagian fonem. FastSpeech2 mempunyai kelebihan utama kelajuan sintesis pantas Pada masa yang sama, FastSpeech2 juga menyepadukan Tempoh, Pitch dan Peramal Tenaga, yang boleh memberikan kami ruang kebolehoperasian yang lebih besar bagi pilihan vocoder, kerja rumah membantu pasukan suara memilih Multi -Band MelGAN digunakan kerana Multi-Band MelGAN mempunyai kesan sintesis yang baik dan sangat pantas.

Sintesis pertuturan berbilang pembesar suara

Selepas menentukan rangka kerja asas, perkara seterusnya yang perlu dilakukan ialah sintesis pertuturan berbilang pembesar suara. Idea biasa untuk sintesis pertuturan berbilang pembesar suara ialah menambah maklumat Pembenaman Pembesar Suara pada Pengekod, pelajari maklumat pembesar suara tertentu, dan kemudian gunakan model untuk melatih model sintesis pertuturan berbilang pembesar suara. Akhir sekali, gunakan pembesar suara khusus untuk melakukan beberapa Finetune yang mudah. Penyelesaian ini boleh memampatkan sepuluh jam keperluan rakaman kepada kira-kira satu jam, tetapi dalam praktiknya, masih sukar untuk mengumpul rakaman satu jam yang boleh memenuhi piawaian latihan model. Matlamat sintesis pertuturan data kecil pada asasnya adalah untuk menggunakan lebih sedikit bunyi untuk mensintesis bunyi yang agak baik.

Oleh itu, pasukan suara Zuoyebang belajar daripada penyelesaian yang menang dalam pertandingan M2VOC, dan akhirnya memilih gabungan Pembenam Pembesar Suara berasaskan D-Vector dan ECAPA, dan melakukan peningkatan tiga kali ganda, termasuk peningkatan Pembesaran Pembesar Suara ; menggunakan FastSpeech2 Transformer dinaik taraf kepada Conformer dan maklumat Speaker ditambahkan pada LayerNorm.

2. Penilaian Suara

Rangka Kerja Teknikal untuk Penilaian Suara

Amalan teknologi suara Zuoyebang

Rangka kerja teknologi asas untuk penilaian suara Zuoyebang pada asasnya berdasarkan GOP pemarkahan Tentukan seberapa baik pengguna menyebut perkataan atau ayat. Tetapi dari segi model, ia telah dinaik taraf kepada Conformer dan CGC+ berasaskan perhatian, proses latihan model hujung ke hujung yang lengkap. GOP sangat bergantung pada bunyi dan fonem, iaitu tahap penjajaran unit pemodelan, jadi apabila melatih model, kami menambah maklumat penjajaran korpus yang diperoleh melalui model GMM. Melalui model yang diperakui sepenuhnya dan maklumat sepadan yang diselaraskan, model yang sangat berkesan boleh dilatih dengan menggabungkan kekuatan kedua-duanya memastikan bahawa skor GOP adalah agak tepat.

Masalah & titik kesakitan sistem penilaian

Senario penilaian secara semula jadi sensitif terhadap kelewatan, jadi kelewatan dan rangkaian adalah dua isu utama dalam pelaksanaan sistem penilaian GOP. Jika kependaman adalah tinggi dan prestasi masa nyata adalah lemah, keseluruhan pengalaman pengguna akan sangat terjejas. Di samping itu, jika terdapat masalah dengan rangkaian dan persekitaran rangkaian pengguna berubah-ubah, ditambah pula dengan kelewatan rangkaian, adalah mudah untuk masa pewarnaan yang dirasakan pengguna melebihi satu saat, yang akan menyebabkan perasaan genangan yang sangat jelas, menjejaskan dengan serius. keseluruhan kesan kursus.

Algoritma Arah Penyelesaian

Untuk masalah di atas, masalah kelewatan dan ingatan berlebihan boleh diselesaikan secara algoritma melalui Chunk Mask. Chunk melihat sehingga dua bingkai ke hadapan dan sehingga lima bingkai ke belakang, dan masalah kelewatan telah diselesaikan.

Apabila algoritma sebenar diuji dalam amalan, kelewatan kerasnya hanya kira-kira 50 milisaat, yang bermaksud perkataan itu akan diaktifkan pada dasarnya 50 milisaat adalah sangat pantas dalam persepsi manusia. Jadi sekurang-kurangnya pada peringkat algoritma, masalah kelewatan sukar diselesaikan. Ini adalah peringkat pertama kerja yang kami lakukan.

Platform Bersepadu Arah-Peranti-Cloud Penyelesaian

Amalan teknologi suara Zuoyebang

Platform bersepadu awan peranti boleh menyelesaikan masalah yang disebabkan oleh konkurensi tinggi dan penghantaran rangkaian. Platform ini secara automatik boleh menentukan sama ada telefon mudah alih pengguna mempunyai kuasa pengkomputeran yang mencukupi. Jika mencukupi, ulasan tempatan akan diutamakan. Jika kuasa pengkomputeran tidak mencukupi, permintaan akan dihantar ke awan, dan awan akan melakukan penilaian. Jika terdapat sebarang masalah secara tempatan, kitaran hayatnya juga dikawal.

Melalui penyelesaian ini, kami telah menyelesaikan masalah yang disebabkan oleh konkurensi tinggi serta-merta Memandangkan sebahagian daripada kuasa pengkomputeran dipindahkan ke penghujung, awan hanya perlu mengekalkan 20% mesin asal untuk mencapai operasi biasa. Ini Sangat menjimatkan sumber. Di samping itu, selepas menyetempatkan algoritma, masalah kelewatan juga telah diselesaikan, yang boleh memberikan sokongan yang baik untuk tugas penilaian berskala besar dan membawa pengguna pengalaman audio-visual yang lebih baik.

Pembetulan ralat sebutan

Latar belakang permintaan untuk pembetulan ralat sebutan ialah isu kontekstual dan kekurangan sumber pendidikan Begitu juga, titik kesakitan ini boleh diselesaikan menggunakan teknologi penilaian. Dengan mengoptimumkan teknologi penilaian, kita boleh menentukan sama ada sebutan itu betul dan mengenal pasti di mana terdapat masalah dengan sebutan.

Dari segi pemilihan teknologi, walaupun sistem penilaian adalah skim penilaian yang stabil berdasarkan GOP, skema GOP sangat bergantung pada penjajaran unit audio dan pemodelan Jika masa mula tidak tepat, sisihan akan menjadi agak besar Diskriminasi akan menjadi lebih teruk. Oleh itu, pelan asal tidak sesuai untuk senario pembetulan bunyi seperti ini. Selain itu, idea GOP adalah menggunakan beberapa pengetahuan pakar untuk membetulkan dan membimbing sebutan Hilang dan menambah sebutan dalam membetulkan sebutan akan menjadi sangat menyakitkan untuk GOP berurusan dan memerlukan terlalu banyak sokongan manual. Ini memerlukan penyelesaian yang lebih fleksibel, jadi kami akhirnya memilih penyelesaian ASR untuk pembetulan ralat sebutan.

Kelebihan besar skim ASR ialah proses latihan yang mudah dan tidak memerlukan terlalu banyak maklumat penjajaran. Walaupun sebutan itu salah, ia tidak akan banyak memberi kesan kepada diskriminasi fonem kontekstual. ASR mengendalikan bacaan tambahan dan bacaan yang terlepas, dan mempunyai kelebihan teori dan teknikal semula jadi. Jadi kami akhirnya memilih model ASR hujung ke hujung tulen sebagai asas teknikal untuk pembetulan ralat sebutan kami.

Pada masa yang sama, Zuoyebang juga telah melakukan beberapa kerja pengoptimuman dan inovasi atas dasar ini. Pertama, maklumat teks priori ditambah kepada latihan model melalui modul Perhatian kedua, ralat disimulasikan melalui penggantian rawak untuk melatih model supaya ia mempunyai keupayaan pembetulan ralat ketiga, kerana model tidak cukup dibezakan, kami Ralat berlapis , dan beberapa ralat kecil tidak akan dinilai salah. Melalui penyelesaian di atas, kadar penggera palsu akhirnya dikurangkan dengan ketara, sambil memastikan bahawa kehilangan kadar penarikan balik tidak begitu besar, dan kadar ketepatan diagnosis juga dipertingkatkan.

3. Pengecaman pertuturan

Rangka kerja teknologi pengecaman pertuturan

Rangka kerja teknologi pengecaman pertuturan Zuoyebang ialah rangka kerja pengecaman pertuturan hujung ke hujung, berbanding dengan HMM-GMM/ DNN Penyelesaian mempunyai kelebihan yang sangat jelas: pertama, ia mengelakkan banyak operasi pengelompokan yang kompleks dan operasi penjajaran kedua, proses latihan adalah lebih mudah ketiga, rangka kerja hujung-ke-hujung tidak memerlukan kamus sebutan keempat; boleh belajar pada masa yang sama Untuk maklumat fonem dan maklumat urutan, ia adalah setara dengan pembelajaran model akustik dan model bahasa bersama-sama.

Amalan teknologi suara Zuoyebang

Sudah tentu, kelemahannya juga jelas adalah sukar bagi model hujung ke hujung untuk menggunakan lebih banyak data pertuturan atau teks pada permulaan, dan kosnya korpus pelabelan adalah sangat tinggi. Keperluan kami ialah pemilihan dalaman mesti mencapai matlamat untuk mempunyai model generasi hujung ke hujung, mengikuti algoritma terkini dan dapat menggabungkan maklumat model korpus.

Algoritma sistem pengecaman pertuturan

Amalan teknologi suara Zuoyebang

Apabila bercakap tentang CTC-CRF, anda perlu mengetahui CTC terlebih dahulu. CTC dilahirkan untuk memodelkan keseluruhan ayat Selepas kemunculan CTC, melatih model akustik keseluruhan ayat tidak lagi memerlukan penjajaran antara fonem dan audio. Topologi CTC, di satu pihak, memperkenalkan Blank untuk menyerap senyap, yang boleh menyerap senyap di luar unit pemodelan berkesan sebenar. Sebaliknya, apabila ia mengira kebarangkalian keseluruhan ayat, ia menggunakan algoritma pengaturcaraan dinamik berdasarkan π untuk mengekalkan laluan keseluruhan ayat dalam skala yang agak munasabah, yang boleh mengurangkan jumlah pengiraan. Ini adalah kerja yang sangat hebat oleh CTC.

Amalan teknologi suara Zuoyebang

Sistem pengecaman pertuturan CTC-CRF yang digunakan secara dalaman oleh Zuoyebang. Fahami formula dan muatkan kebarangkalian keseluruhan ayat melalui CRF. Kebarangkalian keseluruhan ayat ialah urutan yang inputnya ialah X dan outputnya ialah π (π diwakili oleh topologi CTC di atas), jadi ia dipanggil CTC-CRF.

Perkara yang paling penting tentang CRF ialah fungsi berpotensi dan keseluruhan perancangan fungsi berpotensi. Fungsi potensi ialah kebarangkalian bersyarat bahawa input ialah X dan output ialah πt, ditambah dengan kebarangkalian keseluruhan ayat Mereka sebenarnya sepadan dengan nod dan tepi dalam CRF.

Amalan teknologi suara Zuoyebang

CTC-CRF agak berbeza daripada idea model akustik yang biasa digunakan. Model akustik yang biasa digunakan termasuk empat DNN-HMM, CTC, RNNT dan AED berikut.

Model kebarangkalian bersyarat asas bagi RNNT ialah kebarangkalian input X dan output Y. Matlamat pemasangan ialah maxθ dan parameternya untuk memaksimumkan kebarangkalian ini.

CTC ditunjukkan dalam rajah Satu andaian CTC adalah jelas, iaitu andaian kebebasan bersyarat Tiada hubungan antara keadaannya dan hubungan kebarangkalian bersyarat antara mereka tidak dipertimbangkan.

RNNT mempertimbangkan kebarangkalian bersyarat bagi keadaan semasa dan semua keadaan sejarah, seperti yang dapat dilihat dengan jelas dalam rajah. Perkara yang sama berlaku untuk AED, yang mempertimbangkan kebarangkalian bersyarat bagi keadaan semasa dan keadaan sejarah.

Tetapi CTC-CRF sebenarnya bukanlah model penormalan tempatan berdasarkan kebarangkalian bersyarat. Ia adalah model penormalan keseluruhan ayat dan model penormalan global. Jadi kita melihat bahawa ia bukan sahaja bergantung pada sejarah, tetapi juga pada masa depan Ia sebenarnya boleh mempertimbangkan maklumat kebarangkalian keseluruhan ayat. Ini adalah perbezaan teori terbesar mereka.

Amalan teknologi suara Zuoyebang

Kami menggunakan CTC-CRF terlebih dahulu dalam lapisan Loss, yang merupakan Pengekod dan Penyahkod standard yang sedang digunakan, dan kemudian menambah CTC-CRF dan Loss untuk melatih Model akustik, tamat -proses model akustik hingga akhir. Lapisan Loss menggunakan CTC-CRF Loss dan bukannya CTC Loss asal. CTC-CRF dimodelkan pada peringkat Telefon, tetapi di Attention, Perhatian kami dibuat dengan mengambil kira pemodelan peringkat Word. Dua ciri tahap Telefon dan Word digunakan untuk melatih model.

Amalan teknologi suara Zuoyebang

Akhir sekali, mengenai kesan khusus, ini adalah kesan beberapa alatan sumber terbuka pada set ujian Aishell1, dan bilangan parameter juga ditandakan. Ia boleh dilihat bahawa yang berasaskan CTC-CRF mempunyai kelebihan yang agak.

Dengan algoritma, kesan teori juga sangat baik Melihat dari segi perniagaan, sisi perniagaan masih berbeza, tetapi semua pihak perniagaan mempunyai daya tarikan yang sama, iaitu untuk mencapai kecekapan yang optimum. Untuk menyelesaikan masalah ini, terdapat penyelesaian kata panas. Penyelesaian perkataan panas dapat menyelesaikan masalah ini dengan sempurna dan dengan cepat mengenal pasti perkataan yang ingin dikenal pasti oleh pihak perniagaan.

Amalan teknologi suara Zuoyebang

Penyelesaian kata panas yang biasa dilakukan ialah menambahkan graf kata panas yang dikembangkan pada TLG. Gambar di atas ialah gambarajah penyahkodan WFST bagi Ngram tiga peringkat biasa Garis pepejal mewakili kebarangkalian bersyarat dan garis putus-putus ialah kebarangkalian mundur.

Amalan teknologi suara Zuoyebang

Penyelesaian Zhuoyebang ialah penyelesaian perkataan panas berdasarkan automata awalan Ini kerana skala perkataan panas adalah sangat besar yang akan mewujudkan kesesakan kecekapan. Ia sangat sesuai menggunakan automata awalan untuk menyelesaikan masalah padanan rentetan berbilang corak, terutamanya untuk rentetan yang memukul, menutup atau menutup perkataan panas dalam senarai perkataan panas. Urutan seperti sher merangkumi dua perkataan panas, iaitu dia dan dia Dalam skema automaton awalan ini, selepas mendapatkan dia, anda boleh melompat terus kepadanya, dan anda boleh mencari berbilang perkataan panas yang terkandung dalam rentetan. Kesimpulannya ialah penyelesaian ini cukup pantas dan boleh menjimatkan sedikit ruang storan.

Amalan teknologi suara Zuoyebang

Terdapat juga beberapa masalah apabila penyelesaian ini digunakan sebenarnya. Membina pokok awalan masih memerlukan melintasi keseluruhan pokok awalan, yang agak mahal. Kerana perkataan panas perlu ditambah dalam masa nyata, ia boleh ditambah pada bila-bila masa dan berkuat kuasa pada bila-bila masa. Untuk menyelesaikan masalah ini, kami akhirnya membuat satu atau dua pokok, satu adalah pokok awalan biasa, dan satu lagi adalah automaton awalan Iaitu, perkataan panas pengguna ditambahkan pada pokok awalan biasa kesan serta-merta, yang bersamaan dengan berada dalam talian pada bila-bila masa , kata-kata panas boleh diaktifkan. Selepas melebihi ambang, automaton awalan akan dibina secara automatik, dengan itu pada asasnya memenuhi permintaan sekumpulan pengguna.

4. Ringkasan

Terutamanya melalui tiga arah, satu hingga dua mata dalam setiap arah Kaedah penyahsulitan teknologi ini menyelesaikan pelaksanaan teknologi suara Zuoyebang dan proses pelaksanaan semasa pelaksanaan dihadapi, dan bagaimana akhirnya menghasilkan penyelesaian yang secara relatifnya boleh memenuhi keperluan pihak perniagaan.

Tetapi sebagai tambahan kepada tiga mata ini, kumpulan suara juga telah mengumpul banyak kebolehan atom suara. Tahap penilaian adalah sangat terperinci, malah peningkatan bacaan, bacaan hilang, bacaan berterusan, bersuara, loghat, naik dan turun intonasi semuanya dilakukan. Pengiktirafan juga menambah pengiktirafan bercampur bahasa Cina dan Inggeris, cap suara, pengurangan hingar dan diskriminasi umur.

Dengan keupayaan atom ini, tahap algoritma boleh menyokong dan melayani bahagian perniagaan dengan lebih mudah.

Pengenalan tetamu:

Wang Qiangqiang, ketua pasukan teknologi pertuturan Zuoyebang. Sebelum menyertai Zuoyebang, beliau bekerja di Makmal Pemprosesan Pertuturan dan Perisikan Mesin Jabatan Kejuruteraan Elektronik di Universiti Tsinghua, di mana beliau bertanggungjawab untuk melaksanakan algoritma pengecaman pertuturan dan membina penyelesaian gred industri. Menyertai Zuoyebang pada tahun 2018 dan bertanggungjawab untuk penyelidikan dan pelaksanaan algoritma yang berkaitan dengan pertuturan Beliau telah mengetuai pelaksanaan pengecaman pertuturan, penilaian, sintesis dan algoritma lain di Zuoyebang, menyediakan syarikat dengan set penyelesaian teknologi suara yang lengkap.

Atas ialah kandungan terperinci Amalan teknologi suara Zuoyebang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7526

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Jun 28, 2024 am 03:51 AM

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Pembantu pengekodan AI yang ditambah konteks menggunakan Rag dan Sem-Rag Jun 10, 2024 am 11:08 AM

Tingkatkan produktiviti, kecekapan dan ketepatan pembangun dengan menggabungkan penjanaan dipertingkatkan semula dan memori semantik ke dalam pembantu pengekodan AI. Diterjemah daripada EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG, pengarang JanakiramMSV. Walaupun pembantu pengaturcaraan AI asas secara semulajadi membantu, mereka sering gagal memberikan cadangan kod yang paling relevan dan betul kerana mereka bergantung pada pemahaman umum bahasa perisian dan corak penulisan perisian yang paling biasa. Kod yang dijana oleh pembantu pengekodan ini sesuai untuk menyelesaikan masalah yang mereka bertanggungjawab untuk menyelesaikannya, tetapi selalunya tidak mematuhi piawaian pengekodan, konvensyen dan gaya pasukan individu. Ini selalunya menghasilkan cadangan yang perlu diubah suai atau diperhalusi agar kod itu diterima ke dalam aplikasi

Bolehkah penalaan halus benar-benar membolehkan LLM mempelajari perkara baharu: memperkenalkan pengetahuan baharu boleh menjadikan model menghasilkan lebih banyak halusinasi Jun 11, 2024 pm 03:57 PM

Model Bahasa Besar (LLM) dilatih pada pangkalan data teks yang besar, di mana mereka memperoleh sejumlah besar pengetahuan dunia sebenar. Pengetahuan ini dibenamkan ke dalam parameter mereka dan kemudiannya boleh digunakan apabila diperlukan. Pengetahuan tentang model ini "diperbaharui" pada akhir latihan. Pada akhir pra-latihan, model sebenarnya berhenti belajar. Selaraskan atau perhalusi model untuk mempelajari cara memanfaatkan pengetahuan ini dan bertindak balas dengan lebih semula jadi kepada soalan pengguna. Tetapi kadangkala pengetahuan model tidak mencukupi, dan walaupun model boleh mengakses kandungan luaran melalui RAG, ia dianggap berfaedah untuk menyesuaikan model kepada domain baharu melalui penalaan halus. Penalaan halus ini dilakukan menggunakan input daripada anotasi manusia atau ciptaan LLM lain, di mana model menemui pengetahuan dunia sebenar tambahan dan menyepadukannya

Tujuh Soalan Temuduga Teknikal GenAI & LLM yang Cool Jun 07, 2024 am 10:06 AM

Untuk mengetahui lebih lanjut tentang AIGC, sila layari: 51CTOAI.x Komuniti https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou berbeza daripada bank soalan tradisional yang boleh dilihat di mana-mana sahaja di Internet memerlukan pemikiran di luar kotak. Model Bahasa Besar (LLM) semakin penting dalam bidang sains data, kecerdasan buatan generatif (GenAI) dan kecerdasan buatan. Algoritma kompleks ini meningkatkan kemahiran manusia dan memacu kecekapan dan inovasi dalam banyak industri, menjadi kunci kepada syarikat untuk kekal berdaya saing. LLM mempunyai pelbagai aplikasi Ia boleh digunakan dalam bidang seperti pemprosesan bahasa semula jadi, penjanaan teks, pengecaman pertuturan dan sistem pengesyoran. Dengan belajar daripada sejumlah besar data, LLM dapat menjana teks

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Lima sekolah pembelajaran mesin yang anda tidak tahu Jun 05, 2024 pm 08:51 PM

Pembelajaran mesin ialah cabang penting kecerdasan buatan yang memberikan komputer keupayaan untuk belajar daripada data dan meningkatkan keupayaan mereka tanpa diprogramkan secara eksplisit. Pembelajaran mesin mempunyai pelbagai aplikasi dalam pelbagai bidang, daripada pengecaman imej dan pemprosesan bahasa semula jadi kepada sistem pengesyoran dan pengesanan penipuan, dan ia mengubah cara hidup kita. Terdapat banyak kaedah dan teori yang berbeza dalam bidang pembelajaran mesin, antaranya lima kaedah yang paling berpengaruh dipanggil "Lima Sekolah Pembelajaran Mesin". Lima sekolah utama ialah sekolah simbolik, sekolah sambungan, sekolah evolusi, sekolah Bayesian dan sekolah analogi. 1. Simbolisme, juga dikenali sebagai simbolisme, menekankan penggunaan simbol untuk penaakulan logik dan ekspresi pengetahuan. Aliran pemikiran ini percaya bahawa pembelajaran adalah proses penolakan terbalik, melalui sedia ada

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Jul 17, 2024 pm 06:37 PM

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

SK Hynix akan memaparkan produk berkaitan AI baharu pada 6 Ogos: HBM3E 12 lapisan, NAND 321 tinggi, dsb. Aug 01, 2024 pm 09:40 PM

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas

See all articles