Jadual Kandungan
1. Pengenalan latar belakang
2. Pembelajaran Perwakilan MSMC VQ-VAE
3. Pemodelan akustik MSMC-TTS
4. Keputusan eksperimen
5. Ringkasan
6. Maklumat Pengarang
Rumah Peranti teknologi AI Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Apr 13, 2023 am 11:10 AM
pembelajaran yang mendalam sintesis pertuturan

Pasukan Algoritma Pintar Multimedia Xiaohongshu dan Universiti China Hong Kong bersama-sama mencadangkan skim sintesis pertuturan berprestasi tinggi MSMC-TTS berdasarkan perwakilan pertuturan padat buku kod berbilang peringkat untuk kali pertama. Penganalisis ciri berdasarkan pengekod auto variasi terkuantiti vektor (VQ-VAE) menggunakan beberapa buku kod untuk mengekod ciri akustik secara berperingkat untuk membentuk satu set jujukan terpendam dengan resolusi temporal yang berbeza. Urutan terpendam ini boleh diramalkan daripada teks oleh peramal berbilang peringkat dan ditukar kepada audio sasaran oleh vocoder saraf. Berbanding dengan sistem garis dasar Fastspeech berasaskan Mel-Spectrogram, penyelesaian ini mempunyai peningkatan ketara dalam kualiti bunyi dan semula jadi. Kerja ini kini telah diringkaskan ke dalam kertas kerja "Pendekatan VQ-VAE Multi-Stage Multi-Codebook VQ-VAE to High-Performance Neural TTS" dan telah diterima oleh persidangan domain pertuturan INTERSPEECH 2022.

1. Pengenalan latar belakang

Text-to-Speech (TTS) ialah teknologi yang menukar teks kepada pertuturan Ia digunakan secara meluas dalam pengalih suara video dan penciptaan kandungan audio dan video -interaksi komputer dan produk lain. Teknologi pemodelan akustik bahagian belakang sistem sintesis pertuturan arus perdana biasanya merangkumi tiga bahagian: pengekstrak ciri, model akustik dan vocoder. TTS biasanya melakukan pemodelan akustik pada ciri akustik yang diperoleh berdasarkan pemprosesan isyarat (seperti Mel Spectrogram Walau bagaimanapun, terhad oleh keupayaan pemasangan model, terdapat perbezaan tertentu dalam pengedaran antara ciri akustik yang diramalkan dan data sebenar This This). menyukarkan vocoder yang dilatih pada data sebenar untuk menjana audio berkualiti tinggi daripada ciri yang diramalkan.


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Rajah rangka kerja sistem TTS


Untuk menangani masalah ini, ahli akademik penggunaan komuniti Struktur model yang lebih kompleks dan algoritma generatif yang lebih baru digunakan untuk mengurangkan ralat ramalan dan perbezaan pengedaran. Kerja ini mengambil pendekatan yang berbeza, mengambil perwakilan ucapan padat sebagai titik permulaan untuk mempertimbangkan masalah. Untuk sintesis pertuturan, 1) kekompakan ciri akustik yang baik dapat memastikan hasil ramalan model yang lebih tepat dan penjanaan bentuk gelombang yang lebih mantap 2) kesempurnaan ciri akustik yang baik dapat memastikan pembinaan semula isyarat pertuturan yang lebih baik. Berdasarkan kedua-dua pertimbangan ini, kertas kerja ini mencadangkan untuk menggunakan autoenkoder variasi kuantisasi vektor (VQ-VAE) untuk melombong perwakilan padat yang lebih baik daripada data sasaran.

2. Pembelajaran Perwakilan MSMC VQ-VAE

VQ-VAE termasuk pengekod dan penyahkod. Pengekod memproses jujukan ciri akustik input ke dalam jujukan terpendam dan mengkuantisasikannya menggunakan buku kod yang sepadan. Penyahkod memulihkan urutan terkuantasi kepada urutan ciri akustik asal. Urutan terkuantasi ini mempunyai kekompakan yang lebih baik (kurang bilangan parameter ciri) sebagai perwakilan diskret. Semakin tinggi tahap pengkuantitian, iaitu, semakin kecil kapasiti buku kod, semakin tinggi kekompakan ciri. Tetapi ini juga mengakibatkan pemampatan maklumat, menjadikan kesempurnaan ciri lebih teruk. Untuk memastikan kesempurnaan yang mencukupi, lebih banyak kata kod biasanya digunakan. Walau bagaimanapun, apabila kapasiti buku kod meningkat, jumlah data yang diperlukan untuk kemas kini buku kod dan bilangan masa latihan akan meningkat secara eksponen, yang menyukarkan VQ-VAE untuk meningkatkan kesempurnaan perwakilan secara berkesan dengan meningkatkan buku kod. Untuk menangani masalah ini, makalah ini mencadangkan kaedah pengkuantitian vektor berbilang kepala (MHVQ).


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Rajah struktur model VQ-VAE


MHVQ akan menjadi satu buku kod Ia dibahagikan kepada beberapa buku kod kecil mengikut arah dimensi ciri. Semasa pengkuantitian, setiap vektor input dipotong sama kepada beberapa sub-vektor, masing-masing dikuantisasi dengan buku kod yang sepadan, dan akhirnya disambung menjadi vektor keluaran. Dengan cara ini, kami boleh meningkatkan penggunaan buku kod dan kapasiti perwakilan dengan lebih berkesan tanpa meningkatkan jumlah parameter buku kod. Contohnya, untuk mengurangkan kadar mampatan dengan faktor 1, kata kod mesti ditingkatkan kepada kuasa dua nombor buku kod asal. Selepas menggunakan MHVQ, kadar mampatan yang sama boleh dicapai dengan hanya membahagikan buku kod kepada dua bahagian. Oleh itu, kaedah ini boleh mengawal kesempurnaan perwakilan kuantitatif dengan lebih berkesan.


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Gambar rajah contoh MHVQ


Selain itu, apabila mengkuantisasi urutan pertuturan , semua jenis maklumat yang terkandung dalam ciri pertuturan hilang ke tahap yang berbeza-beza. Maklumat ini berbeza dalam butiran masa, seperti timbre berbutir kasar, gaya sebutan, dsb., dan pic berbutir halus, butiran sebutan, dsb. Maklumat yang terlalu memampatkan pada sebarang skala masa boleh menyebabkan beberapa tahap kemerosotan dalam kualiti pertuturan. Untuk mengurangkan masalah ini, kerja ini mencadangkan kaedah pemodelan pertuturan skala berbilang masa. Seperti yang ditunjukkan dalam rajah, jujukan ciri akustik dikodkan secara berperingkat kepada skala masa yang berbeza melalui beberapa pengekod, dan kemudian dikuantisasi lapisan demi lapisan melalui penyahkod, penyahkodan untuk mendapatkan beberapa jujukan terkuantisasi dengan resolusi masa yang berbeza. Perwakilan yang terdiri daripada set jujukan jenis ini ialah perwakilan buku kod berbilang peringkat yang dicadangkan dalam kerja ini.


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Gambar rajah contoh pemodelan berbilang peringkat


3. Pemodelan akustik MSMC-TTS

Untuk pelbagai peringkat Multi-codebook mencirikan MSMCR, dan kertas ini mencadangkan sistem TTS yang sepadan, iaitu sistem MSMC-TTS. Sistem ini merangkumi tiga bahagian: analisis, sintesis dan ramalan. Dalam latihan sistem, sistem terlebih dahulu melatih modul analisis. Audio dalam set latihan ditukar kepada ciri akustik berkelengkapan tinggi (seperti ciri Mel-Spectrogram yang digunakan dalam kerja ini) selepas pemprosesan isyarat. Ciri akustik ini digunakan untuk melatih penganalisis ciri berdasarkan MSMC-VQ-VAE Pada akhir latihan, ia ditukar kepada MSMCR yang sepadan, dan kemudian model akustik dan vocoder saraf dilatih. Semasa penyahkodan, sistem menggunakan model akustik untuk meramalkan MSMCR daripada teks dan kemudian menggunakan vocoder saraf untuk menghasilkan audio sasaran.


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Rajah rangka kerja sistem MSMC-TTS


Kerja ini juga mencadangkan Peramal pelbagai peringkat untuk menyesuaikan pemodelan MSMCR. Model ini dilaksanakan berdasarkan FastSpeech, tetapi berbeza pada bahagian penyahkod. Model mula-mula mengekod teks dan menambah sampel teks berdasarkan maklumat jangka masa yang diramalkan. Urutan itu kemudiannya diturunkan sampel kepada setiap resolusi masa yang sepadan dengan MSMCR. Urutan ini akan dinyahkod dan dikuantisasikan langkah demi langkah daripada resolusi rendah kepada resolusi tinggi oleh penyahkod yang berbeza. Pada masa yang sama, jujukan terkuantisasi resolusi rendah dihantar ke penyahkod peringkat seterusnya untuk membantu ramalan. Akhirnya, MSMCR yang diramalkan dimasukkan ke dalam vocoder saraf untuk menjana audio sasaran.


Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Rajah struktur peramal berbilang peringkat


Untuk peramal pelbagai peringkat Apabila melakukan latihan dan inferens, kerja ini memilih untuk meramalkan secara langsung perwakilan sasaran dalam ruang berterusan. Kaedah ini boleh mengambil kira hubungan jarak antara vektor dan kata kod dengan lebih baik dalam ruang selanjar linear. Selain fungsi kehilangan MSE yang biasa digunakan untuk pemodelan TTS, kriteria latihan juga menggunakan "kehilangan triplet" untuk memaksa vektor ramalan menjauhi kata kod bukan sasaran dan lebih dekat dengan kata kod sasaran. Dengan menggabungkan dua istilah fungsi kehilangan, model dapat meramalkan kata kod sasaran dengan lebih baik.

4. Keputusan eksperimen

Kerja ini dijalankan pada set data penutur tunggal bahasa Inggeris Nancy (Blizzard Challenge 2011). Kami menganjurkan ujian skor pendapat subjektif (MOS) untuk menilai kesan sintesis MSMC-TTS. Keputusan eksperimen menunjukkan bahawa apabila rakaman asal ialah 4.50 mata, skor MSMC-TTS ialah 4.41 mata, dan sistem garis dasar Mel-FS (FastSpeech berasaskan Mel-Spectrogram) ialah 3.62 mata. Kami menala vokoder sistem garis dasar agar sepadan dengan ciri keluaran Mel-FS, dan hasilnya ialah 3.69 mata. Hasil perbandingan ini membuktikan peningkatan ketara sistem TTS yang dicadangkan oleh kaedah yang dicadangkan dalam artikel ini.

Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

Selain itu, kami terus membincangkan kesan kerumitan pemodelan terhadap prestasi TTS. Bilangan parameter model berkurangan secara eksponen daripada M1 kepada M3, dan kesan sintesis Mel-FS menurun kepada 1.86 mata. Sebaliknya, untuk MSMC-TTS, pengurangan bilangan parameter tidak mempunyai kesan yang ketara ke atas kualiti sintesis. Apabila saiz parameter model akustik ialah 3.12 MB, MOS masih boleh mengekalkan 4.47 mata. Ini bukan sahaja menunjukkan keperluan kerumitan rendah pemodelan MSMC-TTS berdasarkan ciri padat, tetapi juga menunjukkan potensi kaedah ini untuk digunakan pada sistem TTS ringan.

Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat


Akhir sekali, kami menjalankan perbandingan MSMC-TTS berdasarkan MSMCR yang berbeza untuk meneroka kesan MHVQ dan pemodelan pelbagai peringkat pada TTS . Antaranya, sistem V1 menggunakan perwakilan buku kod tunggal peringkat, sistem V2 menggunakan kuantiti vektor 4 kepala berdasarkan V1, dan sistem V3 menggunakan pemodelan dua peringkat berdasarkan V2. Pertama, perwakilan yang digunakan oleh sistem V1 mempunyai nisbah mampatan ciri tertinggi, tetapi mempamerkan kesempurnaan terendah dalam eksperimen sintesis analisis dan kualiti sintesis paling teruk dalam eksperimen TTS. Selepas MHVQ mempertingkatkan kesempurnaan, sistem V2 juga telah dipertingkatkan dengan ketara dalam kesan TTS. Walaupun perwakilan berbilang peringkat yang digunakan oleh V3 tidak menunjukkan peningkatan lagi dalam kesempurnaan, ia menunjukkan hasil terbaik pada TTS, dengan peningkatan ketara dalam kedua-dua keaslian berirama dan kualiti audio. Ini seterusnya menunjukkan bahawa pemodelan pelbagai peringkat dan pengekalan maklumat berbilang skala adalah sangat penting dalam MSMC-TTS.

Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat

5. Ringkasan

Kerja ini mencadangkan kaedah pemodelan TTS (MSMC-TTS) berprestasi tinggi baharu dari perspektif mengkaji perwakilan pertuturan padat. Sistem ini mengekstrak perwakilan buku kod berbilang peringkat daripada audio sebagai ganti ciri akustik tradisional. Teks input boleh ditukar kepada perwakilan pertuturan ini yang terdiri daripada berbilang jujukan dengan resolusi temporal yang berbeza oleh peramal berbilang peringkat dan ditukar kepada isyarat pertuturan sasaran oleh vocoder saraf. Keputusan eksperimen menunjukkan bahawa berbanding dengan sistem FastSpeech arus perdana berdasarkan Mel-Spectrogram, sistem ini mempamerkan kualiti sintesis yang lebih baik dan keperluan yang lebih rendah untuk kerumitan pemodelan.

6. Maklumat Pengarang

Guo Haohan: Pelatih dalam Pasukan Algoritma Pintar Multimedia Xiaohongshu. Beliau lulus dari Universiti Politeknik Barat Laut dengan ijazah sarjana muda dan belajar di makmal ASLP di bawah Profesor Xie Lei. Pada masa ini, beliau sedang belajar untuk Ph.D di Makmal HCCL Universiti Cina Hong Kong, belajar di bawah Profesor Meng Meiling. Setakat ini, sebagai pengarang pertama, enam kertas kerja telah diterbitkan di ICASSP, INTERSPEECH, dan persidangan ucapan antarabangsa SLT.

Xie Fenglong: Ketua teknologi suara Pasukan Algoritma Pintar Multimedia Xiaohongshu. Beliau telah menerbitkan lebih daripada sepuluh kertas dalam persidangan ucapan dan jurnal seperti ICASSP, INTERSPEECH, dan SPEECHCOM.

Atas ialah kandungan terperinci Cara membina sistem sintesis pertuturan berprestasi tinggi dengan perwakilan pertuturan padat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Kaedah dan langkah untuk menggunakan BERT untuk analisis sentimen dalam Python Kaedah dan langkah untuk menggunakan BERT untuk analisis sentimen dalam Python Jan 22, 2024 pm 04:24 PM

BERT ialah model bahasa pembelajaran mendalam pra-latihan yang dicadangkan oleh Google pada 2018. Nama penuh ialah BidirectionalEncoderRepresentationsfromTransformers, yang berdasarkan seni bina Transformer dan mempunyai ciri pengekodan dwiarah. Berbanding dengan model pengekodan sehala tradisional, BERT boleh mempertimbangkan maklumat kontekstual pada masa yang sama semasa memproses teks, jadi ia berfungsi dengan baik dalam tugas pemprosesan bahasa semula jadi. Dwiarahnya membolehkan BERT memahami dengan lebih baik hubungan semantik dalam ayat, dengan itu meningkatkan keupayaan ekspresif model. Melalui kaedah pra-latihan dan penalaan halus, BERT boleh digunakan untuk pelbagai tugas pemprosesan bahasa semula jadi, seperti analisis sentimen, penamaan.

Analisis fungsi pengaktifan AI yang biasa digunakan: amalan pembelajaran mendalam Sigmoid, Tanh, ReLU dan Softmax Analisis fungsi pengaktifan AI yang biasa digunakan: amalan pembelajaran mendalam Sigmoid, Tanh, ReLU dan Softmax Dec 28, 2023 pm 11:35 PM

Fungsi pengaktifan memainkan peranan penting dalam pembelajaran mendalam Ia boleh memperkenalkan ciri tak linear ke dalam rangkaian saraf, membolehkan rangkaian belajar dengan lebih baik dan mensimulasikan hubungan input-output yang kompleks. Pemilihan dan penggunaan fungsi pengaktifan yang betul mempunyai kesan penting terhadap prestasi dan hasil latihan rangkaian saraf Artikel ini akan memperkenalkan empat fungsi pengaktifan yang biasa digunakan: Sigmoid, Tanh, ReLU dan Softmax, bermula dari pengenalan, senario penggunaan, kelebihan, kelemahan dan penyelesaian pengoptimuman Dimensi dibincangkan untuk memberi anda pemahaman yang menyeluruh tentang fungsi pengaktifan. 1. Fungsi Sigmoid Pengenalan kepada formula fungsi SIgmoid: Fungsi Sigmoid ialah fungsi tak linear yang biasa digunakan yang boleh memetakan sebarang nombor nyata antara 0 dan 1. Ia biasanya digunakan untuk menyatukan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan May 30, 2024 am 09:35 AM

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Pembenaman ruang terpendam: penjelasan dan demonstrasi Pembenaman ruang terpendam: penjelasan dan demonstrasi Jan 22, 2024 pm 05:30 PM

Pembenaman Ruang Terpendam (LatentSpaceEmbedding) ialah proses memetakan data berdimensi tinggi kepada ruang berdimensi rendah. Dalam bidang pembelajaran mesin dan pembelajaran mendalam, pembenaman ruang terpendam biasanya merupakan model rangkaian saraf yang memetakan data input berdimensi tinggi ke dalam set perwakilan vektor berdimensi rendah ini sering dipanggil "vektor terpendam" atau "terpendam pengekodan". Tujuan pembenaman ruang terpendam adalah untuk menangkap ciri penting dalam data dan mewakilinya ke dalam bentuk yang lebih ringkas dan mudah difahami. Melalui pembenaman ruang terpendam, kami boleh melakukan operasi seperti memvisualisasikan, mengelaskan dan mengelompokkan data dalam ruang dimensi rendah untuk memahami dan menggunakan data dengan lebih baik. Pembenaman ruang terpendam mempunyai aplikasi yang luas dalam banyak bidang, seperti penjanaan imej, pengekstrakan ciri, pengurangan dimensi, dsb. Pembenaman ruang terpendam adalah yang utama

Daripada asas kepada amalan, semak sejarah pembangunan pengambilan vektor Elasticsearch Daripada asas kepada amalan, semak sejarah pembangunan pengambilan vektor Elasticsearch Oct 23, 2023 pm 05:17 PM

1. Pengenalan Pengambilan semula vektor telah menjadi komponen teras sistem carian dan pengesyoran moden. Ia membolehkan pemadanan pertanyaan dan pengesyoran yang cekap dengan menukar objek kompleks (seperti teks, imej atau bunyi) kepada vektor berangka dan melakukan carian persamaan dalam ruang berbilang dimensi. Daripada asas kepada amalan, semak semula sejarah pembangunan vektor retrieval_elasticsearch Elasticsearch Sebagai enjin carian sumber terbuka yang popular, pembangunan Elasticsearch dalam pengambilan vektor sentiasa menarik perhatian ramai. Artikel ini akan menyemak sejarah pembangunan pengambilan vektor Elasticsearch, memfokuskan pada ciri dan kemajuan setiap peringkat. Mengambil sejarah sebagai panduan, adalah mudah untuk semua orang mewujudkan rangkaian penuh pengambilan vektor Elasticsearch.

Fahami dalam satu artikel: kaitan dan perbezaan antara AI, pembelajaran mesin dan pembelajaran mendalam Fahami dalam satu artikel: kaitan dan perbezaan antara AI, pembelajaran mesin dan pembelajaran mendalam Mar 02, 2024 am 11:19 AM

Dalam gelombang perubahan teknologi yang pesat hari ini, Kecerdasan Buatan (AI), Pembelajaran Mesin (ML) dan Pembelajaran Dalam (DL) adalah seperti bintang terang, menerajui gelombang baharu teknologi maklumat. Ketiga-tiga perkataan ini sering muncul dalam pelbagai perbincangan dan aplikasi praktikal yang canggih, tetapi bagi kebanyakan peneroka yang baru dalam bidang ini, makna khusus dan hubungan dalaman mereka mungkin masih diselubungi misteri. Jadi mari kita lihat gambar ini dahulu. Dapat dilihat bahawa terdapat korelasi rapat dan hubungan progresif antara pembelajaran mendalam, pembelajaran mesin dan kecerdasan buatan. Pembelajaran mendalam ialah bidang khusus pembelajaran mesin dan pembelajaran mesin

Super kuat! 10 algoritma pembelajaran mendalam teratas! Super kuat! 10 algoritma pembelajaran mendalam teratas! Mar 15, 2024 pm 03:46 PM

Hampir 20 tahun telah berlalu sejak konsep pembelajaran mendalam dicadangkan pada tahun 2006. Pembelajaran mendalam, sebagai revolusi dalam bidang kecerdasan buatan, telah melahirkan banyak algoritma yang berpengaruh. Jadi, pada pendapat anda, apakah 10 algoritma teratas untuk pembelajaran mendalam? Berikut adalah algoritma teratas untuk pembelajaran mendalam pada pendapat saya Mereka semua menduduki kedudukan penting dari segi inovasi, nilai aplikasi dan pengaruh. 1. Latar belakang rangkaian saraf dalam (DNN): Rangkaian saraf dalam (DNN), juga dipanggil perceptron berbilang lapisan, adalah algoritma pembelajaran mendalam yang paling biasa Apabila ia mula-mula dicipta, ia dipersoalkan kerana kesesakan kuasa pengkomputeran tahun, kuasa pengkomputeran, Kejayaan datang dengan letupan data. DNN ialah model rangkaian saraf yang mengandungi berbilang lapisan tersembunyi. Dalam model ini, setiap lapisan menghantar input ke lapisan seterusnya dan

AlphaFold 3 dilancarkan, meramalkan secara menyeluruh interaksi dan struktur protein dan semua molekul hidupan, dengan ketepatan yang jauh lebih tinggi berbanding sebelum ini AlphaFold 3 dilancarkan, meramalkan secara menyeluruh interaksi dan struktur protein dan semua molekul hidupan, dengan ketepatan yang jauh lebih tinggi berbanding sebelum ini Jul 16, 2024 am 12:08 AM

Editor |. Kulit Lobak Sejak pengeluaran AlphaFold2 yang berkuasa pada tahun 2021, saintis telah menggunakan model ramalan struktur protein untuk memetakan pelbagai struktur protein dalam sel, menemui ubat dan melukis "peta kosmik" setiap interaksi protein yang diketahui. Baru-baru ini, Google DeepMind mengeluarkan model AlphaFold3, yang boleh melakukan ramalan struktur bersama untuk kompleks termasuk protein, asid nukleik, molekul kecil, ion dan sisa yang diubah suai. Ketepatan AlphaFold3 telah dipertingkatkan dengan ketara berbanding dengan banyak alat khusus pada masa lalu (interaksi protein-ligan, interaksi asid protein-nukleik, ramalan antibodi-antigen). Ini menunjukkan bahawa dalam satu rangka kerja pembelajaran mendalam yang bersatu, adalah mungkin untuk dicapai

See all articles