Mari kita bincangkan tentang pengecaman imej: Rangkaian Neural Berulang
Artikel ini dicetak semula daripada akaun awam WeChat "Hidup dalam Era Maklumat" Pengarang hidup dalam era maklumat. Untuk mencetak semula artikel ini, sila hubungi akaun awam Living in the Information Age.
Rangkaian Neural Berulang (RNN) digunakan terutamanya untuk menyelesaikan masalah data jujukan. Sebab mengapa ia adalah rangkaian saraf berulang adalah bahawa output semasa jujukan juga berkaitan dengan output sebelumnya. Rangkaian RNN mengingati maklumat dari detik sebelumnya dan menggunakannya pada pengiraan keluaran semasa Tidak seperti rangkaian saraf konvolusi, neuron dalam lapisan tersembunyi rangkaian saraf berulang disambungkan antara satu sama lain ditentukan oleh input Output lapisan terdiri daripada output neuron tersembunyi pada saat sebelumnya. Walaupun rangkaian RNN telah mencapai beberapa keputusan yang luar biasa, ia mempunyai beberapa kekurangan dan batasan, seperti: kesukaran dalam latihan, ketepatan rendah, kecekapan rendah, masa yang lama, dll. Oleh itu, beberapa model rangkaian yang dipertingkatkan berdasarkan RNN telah dibangunkan secara beransur-ansur, seperti sebagai : Memori Jangka Pendek Panjang (LSTM), RNN dwiarah, LSTM dwiarah, GRU, dsb. Model RNN yang dipertingkatkan ini telah menunjukkan hasil yang cemerlang dalam bidang pengecaman imej dan digunakan secara meluas. Mengambil rangkaian LSTM sebagai contoh, kami akan memperkenalkan struktur rangkaian utamanya.
Memori Jangka Pendek Panjang (LSTM) menyelesaikan masalah kehilangan kecerunan atau letupan kecerunan dalam RNN dan boleh mempelajari masalah pergantungan jangka panjang. Strukturnya adalah seperti berikut.
LSTM mempunyai tiga get untuk membolehkan maklumat melalui secara terpilih: get lupa, get input dan gate output. Gerbang lupa menentukan maklumat yang boleh melalui sel ini. Ia dilaksanakan melalui lapisan saraf sigmoid. Inputnya ialah, dan output ialah vektor dengan nilai antara (0, 1), mewakili bahagian setiap bahagian maklumat yang dibenarkan untuk dilalui. 0 bermaksud "jangan biarkan maklumat berlalu", 1 bermaksud "biar semua maklumat berlalu".
Gerbang input menentukan jumlah maklumat baharu yang ditambahkan pada keadaan sel Lapisan tanh menjana vektor, yang merupakan penggunaan alternatif untuk mengemas kini kandungan.
Kemas kini status sel:
Ger keluar ialah sedang ditentukan Bahagian mana maklumat yang dikeluarkan:
Model rangkaian GRU juga menyelesaikan masalah kehilangan kecerunan atau letupan kecerunan dalam RNN, dan boleh belajar kebergantungan jangka panjang Hubungan ialah ubah bentuk LSTM Strukturnya lebih mudah daripada LSTM, mempunyai parameter yang lebih sedikit dan masa latihan lebih pendek daripada LSTM. Ia juga digunakan secara meluas dalam pengecaman pertuturan, penerangan imej, pemprosesan bahasa semula jadi dan senario lain.
Atas ialah kandungan terperinci Mari kita bincangkan tentang pengecaman imej: Rangkaian Neural Berulang. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Windows tidak pernah mengabaikan estetika. Daripada bidang hijau bucolic XP kepada reka bentuk berputar biru Windows 11, kertas dinding desktop lalai telah menjadi sumber kegembiraan pengguna selama bertahun-tahun. Dengan Windows Spotlight, anda kini mempunyai akses terus kepada imej yang cantik dan mengagumkan untuk skrin kunci dan kertas dinding desktop anda setiap hari. Malangnya, imej ini tidak melepak. Jika anda telah jatuh cinta dengan salah satu imej sorotan Windows, maka anda pasti ingin tahu cara memuat turunnya supaya anda boleh mengekalkannya sebagai latar belakang anda buat seketika. Ini semua yang anda perlu tahu. Apakah WindowsSpotlight? Sorotan Tetingkap ialah pengemas kini kertas dinding automatik yang tersedia daripada Pemperibadian > dalam apl Tetapan

Kaedah pembelajaran mendalam hari ini memberi tumpuan kepada mereka bentuk fungsi objektif yang paling sesuai supaya keputusan ramalan model paling hampir dengan situasi sebenar. Pada masa yang sama, seni bina yang sesuai mesti direka bentuk untuk mendapatkan maklumat yang mencukupi untuk ramalan. Kaedah sedia ada mengabaikan fakta bahawa apabila data input mengalami pengekstrakan ciri lapisan demi lapisan dan transformasi spatial, sejumlah besar maklumat akan hilang. Artikel ini akan menyelidiki isu penting apabila menghantar data melalui rangkaian dalam, iaitu kesesakan maklumat dan fungsi boleh balik. Berdasarkan ini, konsep maklumat kecerunan boleh atur cara (PGI) dicadangkan untuk menghadapi pelbagai perubahan yang diperlukan oleh rangkaian dalam untuk mencapai pelbagai objektif. PGI boleh menyediakan maklumat input lengkap untuk tugas sasaran untuk mengira fungsi objektif, dengan itu mendapatkan maklumat kecerunan yang boleh dipercayai untuk mengemas kini berat rangkaian. Di samping itu, rangka kerja rangkaian ringan baharu direka bentuk

Dengan pembangunan berterusan teknologi kecerdasan buatan, teknologi segmentasi semantik imej telah menjadi hala tuju penyelidikan yang popular dalam bidang analisis imej. Dalam segmentasi semantik imej, kami membahagikan kawasan yang berbeza dalam imej dan mengelaskan setiap kawasan untuk mencapai pemahaman yang menyeluruh tentang imej. Python ialah bahasa pengaturcaraan yang terkenal dengan keupayaan analisis data dan visualisasi datanya yang hebat menjadikannya pilihan pertama dalam bidang penyelidikan teknologi kecerdasan buatan. Artikel ini akan memperkenalkan cara menggunakan teknologi segmentasi semantik imej dalam Python. 1. Pengetahuan prasyarat semakin mendalam

Model pembelajaran mendalam untuk tugas penglihatan (seperti klasifikasi imej) biasanya dilatih hujung ke hujung dengan data daripada domain visual tunggal (seperti imej semula jadi atau imej yang dijana komputer). Secara amnya, aplikasi yang menyelesaikan tugas penglihatan untuk berbilang domain perlu membina berbilang model untuk setiap domain yang berasingan dan melatihnya secara berasingan Data tidak dikongsi antara domain yang berbeza, setiap model akan mengendalikan data input tertentu. Walaupun ia berorientasikan kepada bidang yang berbeza, beberapa ciri lapisan awal antara model ini adalah serupa, jadi latihan bersama model ini adalah lebih cekap. Ini mengurangkan kependaman dan penggunaan kuasa, dan mengurangkan kos memori untuk menyimpan setiap parameter model Pendekatan ini dipanggil pembelajaran berbilang domain (MDL). Selain itu, model MDL juga boleh mengatasi prestasi tunggal

Dengan apl iOS 17 Photos, Apple memudahkan untuk memangkas foto mengikut spesifikasi anda. Baca terus untuk mengetahui caranya. Sebelum ini dalam iOS 16, memangkas imej dalam apl Foto melibatkan beberapa langkah: Ketik antara muka pengeditan, pilih alat pangkas dan kemudian laraskan pemangkasan menggunakan gerak isyarat picit untuk zum atau seret penjuru alat pangkas. Dalam iOS 17, Apple bersyukur telah memudahkan proses ini supaya apabila anda mengezum masuk pada mana-mana foto yang dipilih dalam pustaka Foto anda, butang Pangkas baharu muncul secara automatik di penjuru kanan sebelah atas skrin. Mengklik padanya akan memaparkan antara muka pemangkasan penuh dengan tahap zum pilihan anda, jadi anda boleh memangkas ke bahagian imej yang anda suka, memutar imej, menyongsangkan imej atau menggunakan nisbah skrin atau menggunakan penanda

Alamat kertas: https://arxiv.org/abs/2307.09283 Alamat kod: https://github.com/THU-MIG/RepViTRepViT berprestasi baik dalam seni bina ViT mudah alih dan menunjukkan kelebihan yang ketara. Seterusnya, kami meneroka sumbangan kajian ini. Disebutkan dalam artikel bahawa ViT ringan biasanya berprestasi lebih baik daripada CNN ringan pada tugas visual, terutamanya disebabkan oleh modul perhatian diri berbilang kepala (MSHA) mereka yang membolehkan model mempelajari perwakilan global. Walau bagaimanapun, perbezaan seni bina antara ViT ringan dan CNN ringan belum dikaji sepenuhnya. Dalam kajian ini, penulis menyepadukan ViT ringan ke dalam yang berkesan

Bagaimana untuk melaksanakan pengecaman pertuturan dan sintesis pertuturan dalam C++? Pengecaman pertuturan dan sintesis pertuturan ialah salah satu hala tuju penyelidikan yang popular dalam bidang kecerdasan buatan hari ini, dan ia memainkan peranan penting dalam banyak senario aplikasi. Artikel ini akan memperkenalkan cara menggunakan C++ untuk melaksanakan pengecaman pertuturan dan fungsi sintesis pertuturan berdasarkan platform terbuka Baidu AI, dan menyediakan contoh kod yang berkaitan. 1. Pengecaman pertuturan Pengecaman pertuturan ialah teknologi yang menukar pertuturan manusia kepada teks Ia digunakan secara meluas dalam pembantu suara, rumah pintar, pemanduan autonomi dan bidang lain. Berikut ialah pelaksanaan pengecaman pertuturan menggunakan C++

Mereka yang perlu bekerja dengan fail imej setiap hari selalunya perlu mengubah saiznya agar sesuai dengan keperluan projek dan pekerjaan mereka. Walau bagaimanapun, jika anda mempunyai terlalu banyak imej untuk diproses, saiz semula imej secara individu boleh mengambil banyak masa dan usaha. Dalam kes ini, alat seperti PowerToys boleh berguna untuk, antara lain, mengubah saiz fail kumpulan menggunakan utiliti pengubah semula imejnya. Begini cara untuk menyediakan tetapan Image Resizer anda dan mulakan saiz semula kumpulan imej dengan PowerToys. Cara Mengubah Saiz Imej Secara Berkelompok dengan PowerToys PowerToys ialah program semua-dalam-satu dengan pelbagai utiliti dan ciri untuk membantu anda mempercepatkan tugas harian anda. Salah satu utilitinya ialah imej
