


Pustaka prapemprosesan imej CV-CUDA adalah sumber terbuka, memecahkan kesesakan prapemprosesan dan meningkatkan daya pengeluaran inferens lebih daripada 20 kali ganda.
Dalam era maklumat hari ini, imej atau kandungan visual telah lama menjadi pembawa maklumat yang paling penting dalam kehidupan harian model pembelajaran mendalam bergantung pada keupayaan kuat mereka untuk memahami kandungan visual dan boleh Pelbagai pemprosesan dan pengoptimuman.
Walau bagaimanapun, dalam pembangunan dan aplikasi model visual yang lalu, kami memberi lebih perhatian kepada pengoptimuman model itu sendiri untuk meningkatkan kelajuan dan kesannya. Sebaliknya, untuk peringkat pra dan pasca pemprosesan imej, sedikit pemikiran serius diberikan kepada cara mengoptimumkannya. Oleh itu, apabila kecekapan pengiraan model semakin tinggi dan lebih tinggi, melihat kembali pada pra-pemprosesan dan pasca-pemprosesan imej, saya tidak menjangkakan bahawa ia telah menjadi hambatan kepada keseluruhan tugasan imej.
Untuk menyelesaikan kesesakan tersebut, NVIDIA telah bekerjasama dengan pasukan pembelajaran mesin ByteDance untuk membuka sumber banyak perpustakaan operator prapemprosesan imej CV-CUDA Mereka boleh berjalan dengan cekap pada GPU, dan kelajuan operator boleh mencapai kelajuan OpenCV (. berjalan pada CPU) Kira-kira seratus kali. Jika kami menggunakan CV-CUDA sebagai bahagian belakang untuk menggantikan OpenCV dan TorchVision, daya pemprosesan keseluruhan inferens boleh mencapai lebih daripada 20 kali ganda daripada asal. Selain itu, bukan sahaja kelajuan dipertingkatkan, tetapi dari segi kesan, CV-CUDA telah diselaraskan dengan OpenCV dari segi ketepatan pengiraan, jadi latihan dan inferens boleh disambungkan dengan lancar, mengurangkan beban kerja jurutera.
Mengambil algoritma kabur latar belakang imej sebagai contoh, CV-CUDA menggantikan OpenCV sebagai hujung belakang untuk pra/siaran imej -pemprosesan , pemprosesan keseluruhan proses penaakulan boleh ditingkatkan lebih daripada 20 kali ganda.
Jika anda ingin mencuba perpustakaan prapemprosesan visual yang lebih pantas dan lebih baik, anda boleh mencuba alat sumber terbuka ini. Alamat sumber terbuka: https://github.com/CVCUDA/CV-CUDA
Pra-/ pasca pemprosesan telah menjadi CV Bottleneck
Ramai jurutera algoritma yang terlibat dalam kejuruteraan dan produk tahu bahawa walaupun kita sering hanya membincangkan "penyelidikan canggih" seperti struktur model dan tugas latihan, dalam fakta yang kita perlukan Untuk membina produk yang boleh dipercayai, anda akan menghadapi banyak masalah kejuruteraan dalam proses, tetapi latihan model adalah bahagian yang paling mudah.
Prapemprosesan imej ialah masalah kejuruteraan. Kami mungkin hanya memanggil beberapa API untuk melakukan transformasi geometri, penapisan, transformasi warna, dll. pada imej semasa percubaan atau latihan, dan kami mungkin tidak mengambil berat mengenainya. Tetapi apabila kita memikirkan semula keseluruhan proses penaakulan, kita mendapati bahawa prapemprosesan imej telah menjadi hambatan prestasi, terutamanya untuk tugas visual dengan proses prapemprosesan yang kompleks.
Kesempitan prestasi seperti ini ditunjukkan terutamanya dalam CPU. Secara umumnya, untuk proses pemprosesan imej konvensional, kami akan melakukan prapemprosesan pada CPU dahulu, kemudian meletakkannya pada GPU untuk menjalankan model, dan akhirnya kembali ke CPU, dan mungkin perlu melakukan beberapa pemprosesan pasca.
Mengambil algoritma kabur latar belakang imej sebagai contoh, dalam proses pemprosesan imej konvensional, pemprosesan prognostik diselesaikan terutamanya pada CPU, yang menduduki keseluruhan 90% daripada beban kerja, ia telah menjadi hambatan untuk tugas itu.
Oleh itu, untuk aplikasi video, atau adegan kompleks seperti pemodelan imej 3D, kerana bilangan bingkai imej atau maklumat imej cukup besar, proses prapemprosesan adalah cukup kompleks, dan Jika keperluan kependaman cukup rendah, pengoptimuman operator pra/pasca pemprosesan akan berlaku. Pendekatan yang lebih baik, sudah tentu, adalah menggantikan OpenCV dengan penyelesaian yang lebih pantas.
Mengapa OpenCV masih tidak cukup bagus?
Dalam CV, perpustakaan pemprosesan imej yang paling banyak digunakan sudah tentu OpenCV yang telah lama diselenggara Ia mempunyai rangkaian operasi pemprosesan imej yang sangat luas dan pada asasnya boleh memenuhi pelbagai visual tugasan pra/pasca pemprosesan. Walau bagaimanapun, apabila beban tugas imej meningkat, kelajuannya perlahan-lahan tidak dapat mengikuti, kerana kebanyakan operasi imej OpenCV dilaksanakan oleh CPU, kekurangan pelaksanaan GPU, atau terdapat beberapa masalah dengan pelaksanaan GPU.
Dalam pengalaman penyelidikan dan pembangunan pelajar algoritma NVIDIA dan ByteDance, mereka mendapati bahawa beberapa operator dalam OpenCV yang dilaksanakan oleh GPU mempunyai tiga masalah utama:
- Ketepatan hasil CPU dan GPU sesetengah pengendali tidak boleh diselaraskan
- Prestasi GPU sesetengah pengendali adalah lebih lemah daripada operator; Prestasi CPU;
- Terdapat pelbagai operator CPU dan pelbagai operator GPU pada masa yang sama Apabila proses pemprosesan perlu menggunakan kedua-duanya pada masa yang sama, ia akan meningkatkan ruang aplikasi dan aplikasi dalam ingatan dan ingatan video. Penghijrahan data/salinan data; diselaraskan. Pelajar algoritma NVIDIA dan ByteDance akan mendapati bahawa apabila kita Semasa latihan, pengendali OpenCV tertentu menggunakan CPU, tetapi disebabkan isu prestasi semasa fasa inferens, pengendali GPU yang sepadan dengan OpenCV mungkin digunakan sebaliknya Keputusan CPU dan GPU tidak boleh diselaraskan, mengakibatkan anomali ketepatan dalam keseluruhan proses inferens. Apabila masalah sedemikian berlaku, anda sama ada perlu menukar kembali kepada pelaksanaan CPU, atau anda perlu menghabiskan banyak usaha untuk menyelaraskan semula ketepatan, yang merupakan masalah yang sukar untuk ditangani. Memandangkan OpenCV masih belum cukup bagus, sesetengah pembaca mungkin bertanya, bagaimana pula dengan Torchvision? Ia sebenarnya akan menghadapi masalah yang sama seperti OpenCV Selain itu, jurutera yang menggunakan model lebih cenderung menggunakan C++ untuk melaksanakan proses inferens untuk kecekapan Oleh itu, mereka tidak akan dapat menggunakan Torchvision dan perlu beralih kepada perpustakaan visual C++ sebagai OpenCV Ini akan membawa Satu lagi dilema: menyelaraskan ketepatan Torchvision dengan OpenCV. Secara umumnya, pra/pasca pemprosesan tugas visual pada CPU telah menjadi halangan, tetapi alatan tradisional seperti OpenCV tidak dapat mengendalikannya dengan baik. Oleh itu, pemindahan operasi kepada GPU, sebuah perpustakaan pengendali pemprosesan imej yang cekap CV-CUDA yang dilaksanakan sepenuhnya berdasarkan CUDA, telah menjadi penyelesaian baharu.
Melaksanakan pra dan pasca pemprosesan sepenuhnya pada GPU akan mengurangkan kesesakan CPU dalam bahagian pemprosesan imej dengan banyak.
GPU Pustaka pecutan pemprosesan imej: CV-CUDA
Sebagai pra-pemproses berdasarkan perpustakaan pengendali CUDA / Pasca pemprosesan, jurutera algoritma mungkin mengharapkan tiga perkara yang paling: cukup pantas, cukup serba boleh dan mudah digunakan. CV-CUDA, dibangunkan bersama oleh pasukan pembelajaran mesin NVIDIA dan ByteDance, betul-betul boleh memenuhi tiga perkara ini Ia menggunakan kuasa pengkomputeran selari GPU untuk meningkatkan kelajuan pengendali, menjajarkan hasil operasi OpenCV menjadi cukup serba boleh dan mudah digunakan. dengan antara muka C++/Python.
Kelajuan CV-CUDA
CV -CUDA Kelajuan pertama kali ditunjukkan dalam pelaksanaan operator yang cekap Lagipun, ia ditulis oleh NVIDIA Kod pengkomputeran selari CUDA mesti telah melalui banyak pengoptimuman. Kedua, ia menyokong operasi kelompok, yang boleh menggunakan sepenuhnya kuasa pengkomputeran peranti GPU Berbanding dengan pelaksanaan bersiri imej satu demi satu pada CPU, operasi kelompok pastinya lebih pantas. Akhir sekali, terima kasih kepada seni bina GPU seperti Volta, Turing, dan Ampere yang disesuaikan dengan CV-CUDA, prestasi sangat dioptimumkan pada tahap kernel CUDA setiap GPU untuk mencapai hasil yang terbaik. Dalam erti kata lain, lebih baik kad GPU yang anda gunakan, lebih dibesar-besarkan keupayaan pecutannya. Seperti yang ditunjukkan dalam carta nisbah pecutan throughput kabur latar belakang sebelumnya, jika CV-CUDA digunakan untuk menggantikan pra dan pasca pemprosesan OpenCV dan TorchVision, daya pemprosesan keseluruhan proses inferens meningkat lebih daripada 20 kali ganda. Antaranya, prapemprosesan melakukan operasi seperti Saiz Saiz, Padding dan Image2Tensor pada imej, dan pasca pemprosesan melaksanakan operasi seperti Tensor2Mask, Crop, Resize dan Denoise pada hasil ramalan.
Untuk prestasi pengendali tunggal, NVIDIA dan rakan kongsi ByteDance juga telah menjalankan ujian prestasi Banyak pengendali pada GPU boleh mencapai seratus kali ganda daripada CPU . Saiz imej ialah 480*360, CPU ialah Intel(R) Core(TM) i9-7900X, saiz BatchSize ialah 1 dan bilangan proses ialah 1 Walaupun banyak operator pra/pasca pemprosesan bukanlah pendaraban matriks mudah dan operasi lain, untuk mencapai prestasi cekap yang disebutkan di atas, CV-CUDA sebenarnya telah melakukan banyak pengoptimuman di peringkat operator. Sebagai contoh, sebilangan besar strategi gabungan inti diguna pakai untuk mengurangkan masa akses pelancaran kernel dan akses memori global dioptimumkan untuk meningkatkan kecekapan membaca dan menulis data semua operator diproses secara tidak segerak untuk mengurangkan masa menunggu segerak, dsb . CV-CUDAumum dan fleksibel operasi Kestabilan keputusan adalah sangat penting untuk projek sebenar Contohnya, operasi Ubah Saiz biasa, OpenCV, OpenCV-gpu dan Torchvision dilaksanakan dengan cara yang berbeza, jadi dari latihan hingga penggunaan, akan ada lebih banyak kerja untuk menyelaraskan. keputusan. CV-CUDAkemudahan penggunaan mungkin ramai Jurutera akan berfikir, CV-CUDA melibatkan pengendali CUDA yang mendasari, jadi ia sepatutnya lebih sukar untuk digunakan? Tetapi ini tidak berlaku. Walaupun ia tidak bergantung pada API peringkat lebih tinggi, lapisan bawah CV-CUDA sendiri akan menyediakan struktur seperti dan kelas Allocator, jadi ia tidak menyusahkan untuk menyesuaikannya dalam C++. Di samping itu, pergi ke peringkat atas, CV-CUDA menyediakan antara muka penukaran data untuk PyTorch, OpenCV dan Pillow, jadi jurutera boleh menggantikan dan memanggil operator dengan cepat dengan cara yang biasa. Antara muka CV-CUDA C++ untuk Ubah Saiz Jika kita menggunakan antara muka Python CV-CUDA semasa proses latihan, ia sebenarnya akan menjadi sangat mudah untuk digunakan, ia hanya mengambil beberapa langkah mudah untuk memindahkan semua operasi prapemprosesan yang asalnya dilakukan pada CPU ke GPU. Proses pra-pemprosesan pengecaman imej konvensional, menggunakan CV-CUDA akan menyatukan proses pra-pemprosesan dan pengiraan model Run pada GPU. Seperti berikut, selepas menggunakan API torchvision untuk memuatkan imej ke GPU, jenis Torch Tensor boleh terus ditukar kepada objek CV-CUDA nvcvInputTensor melalui as_tensor, supaya API CV- Operasi prapemprosesan CUDA boleh dipanggil terus Pelbagai transformasi imej diselesaikan dalam GPU. Barisan kod berikut akan menggunakan CV-CUDA untuk melengkapkan proses prapemprosesan pengecaman imej dalam GPU: pangkas imej dan Normalkan piksel. Antaranya, resize() menukar tensor imej kepada saiz tensor input model convertto() menukar nilai piksel kepada nilai titik terapung ketepatan tunggal () menormalkan nilai piksel untuk menjadikan julat nilai lebih sesuai; model itu. Kini dengan bantuan pelbagai API CV-CUDA, prapemprosesan tugas pengelasan imej telah selesai. Ia boleh melengkapkan pengkomputeran selari pada GPU dengan cekap dan disepadukan dengan mudah ke dalam proses pemodelan rangka kerja pembelajaran mendalam arus perdana seperti PyTorch. Untuk selebihnya, anda hanya perlu menukar objek CV-CUDA nvcvPreprocessedTensor ke dalam jenis Torch Tensor untuk menyuapkannya kepada model Langkah ini juga sangat mudah Penukaran hanya memerlukan satu baris kod: Melalui contoh mudah ini, adalah mudah untuk mendapati bahawa CV-CUDA sememangnya mudah disematkan ke dalam logik latihan model biasa. Jika pembaca ingin mengetahui lebih banyak butiran penggunaan, mereka masih boleh menyemak alamat sumber terbuka CV-CUDA yang dinyatakan di atas. CV-CUDA sebenarnya telah melalui ujian praktikal perniagaan. Dalam tugas visual, terutamanya tugas dengan proses pra-pemprosesan imej yang agak kompleks, menggunakan kuasa pengkomputeran besar GPU untuk pra-pemprosesan boleh meningkatkan kecekapan latihan model dan inferens dengan berkesan. CV-CUDA kini digunakan dalam berbilang senario dalam talian dan luar talian dalam Kumpulan Douyin, seperti carian berbilang mod, klasifikasi imej, dsb. Dalam ByteDance OCR dan tugasan pelbagai mod video, dengan menggunakan CV-CUDA, kelajuan latihan keseluruhan boleh Ditingkatkan sebanyak 1 hingga 2 kali (nota: ia adalah peningkatan dalam kelajuan latihan keseluruhan model) Begitu juga dalam proses inferens pasukan pembelajaran mesin menyatakan bahawa dalam Selepas menggunakan CV-CUDA dalam tugasan berbilang modal carian, keseluruhan daya pengeluaran dalam talian telah dipertingkatkan lebih daripada 2 kali ganda berbanding dengan menggunakan CPU untuk prapemprosesan. Perlu diingat bahawa keputusan garis dasar CPU di sini sudah sangat dioptimumkan untuk berbilang teras, dan logik prapemprosesan yang terlibat dalam tugas ini agak mudah, tetapi kesan pecutan masih sangat jelas selepas menggunakan CV-CUDA.
Pada permulaan reka bentuk CV-CUDA, ia dianggap bahawa ramai jurutera sudah biasa menggunakan versi CPU OpenCV dalam perpustakaan pemprosesan imej semasa, oleh itu, apabila mereka bentuk operator, sama ada parameter fungsi atau pemprosesan imej hasil, selaraskan OpenCV sebanyak mungkin versi CPU pengendali. Oleh itu, apabila berhijrah daripada OpenCV ke CV-CUDA, hanya beberapa perubahan diperlukan untuk mendapatkan hasil pengkomputeran yang konsisten, dan model tidak perlu dilatih semula.
Selain itu, CV-CUDA direka dari peringkat operator, jadi tidak kira apa proses pra/pasca pemprosesan model, ia boleh digabungkan secara bebas dan mempunyai fleksibiliti yang tinggi.
Pasukan pembelajaran mesin ByteDance menyatakan bahawa terdapat banyak model yang dilatih dalam perusahaan, dan logik prapemprosesan yang diperlukan juga pelbagai, dengan banyak keperluan logik prapemprosesan tersuai. Fleksibiliti CV-CUDA boleh memastikan bahawa setiap OP menyokong masuk objek strim dan objek memori video (kelas Penampan dan Tensor, yang menyimpan penunjuk memori video secara dalaman), supaya sumber GPU yang sepadan boleh dikonfigurasikan dengan lebih fleksibel. Apabila mereka bentuk dan membangunkan setiap op, ia bukan sahaja mengambil kira fleksibiliti, tetapi juga menyediakan antara muka tersuai atas permintaan, meliputi pelbagai keperluan untuk prapemprosesan imej.
Selain itu, kerana CV-CUDA mempunyai antara muka C++ dan antara muka Python, ia boleh digunakan dalam kedua-dua latihan dan senario penggunaan perkhidmatan Antara muka Python digunakan untuk mengesahkan keupayaan model dengan cepat semasa latihan, dan antara muka C++ adalah digunakan untuk meramalkan penggunaan yang lebih cekap. CV-CUDA mengelakkan proses penjajaran hasil prapemprosesan yang menyusahkan dan meningkatkan kecekapan proses keseluruhan. Pertempuran praktikal, CV-CUDACara menggunakan
Ambil klasifikasi imej sebagai contoh Pada asasnya, kita perlu menyahkod imej menjadi tensor dalam peringkat prapemprosesan dan memangkasnya agar sesuai dengan saiz input model Selepas pemangkasan, kita perlu menukar nilai piksel kepada data titik terapung jenis dan Selepas penormalan, ia boleh dihantar ke model pembelajaran mendalam untuk penyebaran ke hadapan. Di bawah ini kami akan menggunakan beberapa blok kod mudah untuk mengalami cara CV-CUDA pramemproses imej dan berinteraksi dengan Pytorch.
Penggunaan pelbagai operasi prapemprosesan dalam CV-CUDA tidak akan jauh berbeza daripada yang terdapat dalam OpenCV atau Torchvision Ia hanyalah pelarasan mudah kaedah, dan pengiraan sudah selesai pada GPU di belakangnya.
CV-CUDAPeningkatan perniagaan sebenar
Pasukan pembelajaran mesin Bytedance menyatakan bahawa penggunaan dalaman CV-CUDA boleh meningkatkan prestasi latihan dan inferens dengan ketara. Sebagai contoh, dari segi latihan, Bytedance ialah tugas berbilang modal yang berkaitan dengan video Bahagian pra-pemprosesan termasuk penyahkodan video berbilang bingkai dan banyak peningkatan data, menjadikan bahagian logik ini sangat rumit. Logik prapemprosesan yang kompleks menyebabkan prestasi berbilang teras CPU masih tidak bersaing semasa latihan Oleh itu, CV-CUDA digunakan untuk memindahkan semua logik prapemprosesan pada CPU ke GPU, mencapai pecutan 90% dalam kelajuan latihan keseluruhan. . Ambil perhatian bahawa ini adalah peningkatan dalam kelajuan latihan keseluruhan, bukan hanya dalam bahagian prapemprosesan.
Kelajuan cukup cekap untuk memecahkan kesesakan pra-pemprosesan dalam tugas visual, dan ia juga mudah dan fleksibel untuk digunakan CV-CUDA telah membuktikan bahawa ia boleh meningkatkan penaakulan model dan kesan latihan dalam senario aplikasi sebenar. jadi jika tugas visual Pembaca juga dihadkan oleh kecekapan prapemprosesan, jadi cuba CV-CUDA sumber terbuka terkini.
Atas ialah kandungan terperinci Pustaka prapemprosesan imej CV-CUDA adalah sumber terbuka, memecahkan kesesakan prapemprosesan dan meningkatkan daya pengeluaran inferens lebih daripada 20 kali ganda.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Anotasi teks ialah kerja label atau teg yang sepadan dengan kandungan tertentu dalam teks. Tujuan utamanya adalah untuk memberikan maklumat tambahan kepada teks untuk analisis dan pemprosesan yang lebih mendalam, terutamanya dalam bidang kecerdasan buatan. Anotasi teks adalah penting untuk tugas pembelajaran mesin yang diawasi dalam aplikasi kecerdasan buatan. Ia digunakan untuk melatih model AI untuk membantu memahami maklumat teks bahasa semula jadi dengan lebih tepat dan meningkatkan prestasi tugasan seperti klasifikasi teks, analisis sentimen dan terjemahan bahasa. Melalui anotasi teks, kami boleh mengajar model AI untuk mengenali entiti dalam teks, memahami konteks dan membuat ramalan yang tepat apabila data baharu yang serupa muncul. Artikel ini terutamanya mengesyorkan beberapa alat anotasi teks sumber terbuka yang lebih baik. 1.LabelStudiohttps://github.com/Hu

Anotasi imej ialah proses mengaitkan label atau maklumat deskriptif dengan imej untuk memberi makna dan penjelasan yang lebih mendalam kepada kandungan imej. Proses ini penting untuk pembelajaran mesin, yang membantu melatih model penglihatan untuk mengenal pasti elemen individu dalam imej dengan lebih tepat. Dengan menambahkan anotasi pada imej, komputer boleh memahami semantik dan konteks di sebalik imej, dengan itu meningkatkan keupayaan untuk memahami dan menganalisis kandungan imej. Anotasi imej mempunyai pelbagai aplikasi, meliputi banyak bidang, seperti penglihatan komputer, pemprosesan bahasa semula jadi dan model penglihatan graf Ia mempunyai pelbagai aplikasi, seperti membantu kenderaan dalam mengenal pasti halangan di jalan raya, dan membantu dalam proses. pengesanan dan diagnosis penyakit melalui pengecaman imej perubatan. Artikel ini terutamanya mengesyorkan beberapa alat anotasi imej sumber terbuka dan percuma yang lebih baik. 1.Makesen

Ditulis di atas & pemahaman peribadi penulis: Pada masa ini, dalam keseluruhan sistem pemanduan autonomi, modul persepsi memainkan peranan penting Hanya selepas kenderaan pemanduan autonomi yang memandu di jalan raya memperoleh keputusan persepsi yang tepat melalui modul persepsi boleh Peraturan hiliran dan. modul kawalan dalam sistem pemanduan autonomi membuat pertimbangan dan keputusan tingkah laku yang tepat pada masanya dan betul. Pada masa ini, kereta dengan fungsi pemanduan autonomi biasanya dilengkapi dengan pelbagai penderia maklumat data termasuk penderia kamera pandangan sekeliling, penderia lidar dan penderia radar gelombang milimeter untuk mengumpul maklumat dalam modaliti yang berbeza untuk mencapai tugas persepsi yang tepat. Algoritma persepsi BEV berdasarkan penglihatan tulen digemari oleh industri kerana kos perkakasannya yang rendah dan penggunaan mudah, dan hasil keluarannya boleh digunakan dengan mudah untuk pelbagai tugas hiliran.

Cabaran biasa yang dihadapi oleh algoritma pembelajaran mesin dalam C++ termasuk pengurusan memori, multi-threading, pengoptimuman prestasi dan kebolehselenggaraan. Penyelesaian termasuk menggunakan penunjuk pintar, perpustakaan benang moden, arahan SIMD dan perpustakaan pihak ketiga, serta mengikuti garis panduan gaya pengekodan dan menggunakan alat automasi. Kes praktikal menunjukkan cara menggunakan perpustakaan Eigen untuk melaksanakan algoritma regresi linear, mengurus memori dengan berkesan dan menggunakan operasi matriks berprestasi tinggi.

Teknologi pengesanan dan pengecaman muka adalah teknologi yang agak matang dan digunakan secara meluas. Pada masa ini, bahasa aplikasi Internet yang paling banyak digunakan ialah JS Melaksanakan pengesanan muka dan pengecaman pada bahagian hadapan Web mempunyai kelebihan dan kekurangan berbanding dengan pengecaman muka bahagian belakang. Kelebihan termasuk mengurangkan interaksi rangkaian dan pengecaman masa nyata, yang sangat memendekkan masa menunggu pengguna dan meningkatkan pengalaman pengguna termasuk: terhad oleh saiz model, ketepatannya juga terhad. Bagaimana untuk menggunakan js untuk melaksanakan pengesanan muka di web? Untuk melaksanakan pengecaman muka di Web, anda perlu biasa dengan bahasa dan teknologi pengaturcaraan yang berkaitan, seperti JavaScript, HTML, CSS, WebRTC, dll. Pada masa yang sama, anda juga perlu menguasai visi komputer yang berkaitan dan teknologi kecerdasan buatan. Perlu diingat bahawa kerana reka bentuk bahagian Web

SOTA baharu untuk keupayaan memahami dokumen multimodal! Pasukan Alibaba mPLUG mengeluarkan kerja sumber terbuka terkini mPLUG-DocOwl1.5, yang mencadangkan satu siri penyelesaian untuk menangani empat cabaran utama pengecaman teks imej resolusi tinggi, pemahaman struktur dokumen am, arahan mengikut dan pengenalan pengetahuan luaran. Tanpa berlengah lagi, mari kita lihat kesannya dahulu. Pengecaman satu klik dan penukaran carta dengan struktur kompleks ke dalam format Markdown: Carta gaya berbeza tersedia: Pengecaman dan kedudukan teks yang lebih terperinci juga boleh dikendalikan dengan mudah: Penjelasan terperinci tentang pemahaman dokumen juga boleh diberikan: Anda tahu, "Pemahaman Dokumen " pada masa ini Senario penting untuk pelaksanaan model bahasa yang besar. Terdapat banyak produk di pasaran untuk membantu pembacaan dokumen. Sesetengah daripada mereka menggunakan sistem OCR untuk pengecaman teks dan bekerjasama dengan LLM untuk pemprosesan teks.

Izinkan saya memperkenalkan kepada anda projek sumber terbuka AIGC terkini-AnimagineXL3.1. Projek ini adalah lelaran terkini model teks-ke-imej bertema anime, yang bertujuan untuk menyediakan pengguna pengalaman penjanaan imej anime yang lebih optimum dan berkuasa. Dalam AnimagineXL3.1, pasukan pembangunan menumpukan pada mengoptimumkan beberapa aspek utama untuk memastikan model mencapai tahap prestasi dan kefungsian yang baharu. Pertama, mereka mengembangkan data latihan untuk memasukkan bukan sahaja data watak permainan daripada versi sebelumnya, tetapi juga data daripada banyak siri anime terkenal lain ke dalam set latihan. Langkah ini memperkayakan pangkalan pengetahuan model, membolehkannya memahami pelbagai gaya dan watak anime dengan lebih lengkap. AnimagineXL3.1 memperkenalkan set teg khas dan estetika baharu

FP8 dan ketepatan pengiraan titik terapung yang lebih rendah bukan lagi "paten" H100! Lao Huang mahu semua orang menggunakan INT8/INT4, dan pasukan Microsoft DeepSpeed memaksa diri mereka menjalankan FP6 pada A100 tanpa sokongan rasmi daripada Nvidia. Keputusan ujian menunjukkan bahawa kaedah baharu TC-FPx FP6 kuantisasi pada A100 adalah hampir atau kadangkala lebih pantas daripada INT4, dan mempunyai ketepatan yang lebih tinggi daripada yang terakhir. Selain itu, terdapat juga sokongan model besar hujung ke hujung, yang telah bersumberkan terbuka dan disepadukan ke dalam rangka kerja inferens pembelajaran mendalam seperti DeepSpeed. Keputusan ini juga mempunyai kesan serta-merta pada mempercepatkan model besar - di bawah rangka kerja ini, menggunakan satu kad untuk menjalankan Llama, daya pemprosesan adalah 2.65 kali lebih tinggi daripada dua kad. satu
