Membangunkan sistem keselamatan AI menggunakan biometrik tepi-AI-php.cn

Penterjemah |. Zhu Xianzhong

Penilai |. . Bagi syarikat yang mempunyai banyak pejabat dengan ribuan pekerja. Kunci elektronik adalah salah satu pilihan standard untuk mengautomasikan sistem keselamatan, tetapi dalam praktiknya, masih terdapat banyak kelemahan seperti kunci hilang, terlupa atau palsu.

Biometrik ialah alternatif yang boleh dipercayai kepada langkah keselamatan tradisional kerana ia mewakili konsep pengesahan "apakah anda". Ini bermakna pengguna boleh menggunakan ciri unik mereka, seperti cap jari, iris, suara atau muka, untuk membuktikan mereka mempunyai akses kepada ruang. Menggunakan biometrik sebagai kaedah pengesahan memastikan bahawa kunci tidak boleh hilang, dilupakan atau dipalsukan. Oleh itu, dalam artikel ini, kami akan bercakap tentang pengalaman kami dalam membangunkan biometrik tepi, yang merupakan gabungan peranti tepi, kecerdasan buatan dan biometrik untuk melaksanakan sistem pemantauan keselamatan berdasarkan teknologi kecerdasan buatan.

Apakah biometrik tepi?

Pertama, mari kita jelaskan: Apakah edge AI? Dalam seni bina kecerdasan buatan tradisional, adalah amalan biasa untuk menggunakan model dan data dalam awan, dipisahkan daripada peranti pengendalian atau penderia perkakasan. Ini memaksa kami untuk memastikan pelayan awan dalam keadaan yang betul, mengekalkan sambungan internet yang stabil dan membayar perkhidmatan awan. Jika storan jauh tidak boleh diakses sekiranya sambungan internet terputus, keseluruhan aplikasi AI akan menjadi tidak berguna.

“Sebaliknya, idea Edge AI adalah untuk menggunakan aplikasi kecerdasan buatan pada peranti, lebih dekat dengan pengguna peranti Edge mungkin mempunyai GPU sendiri, membolehkan kami memproses input secara setempat pada peranti.

Ini memberikan banyak kelebihan seperti kependaman yang dikurangkan kerana semua operasi dilakukan secara setempat pada peranti, dan kos keseluruhan serta penggunaan kuasa juga menjadi lebih rendah kerana peranti boleh dialihkan dengan mudah dari satu lokasi ke lokasi lain, jadi keseluruhan sistem lebih mudah alih

Memandangkan kita tidak memerlukan ekosistem yang besar, keperluan lebar jalur juga lebih rendah berbanding dengan sistem keselamatan tradisional yang bergantung pada sambungan internet yang stabil walaupun pada peranti edge berjalan dengan sambungan tertutup kerana data boleh disimpan dalam memori dalaman peranti ini menjadikan keseluruhan reka bentuk sistem lebih dipercayai dan teguh ”

- Daniel Lyadov (Jurutera Python di MobiDev)

Satu-satunya kelemahan yang ketara ialah. bahawa semua pemprosesan mesti dilakukan pada peranti dalam tempoh yang singkat dan komponen perkakasan mestilah cukup berkuasa dan terkini untuk membolehkan fungsi ini.

Untuk tugasan pengesahan biometrik seperti pengecaman muka atau suara, tindak balas pantas dan kebolehpercayaan sistem keselamatan adalah penting. Kerana kami ingin memastikan pengalaman pengguna yang lancar dan keselamatan yang sesuai, bergantung pada peranti edge memberikan manfaat ini.

Maklumat biometrik, seperti wajah dan suara pekerja, nampaknya cukup selamat kerana ia mewakili corak unik yang boleh dikenali oleh rangkaian saraf. Selain itu, jenis data ini lebih mudah untuk dikumpulkan kerana kebanyakan perniagaan sudah mempunyai foto pekerja mereka dalam CRM atau ERP mereka. Dengan cara ini, anda juga boleh mengelakkan sebarang isu privasi dengan mengumpul sampel cap jari pekerja anda.

Digabungkan dengan teknologi edge, kami boleh mencipta sistem kamera keselamatan AI yang fleksibel untuk pintu masuk ruang kerja. Di bawah, kami akan membincangkan cara melaksanakan sistem sedemikian berdasarkan pengalaman pembangunan syarikat kami sendiri dan dengan bantuan biometrik tepi.

Reka Bentuk Sistem Pengawasan Kecerdasan Buatan

Tujuan utama projek ini adalah untuk mengesahkan pekerja di pintu masuk pejabat dengan hanya melihat ke arah kamera. Model penglihatan komputer dapat mengecam wajah seseorang, membandingkannya dengan foto yang diperoleh sebelum ini, dan kemudian mengawal pembukaan pintu secara automatik. Sebagai langkah tambahan, sokongan pengesahan suara juga akan ditambah untuk mengelakkan penipuan sistem dalam apa jua cara. Keseluruhan saluran paip terdiri daripada 4 model, yang bertanggungjawab untuk melaksanakan tugas yang berbeza daripada pengesanan muka kepada pengecaman pertuturan.

Semua langkah ini dicapai melalui satu peranti yang bertindak sebagai penderia input video/audio dan pengawal yang menghantar arahan kunci/buka kunci. Sebagai peranti kelebihan, kami memilih untuk menggunakan Jetson Xavier NVIDIA. Pilihan ini dibuat terutamanya disebabkan oleh penggunaan memori GPU (penting untuk mempercepatkan inferens untuk projek pembelajaran mendalam) dan Jetpack–SDK yang sangat tersedia daripada NVIDIA, yang menyokong peranti berdasarkan persekitaran Python 3. Oleh itu, tidak ada keperluan ketat untuk menukar model DS kepada format lain, dan hampir semua asas kod boleh disesuaikan oleh jurutera DS ke peranti tambahan pula, tidak perlu menulis semula dari satu bahasa pengaturcaraan ke bahasa lain.

Membangunkan sistem keselamatan AI menggunakan biometrik tepi Aliran kerja sistem keselamatan AI

Mengikut penerangan di atas, keseluruhan proses mengikuti aliran berikut:

1 imej ke Model pengesanan muka untuk mencari pengguna.

2. Model pengecaman muka melakukan inferens dengan mengekstrak vektor dan membandingkannya dengan foto pekerja sedia ada untuk menentukan sama ada ia adalah orang yang sama.

3. Model lain adalah untuk mengesahkan suara orang tertentu melalui sampel suara.

4. Selain itu, penyelesaian anti-penipuan suara-ke-teks diguna pakai untuk mencegah sebarang jenis teknologi penipuan.

Seterusnya, mari kita bincangkan setiap langkah pelaksanaan dan terangkan proses latihan dan pengumpulan data secara terperinci.

Pengumpulan Data

Sebelum mendalami modul sistem, pastikan anda memberi perhatian kepada pangkalan data yang digunakan. Sistem kami bergantung pada menyediakan pengguna dengan apa yang dipanggil rujukan atau data kebenaran asas. Data pada masa ini termasuk vektor muka dan suara yang diprakira untuk setiap pengguna, yang kelihatan seperti susunan nombor. Sistem ini juga menyimpan data log masuk yang berjaya untuk latihan semula masa hadapan. Memandangkan ini, kami memilih penyelesaian yang paling ringan, SQLite DB. Dengan pangkalan data ini, semua data disimpan dalam satu fail yang mudah untuk disemak imbas dan disandarkan, dan keluk pembelajaran untuk jurutera sains data adalah lebih pendek.

Oleh kerana pengecaman muka memerlukan foto semua pekerja yang mungkin datang ke pejabat, kami menggunakan foto wajah yang disimpan dalam pangkalan data syarikat. Peranti Jetson yang diletakkan di ambang pintu pejabat juga mengumpul sampel data muka apabila orang menggunakan pengesahan muka untuk membuka pintu.

Pada mulanya data suara tidak tersedia, jadi kami mengatur pengumpulan data dan meminta orang ramai merakam klip 20 saat. Kami kemudian menggunakan model pengesahan pertuturan untuk mendapatkan vektor setiap orang dan menyimpannya dalam pangkalan data. Anda boleh menangkap sampel pertuturan menggunakan sebarang peranti input audio. Dalam projek kami, kami menggunakan telefon mudah alih dan kamera web dengan mikrofon terbina dalam untuk merakam bunyi.

Pengesanan Muka

Pengesanan Muka boleh menentukan sama ada wajah manusia hadir dalam adegan tertentu. Jika ya, model harus memberikan anda koordinat setiap wajah supaya anda tahu di mana setiap wajah berada pada imej, termasuk tanda tempat muka. Maklumat ini penting kerana kita perlu menerima muka dalam kotak sempadan untuk menjalankan pengecaman muka dalam langkah seterusnya.

Untuk pengesanan muka, kami menggunakan model

RetinaFace

dan komponen utama MobileNet daripada projek InsightFace. Model ini mengeluarkan empat koordinat untuk setiap wajah yang dikesan pada imej bersama-sama dengan 5 label muka. Malah, imej yang diambil pada sudut berbeza atau menggunakan optik berbeza mungkin mengubah perkadaran muka akibat herotan. Ini boleh menyebabkan model mengalami kesukaran mengenal pasti orang tersebut. Untuk memenuhi keperluan ini, tanda tempat wajah digunakan untuk morphing, teknik yang mengurangkan perbezaan yang mungkin wujud antara imej orang yang sama ini. Oleh itu, permukaan terpotong dan terherot yang diperoleh kelihatan lebih serupa, dan vektor muka yang diekstrak adalah lebih tepat.

Pengecaman Muka

Langkah seterusnya ialah pengecaman muka. Dalam peringkat ini, model perlu mengenali orang daripada imej yang diberikan (iaitu imej yang diperolehi). Pengenalpastian dilakukan dengan bantuan rujukan (data kebenaran tanah). Jadi di sini, model akan membandingkan dua vektor dengan mengukur skor jarak perbezaan antara mereka untuk menentukan sama ada ia adalah orang yang sama berdiri di hadapan kamera. Algoritma penilaian akan membandingkannya dengan foto awal yang kami ada tentang seorang pekerja.

Pengecaman muka dilengkapkan menggunakan model SE-ResNet-50 model. Untuk menjadikan hasil model lebih mantap, imej akan diterbalikkan dan dipuratakan sebelum mendapat input vektor muka. Pada ketika ini, proses pengenalan pengguna adalah seperti berikut:

Membangunkan sistem keselamatan AI menggunakan biometrik tepi

Proses Pengesahan Muka dan Suara

Pengesahan Suara

Seterusnya, kami bergerak untuk menyuarakan pautan Pengesahan. Langkah ini perlu dilakukan untuk mengesahkan bahawa kedua-dua audio mengandungi suara orang yang sama. Anda mungkin bertanya, mengapa tidak pertimbangkan pengecaman pertuturan? Jawapannya ialah pengecaman muka kini jauh lebih baik daripada pertuturan, dan imej boleh memberikan lebih banyak maklumat daripada pertuturan untuk mengenal pasti pengguna. Untuk mengelakkan pengecaman pengguna A melalui muka dan pengguna B melalui suara, sistem hanya menggunakan penyelesaian pengecaman muka.

Logik asasnya hampir sama dengan peringkat pengecaman muka, kerana kita membandingkan dua vektor mengikut jarak antara mereka, melainkan kita menjumpai vektor yang serupa. Satu-satunya perbezaan ialah kita sudah mempunyai hipotesis tentang siapa orang yang cuba lulus dari modul pengecaman muka sebelumnya.

Semasa pembangunan aktif modul Pengesahan Suara, beberapa isu timbul.

Model sebelumnya yang menggunakan seni bina Jasper tidak dapat mengesahkan rakaman yang dibuat oleh orang yang sama daripada mikrofon berbeza. Oleh itu, kami menyelesaikan masalah ini dengan menggunakan seni bina ECAPA-TDNN, yang dilatih pada set data VoxCeleb2 rangka kerja SpeechBrain, yang melakukan tugas yang lebih baik untuk mengesahkan pekerja. Walau bagaimanapun, klip audio masih memerlukan beberapa pra-pemprosesan. Matlamatnya adalah untuk meningkatkan kualiti rakaman audio dengan mengekalkan bunyi dan mengurangkan bunyi latar belakang semasa. Walau bagaimanapun, semua teknik ujian sangat menjejaskan kualiti model pengesahan pertuturan. Kemungkinan besar, walaupun sedikit pengurangan hingar akan mengubah ciri audio pertuturan dalam rakaman, jadi model tidak akan dapat mengesahkan orang itu dengan betul. Selain itu, kami menyiasat panjang rakaman audio dan bilangan perkataan yang perlu disebut oleh pengguna. Hasil daripada penyiasatan ini, kami membuat beberapa cadangan. Kesimpulannya ialah: tempoh rakaman sedemikian hendaklah sekurang-kurangnya 3 saat dan kira-kira 8 perkataan hendaklah dibaca dengan kuat.

Anti-penipuan pertuturan-ke-teks

Langkah keselamatan terakhir ialah sistem menggunakan anti-penipuan pertuturan-ke-teks berdasarkan

QuartzNet

dalam rangka kerja Nemo. Model ini memberikan pengalaman pengguna yang baik dan sesuai untuk senario masa nyata. Untuk mengukur sejauh mana perkara yang dikatakan oleh seseorang itu adalah dengan jangkaan sistem, jarak Levenshtein antara mereka perlu dikira.

Mendapatkan foto pekerja untuk menipu modul pengesahan muka ialah tugas yang boleh dicapai, bersama-sama dengan merakam sampel suara. Anti-penipuan pertuturan ke teks tidak meliputi senario di mana penceroboh cuba masuk ke pejabat menggunakan foto dan audio kakitangan yang diberi kuasa. Ideanya mudah: apabila setiap orang mengesahkan diri mereka sendiri, mereka bercakap frasa yang diberikan oleh sistem. Frasa terdiri daripada satu set perkataan yang dipilih secara rawak. Walaupun bilangan perkataan dalam frasa tidak begitu besar, bilangan sebenar kemungkinan gabungan agak besar. Menggunakan frasa yang dijana secara rawak, kami menghapuskan kemungkinan memperdaya sistem, yang memerlukan pengguna yang diberi kuasa untuk menyebut sejumlah besar frasa yang dirakam. Mempunyai foto pengguna tidak cukup untuk menipu sistem keselamatan AI dengan perlindungan ini. Faedah Sistem Biometrik Edge

Pada ketika ini, Sistem Biometrik Edge kami membolehkan pengguna mengikuti proses mudah yang memerlukan mereka menyebut frasa yang dijana secara rawak untuk membuka kunci pintu . Selain itu, kami menyediakan perkhidmatan pengawasan kecerdasan buatan untuk pintu masuk pejabat melalui pengesanan muka.

Modul anti-spoofing pengesahan suara dan pertuturan ke teks

Membangunkan sistem keselamatan AI menggunakan biometrik tepi “Dengan menambahkan berbilang peranti tepi, sistem boleh diubah suai dengan mudah untuk diperluaskan kepada senario yang berbeza . Berbanding dengan komputer biasa, kami boleh mengkonfigurasi Jetson secara langsung melalui rangkaian, mewujudkan sambungan dengan peranti peringkat rendah melalui antara muka GPIO, dan dengan mudah kami boleh mengintegrasikan dengan mana-mana sistem keselamatan digital dengan API web 🎜 >

Tetapi faedah utama skim ini ialah kami boleh menambah baik sistem dengan mengumpul data terus daripada peranti, memandangkan pengumpulan data di pintu masuk kelihatan sangat mudah tanpa sebarang gangguan khusus

——Daniel Lyadov (jurutera Python di MobiDev)

Pengenalan penterjemah

Zhu Xianzhong, editor komuniti 51CTO, blogger pakar 51CTO, pensyarah, guru komputer di sebuah universiti di Weifang , seorang veteran dalam dunia pengaturcaraan bebas.

Tajuk asal: Membangunkan Sistem Keselamatan AI Dengan Edge Biometrik , oleh Dmitriy Kisil

Atas ialah kandungan terperinci Membangunkan sistem keselamatan AI menggunakan biometrik tepi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!