Sains Data Gunaan mengenai pelanggaran data + Bonus

王林
Lepaskan: 2024-08-29 06:32:05
asal
380 orang telah melayarinya

Helo!

Hari ini saya memutuskan untuk membenamkan dua domain: sains data dan keselamatan siber.

Ikuti bersama dan anda akan melihat perkara yang saya tulis.
Applied Data Science on data breaches + Bonus

Apa yang saya buat?

Saya melakukan analisis ke atas bilangan serangan berdasarkan jenis organisasi.
Saya memuat turun set data daripada Kaggle.
Kemudian, saya mula mengusahakan data menggunakan Jupyter Lab dan Python.

Buku nota adalah untuk tujuan latihan, untuk menguji dan memerhati- atau bermain dengan- data.

Applied Data Science on data breaches + Bonus

Seperti biasa, yang pertama dan terpenting saya mengimport data. Kemudian, saya memuatkan dan membersihkan set data.

Membersihkan data ialah langkah yang boleh dilakukan lebih banyak kali, kerana EDA (Analisis Data Penerokaan) ialah proses berulang dan tidak berurutan. Oleh itu, kemudian saya meneruskan proses ini, untuk mendedahkan cerapan yang bermakna.

Sedikit perkataan tentang statistik

Saya memilih pensampelan rawak mudah n=40 untuk mengetahui organisasi mana yang lebih terdedah kepada serangan siber, berdasarkan bilangan serangan. Persampelan rawak mudah bermakna setiap ahli populasi mempunyai peluang yang sama untuk dipilih.

Hipotesis

  1. Hipotesis Nol (H0): Tiada perbezaan yang ketara dalam bilangan serangan siber yang dialami oleh pelbagai jenis organisasi.

  2. Hipotesis Alternatif (H1): Bilangan serangan siber berbeza dengan ketara merentas pelbagai jenis organisasi.

Menurut bilangan maksimum serangan, disimpulkan bahawa industri penjagaan kesihatan lebih terdedah, dengan 6 serangan. Sebaliknya, perbankan mempunyai bilangan serangan paling rendah, iaitu 1.

Akhirnya, saya melakukan ujian Shapiro- Wilk, untuk menyemak normaliti taburan set data. Hipotesis Null telah ditolak, jadi data tidak kelihatan bertaburan normal. Saya menggunakan ujian Kruskal- Wallis, yang mana saya gagal menolak Hipotesis Null- bermakna tiada perbezaan yang signifikan antara kumpulan. Dalam istilah yang lebih mudah, ini bermakna tiada bukti yang mencukupi untuk mengatakan dengan yakin bahawa satu jenis organisasi lebih terdedah kepada serangan siber berbanding yang lain.

Had dan pertimbangan masa depan

Tiada tahap keyakinan, margin ralat dan selang keyakinan ditetapkan. Saiz sampel adalah kecil, oleh itu adalah lebih sukar untuk mengesan perbezaan ketara secara statistik. Pada masa hadapan, pemilihan sampel akan mematuhi langkah-langkah ini dan sampel yang lebih besar akan dipertimbangkan.

Anda boleh menemui keseluruhan kerja pada halaman GitHub saya. ?

BONUS ?

Seperti yang saya nyatakan, artikel ini mempunyai bonus. Gabungan sains data dan keselamatan siber diteruskan: Saya membuat penulisan untuk Direktori Attacktive bilik TryHackMe!
Seseorang boleh mengatakan, pada pandangan pertama, bahawa topik ini tidak berkaitan. Sebenarnya, ini adalah demonstrasi bagaimana pelanggaran boleh berlaku! ? Kerana pelanggaran data kelihatan entah bagaimana dan atas sebab tertentu.

Ingin tahu? Baik, semak penulisan saya daripada halaman GitHub saya.


Apakah pendapat anda?

Atas ialah kandungan terperinci Sains Data Gunaan mengenai pelanggaran data + Bonus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:dev.to
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!