Menormalkan Lajur Bingkai Data untuk Ketekalan
Dalam analisis data, selalunya perlu menormalkan lajur bingkai data untuk memastikan konsistensi dalam julat data. Ini amat penting apabila berurusan dengan data daripada sumber yang pelbagai atau apabila nilai berada pada skala yang berbeza.
Pernyataan Masalah
Pertimbangkan bingkai data dengan lajur yang mempunyai julat nilai yang berbeza-beza:
df: A B C 1000 10 0.5 765 5 0.35 800 7 0.09
Objektifnya adalah untuk menormalkan lajur bingkai data ini supaya setiap nilai jatuh antara 0 dan 1.
Penyelesaian
Penormalan Min
Menggunakan Panda, penormalan min boleh dilaksanakan seperti berikut:
normalized_df = (df - df.mean()) / df.std()
Kaedah ini menolak min setiap lajur daripada nilai asal dan kemudian membahagikannya dengan sisihan piawai.
Penormalan Min-Maks
Untuk penormalan min-maks:
normalized_df = (df - df.min()) / (df.max() - df.min())
Pendekatan ini mengira nilai minimum dan maksimum setiap lajur dan menggunakannya untuk menskalakan nilai asal kepada julat [0, 1].
Hasil
Kedua-dua kaedah penormalan akan menghasilkan bingkai data dengan lajur di mana setiap nilai adalah antara 0 dan 1. Untuk kerangka data contoh yang diberikan, output yang dijangkakan ialah:
A B C 1 1 1 0.765 0.5 0.7 0.8 0.7 0.18
Atas ialah kandungan terperinci Bagaimanakah Anda Boleh Menormalkan Lajur DataFrame untuk Mencapai Ketekalan Data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!