Cara praproses Set Data anda
Pengenalan
Dataset Titanic ialah set data klasik yang digunakan dalam sains data dan projek pembelajaran mesin. Ia mengandungi maklumat tentang penumpang di Titanic, dan matlamat selalunya adalah untuk meramalkan penumpang yang terselamat daripada bencana itu. Sebelum membina sebarang model ramalan, adalah penting untuk mempraproses data untuk memastikan ia bersih dan sesuai untuk analisis. Catatan blog ini akan membimbing anda melalui langkah-langkah penting untuk pramemproses set data Titanic menggunakan Python.
Langkah 1: Memuatkan Data
Langkah pertama dalam mana-mana projek analisis data ialah memuatkan set data. Kami menggunakan perpustakaan panda untuk membaca fail CSV yang mengandungi data Titanic. Set data ini termasuk ciri seperti Nama, Umur, Jantina, Tiket, Tambang dan sama ada penumpang terselamat (Terselamat).
import pandas as pd import numpy as np
Muatkan set data Titanic
titanic = pd.read_csv('titanic.csv') titanic.head()
Fahami data
Dataset mengandungi pembolehubah berikut yang berkaitan dengan penumpang di Titanic:
-
Kelangsungan Hidup: Menunjukkan jika penumpang terselamat.
- 0 = Tidak
- 1 = Ya
-
Pclass: Kelas tiket penumpang.
- 1 = kelas 1
- 2 = kelas ke-2
- 3 = kelas 3
Sex: Jantina penumpang.
Umur: Umur penumpang dalam tahun.
SibSp: Bilangan adik beradik atau pasangan di atas Titanic.
Parch: Bilangan ibu bapa atau kanak-kanak di atas kapal Titanic.
Tiket: Nombor tiket.
Tambang: Tambang penumpang.
Kabin: Nombor kabin.
-
Bermula: Pelabuhan berlepas.
- C = Cherbourg
- Q = Queenstown
- S = Southampton
Langkah 2: Analisis Data Penerokaan (EDA)
Analisis Data Penerokaan (EDA) melibatkan pemeriksaan set data untuk memahami strukturnya dan hubungan antara pembolehubah yang berbeza. Langkah ini membantu mengenal pasti sebarang corak, aliran atau anomali dalam data.
Ikhtisar Set Data
Kami bermula dengan memaparkan beberapa baris pertama set data dan mendapatkan ringkasan statistik. Ini memberi kita idea tentang jenis data, julat nilai dan kehadiran sebarang nilai yang hilang.
# Display the first few rows print(titanic.head()) # Summary statistics print(titanic.describe(include='all'))
Langkah 3: Pembersihan Data
Pembersihan data ialah proses mengendalikan nilai yang hilang, membetulkan jenis data dan mengalih keluar sebarang ketidakkonsistenan. Dalam set data Titanic, ciri seperti Age, Cabin dan Embarked mempunyai nilai yang tiada.
Mengendalikan Nilai Yang Hilang
Untuk mengendalikan nilai yang tiada, kami boleh mengisinya dengan nilai yang sesuai atau menggugurkan baris/lajur dengan data yang tiada. Contohnya, kita boleh mengisi nilai Umur yang tiada dengan umur median dan menjatuhkan baris dengan nilai Embarked yang tiada.
# Fill missing age values with the mode titanic['Age'].fillna(titanic['Age'].mode(), inplace=True) # Drop rows with missing 'Embarked' values titanic.dropna(subset=['Embarked'], inplace=True) # Check remaining missing values print(titanic.isnull().sum())
Langkah 4: Kejuruteraan Ciri
Kejuruteraan ciri melibatkan mengubah yang sedia ada untuk meningkatkan prestasi model. Langkah ini boleh termasuk pengekodan pembolehubah kategori yang menskalakan ciri berangka.
Pengekodan Pembolehubah Kategori
Algoritma pembelajaran mesin memerlukan input berangka, jadi kami perlu menukar ciri kategori kepada ciri berangka. Kami boleh menggunakan pengekodan satu-panas untuk ciri seperti Sex and Embarked.
# Convert categorical features to numerical from sklearn import preprocessing le = preprocessing.LabelEncoder() #fit the required column to be transformed le.fit(df['Sex']) df['Sex'] = le.transform(df['Sex'])
Kesimpulan
Prapemprosesan ialah langkah kritikal dalam mana-mana projek sains data. Dalam catatan blog ini, kami merangkumi langkah-langkah penting untuk memuatkan data, melaksanakan analisis data penerokaan, membersihkan data dan kejuruteraan ciri. Langkah ini membantu memastikan data kami sedia untuk analisis atau pembinaan model. Langkah seterusnya ialah menggunakan data praproses ini untuk membina model ramalan dan menilai prestasinya. Untuk mendapatkan maklumat lanjut, lihat buku nota colab saya
Dengan mengikuti langkah-langkah ini, pemula boleh mendapat asas yang kukuh dalam prapemprosesan data, menetapkan peringkat untuk analisis data yang lebih maju dan tugasan pembelajaran mesin. Selamat mengekod!
Atas ialah kandungan terperinci Cara praproses Set Data anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Cache Menggunakan Redis dalam Aplikasi Django

Memperkenalkan Toolkit Bahasa Alam (NLTK)

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?
