Rumah pembangunan bahagian belakang Tutorial Python Cara praproses Set Data anda

Cara praproses Set Data anda

Jul 30, 2024 pm 06:03 PM

How to preprocess your Dataset

Pengenalan

Dataset Titanic ialah set data klasik yang digunakan dalam sains data dan projek pembelajaran mesin. Ia mengandungi maklumat tentang penumpang di Titanic, dan matlamat selalunya adalah untuk meramalkan penumpang yang terselamat daripada bencana itu. Sebelum membina sebarang model ramalan, adalah penting untuk mempraproses data untuk memastikan ia bersih dan sesuai untuk analisis. Catatan blog ini akan membimbing anda melalui langkah-langkah penting untuk pramemproses set data Titanic menggunakan Python.

Langkah 1: Memuatkan Data

Langkah pertama dalam mana-mana projek analisis data ialah memuatkan set data. Kami menggunakan perpustakaan panda untuk membaca fail CSV yang mengandungi data Titanic. Set data ini termasuk ciri seperti Nama, Umur, Jantina, Tiket, Tambang dan sama ada penumpang terselamat (Terselamat).

import pandas as pd
import numpy as np
Salin selepas log masuk

Muatkan set data Titanic

titanic = pd.read_csv('titanic.csv')
titanic.head()

Salin selepas log masuk

Fahami data

Dataset mengandungi pembolehubah berikut yang berkaitan dengan penumpang di Titanic:

  • Kelangsungan Hidup: Menunjukkan jika penumpang terselamat.

    • 0 = Tidak
    • 1 = Ya
  • Pclass: Kelas tiket penumpang.

    • 1 = kelas 1
    • 2 = kelas ke-2
    • 3 = kelas 3
  • Sex: Jantina penumpang.

  • Umur: Umur penumpang dalam tahun.

  • SibSp: Bilangan adik beradik atau pasangan di atas Titanic.

  • Parch: Bilangan ibu bapa atau kanak-kanak di atas kapal Titanic.

  • Tiket: Nombor tiket.

  • Tambang: Tambang penumpang.

  • Kabin: Nombor kabin.

  • Bermula: Pelabuhan berlepas.

    • C = Cherbourg
    • Q = Queenstown
    • S = Southampton

Langkah 2: Analisis Data Penerokaan (EDA)

Analisis Data Penerokaan (EDA) melibatkan pemeriksaan set data untuk memahami strukturnya dan hubungan antara pembolehubah yang berbeza. Langkah ini membantu mengenal pasti sebarang corak, aliran atau anomali dalam data.

Ikhtisar Set Data

Kami bermula dengan memaparkan beberapa baris pertama set data dan mendapatkan ringkasan statistik. Ini memberi kita idea tentang jenis data, julat nilai dan kehadiran sebarang nilai yang hilang.

# Display the first few rows
print(titanic.head())

# Summary statistics
print(titanic.describe(include='all'))
Salin selepas log masuk

Langkah 3: Pembersihan Data

Pembersihan data ialah proses mengendalikan nilai yang hilang, membetulkan jenis data dan mengalih keluar sebarang ketidakkonsistenan. Dalam set data Titanic, ciri seperti Age, Cabin dan Embarked mempunyai nilai yang tiada.

Mengendalikan Nilai Yang Hilang

Untuk mengendalikan nilai yang tiada, kami boleh mengisinya dengan nilai yang sesuai atau menggugurkan baris/lajur dengan data yang tiada. Contohnya, kita boleh mengisi nilai Umur yang tiada dengan umur median dan menjatuhkan baris dengan nilai Embarked yang tiada.

# Fill missing age values with the mode
titanic['Age'].fillna(titanic['Age'].mode(), inplace=True)

# Drop rows with missing 'Embarked' values
titanic.dropna(subset=['Embarked'], inplace=True)

# Check remaining missing values
print(titanic.isnull().sum())
Salin selepas log masuk

Langkah 4: Kejuruteraan Ciri

Kejuruteraan ciri melibatkan mengubah yang sedia ada untuk meningkatkan prestasi model. Langkah ini boleh termasuk pengekodan pembolehubah kategori yang menskalakan ciri berangka.

Pengekodan Pembolehubah Kategori

Algoritma pembelajaran mesin memerlukan input berangka, jadi kami perlu menukar ciri kategori kepada ciri berangka. Kami boleh menggunakan pengekodan satu-panas untuk ciri seperti Sex and Embarked.

# Convert categorical features to numerical
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

#fit the required column to be transformed
le.fit(df['Sex'])
df['Sex'] = le.transform(df['Sex'])
Salin selepas log masuk

Kesimpulan

Prapemprosesan ialah langkah kritikal dalam mana-mana projek sains data. Dalam catatan blog ini, kami merangkumi langkah-langkah penting untuk memuatkan data, melaksanakan analisis data penerokaan, membersihkan data dan kejuruteraan ciri. Langkah ini membantu memastikan data kami sedia untuk analisis atau pembinaan model. Langkah seterusnya ialah menggunakan data praproses ini untuk membina model ramalan dan menilai prestasinya. Untuk mendapatkan maklumat lanjut, lihat buku nota colab saya

Dengan mengikuti langkah-langkah ini, pemula boleh mendapat asas yang kukuh dalam prapemprosesan data, menetapkan peringkat untuk analisis data yang lebih maju dan tugasan pembelajaran mesin. Selamat mengekod!

Atas ialah kandungan terperinci Cara praproses Set Data anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks Mar 05, 2025 am 09:58 AM

Cara Menggunakan Python untuk Mencari Pengagihan Zipf Fail Teks

Cara memuat turun fail di python Cara memuat turun fail di python Mar 01, 2025 am 10:03 AM

Cara memuat turun fail di python

Penapisan gambar di python Penapisan gambar di python Mar 03, 2025 am 09:44 AM

Penapisan gambar di python

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Bagaimana saya menggunakan sup yang indah untuk menghuraikan html? Mar 10, 2025 pm 06:54 PM

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Cara Bekerja Dengan Dokumen PDF Menggunakan Python Cara Bekerja Dengan Dokumen PDF Menggunakan Python Mar 02, 2025 am 09:54 AM

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Cache Menggunakan Redis dalam Aplikasi Django Cara Cache Menggunakan Redis dalam Aplikasi Django Mar 02, 2025 am 10:10 AM

Cara Cache Menggunakan Redis dalam Aplikasi Django

Memperkenalkan Toolkit Bahasa Alam (NLTK) Memperkenalkan Toolkit Bahasa Alam (NLTK) Mar 01, 2025 am 10:05 AM

Memperkenalkan Toolkit Bahasa Alam (NLTK)

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch? Mar 10, 2025 pm 06:52 PM

Bagaimana untuk melakukan pembelajaran mendalam dengan Tensorflow atau Pytorch?

See all articles