Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python-Tutorial Python-php.cn

Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python

DDD

Lepaskan： 2024-10-30 10:57:02

asal

1000 orang telah melayarinya

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Ringkasan

Artikel ini mengajar anda cara membahagikan set data kepada data latihan dan ujian serta menyimpan bahagian ini dalam fail .pkl, penting untuk melatih dan menilai model Pembelajaran Mesin dengan cara yang teratur. Proses ini menggunakan perpustakaan sklearn dan pickle, membolehkan anda menggunakan semula data yang diproses dalam projek masa hadapan. Artikel ini ialah langkah seterusnya dalam satu siri tutorial tentang prapemprosesan data.

Topik Utama Dilindungi:

Penyediaan buku nota di Google Colab
Pembahagian set data kepada data latihan dan ujian
Penjelasan terperinci kod Python untuk pembahagian
Menyimpan pecahan ke fail .pkl menggunakan jeruk
Kelebihan menyimpan data yang diproses untuk kegunaan masa hadapan

Penting: Untuk mengikuti artikel ini, mula-mula baca artikel di bawah dalam urutan yang dicadangkan. Setiap artikel menyediakan asas yang anda perlukan untuk memahami seterusnya, memastikan anda memahami keseluruhan aliran kerja sehingga ke tahap ini.

Perkara 1: Mengaplikasikan Pembelajaran Mesin: Panduan untuk Bermula sebagai Model dalam Pengelasan

Perkara 2: Meneroka Klasifikasi dalam Pembelajaran Mesin: Jenis Pembolehubah

Artikel 3: Meneroka Google Colab: Rakan Anda untuk Pengekodan Model Pembelajaran Mesin

Perkara 4: Meneroka Data dengan Python di Google Colab: Panduan Praktikal Menggunakan Set Data adult.csv

Perkara 5: Menyahmistikan Pembahagian Peramal dan Kelas dan Pengendalian Atribut Kategori dengan LabelEncoder dan OneHotEncoder

Perkara 6: Penskalaan Data: Asas untuk Model Cekap

pengenalan

Dalam artikel ini, anda akan belajar cara membahagikan set data kepada latihan dan ujian, serta menyimpan bahagian ini dalam fail .pkl. Proses ini penting untuk memastikan pemisahan yang bersih antara data yang akan digunakan untuk melatih model dan yang akan digunakan untuk menilai prestasinya.

Memulakan proses dalam Google Colab

Pertama sekali, akses pautan buku nota ini dan pilih Fail > Simpan salinan ke Drive. Ingat bahawa set data (adult.csv) perlu dimuatkan sekali lagi dengan setiap siaran baharu (maklumat lanjut dalam Artikel 4 di atas), kerana setiap tutorial mencipta buku nota baharu, hanya menambah kod yang diperlukan yang dibentangkan dalam artikel ini, tetapi buku nota disertakan dengan semua kod yang dihasilkan setakat ini. Salinan buku nota akan disimpan di Google Drive, dalam folder Buku Nota Colab, memastikan proses teratur dan berterusan.

Mengapa membahagikan set data kepada latihan dan ujian?

Membahagikan set data ialah langkah asas dalam mana-mana projek Pembelajaran Mesin, kerana ia membolehkan model "belajar" daripada sebahagian data (latihan) dan kemudian dinilai pada data baharu, yang tidak pernah dilihat sebelum ini (ujian). Amalan ini penting untuk mengukur generalisasi model. Untuk memudahkan pemantauan, kami akan menggunakan pembolehubah berikut:

X_adult_treinamento: pembolehubah peramal latihan
X_adult_teste: pembolehubah peramal ujian
y_adult_treinamento: pembolehubah sasaran latihan
y_adult_teste: pembolehubah sasaran ujian

Kod Python untuk memisahkan set data

Di bawah ialah kod Python untuk melakukan pemisahan antara data latihan dan ujian:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

Salin selepas log masuk

Rajah di bawah menunjukkan kod sebelumnya dengan outputnya selepas pelaksanaan.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

train_test_split: Berfungsi daripada pustaka sklearn yang membahagikan set data.
test_size=0.2: Menunjukkan bahawa 20% daripada data akan dikhaskan untuk ujian, dan baki 80% untuk latihan.
random_state=0: Memastikan pembahagian sentiasa sama, menjana hasil yang konsisten untuk setiap larian.
bentuk: Semak bentuk data selepas pemisahan untuk mengesahkan bahawa pemisahan berlaku dengan betul.

Menyimpan pemisahan ke fail .pkl

Untuk memudahkan kerja dan memastikan konsistensi antara larian yang berbeza, kami akan menyimpan pembolehubah latihan dan ujian dalam fail .pkl. Ini membolehkan anda menggunakan semula data apabila perlu, tanpa perlu melakukan pembahagian lagi.

Kod untuk menyimpan pembolehubah menggunakan jeruk:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Salin selepas log masuk

Untuk melihat fail adult.pkl pada buku nota, cuma klik pada ikon folder di sebelah kiri seperti yang ditunjukkan dalam rajah di bawah.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

acar: Pustaka Python digunakan untuk menyerikan objek, membolehkan anda menyimpan pembolehubah kompleks dalam fail.
buang: Menyimpan pembolehubah dalam fail yang dipanggil adult.pkl. Fail ini akan dibaca pada masa hadapan untuk memuatkan set data yang dibahagikan kepada latihan dan ujian, mengoptimumkan aliran kerja.

Kesimpulan

Dalam artikel ini, anda mempelajari cara membahagikan set data kepada data latihan dan ujian serta menyimpannya dalam fail .pkl. Proses ini adalah asas dalam projek Pembelajaran Mesin, memastikan struktur yang teratur dan cekap. Dalam artikel seterusnya, kami akan membincangkan penciptaan model, bermula dengan algoritma Naive Bayes, menggunakan fail adult.pkl untuk meneruskan pembangunan.

Buku yang saya cadangkan

1. Statistik Praktikal untuk Saintis Data
2. Pengenalan kepada Pengkomputeran Menggunakan Python
3. 2041: Bagaimana Kepintaran Buatan Akan Mengubah Kehidupan Anda Dalam Dekad Akan Datang
4. Kursus Sawa Intensif
5. Memahami Algoritma. Panduan Bergambar untuk Pengaturcara dan Orang Lain Yang Ingin Tahu
6. Kecerdasan Buatan - Kai-Fu Lee
7. Pengenalan kepada Kepintaran Buatan - Pendekatan Bukan Teknikal - Tom Taulli

Kindle Baharu

Saya melakukan analisis terperinci tentang Kindle baharu yang dilancarkan tahun ini, menyerlahkan inovasi dan faedah utama mereka untuk pembaca digital. Lihat teks penuh di pautan berikut: Dunia Pembacaan Digital yang Menarik: Kelebihan Mempunyai Kindle.

Amazon Prime

Menyertai Amazon Prime menawarkan satu siri kelebihan, termasuk akses tanpa had kepada beribu-ribu filem, siri dan muzik, serta penghantaran percuma untuk berjuta-juta produk dengan penghantaran pantas. Ahli juga menikmati tawaran eksklusif, akses awal kepada promosi dan faedah pada perkhidmatan seperti Prime Video, Prime Music dan Prime Reading, menjadikan pengalaman membeli-belah dan hiburan lebih mudah dan kaya.

Jika anda berminat, gunakan pautan berikut: AMAZON PRIME, yang membantu saya terus mempromosikan kecerdasan buatan dan pengaturcaraan komputer.

Atas ialah kandungan terperinci Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!