Artikel ini mengajar anda cara membahagikan set data kepada data latihan dan ujian serta menyimpan bahagian ini dalam fail .pkl, penting untuk melatih dan menilai model Pembelajaran Mesin dengan cara yang teratur. Proses ini menggunakan perpustakaan sklearn dan pickle, membolehkan anda menggunakan semula data yang diproses dalam projek masa hadapan. Artikel ini ialah langkah seterusnya dalam satu siri tutorial tentang prapemprosesan data.
Penting: Untuk mengikuti artikel ini, mula-mula baca artikel di bawah dalam urutan yang dicadangkan. Setiap artikel menyediakan asas yang anda perlukan untuk memahami seterusnya, memastikan anda memahami keseluruhan aliran kerja sehingga ke tahap ini.
Perkara 1: Mengaplikasikan Pembelajaran Mesin: Panduan untuk Bermula sebagai Model dalam Pengelasan
Perkara 2: Meneroka Klasifikasi dalam Pembelajaran Mesin: Jenis Pembolehubah
Artikel 3: Meneroka Google Colab: Rakan Anda untuk Pengekodan Model Pembelajaran Mesin
Perkara 4: Meneroka Data dengan Python di Google Colab: Panduan Praktikal Menggunakan Set Data adult.csv
Perkara 5: Menyahmistikan Pembahagian Peramal dan Kelas dan Pengendalian Atribut Kategori dengan LabelEncoder dan OneHotEncoder
Perkara 6: Penskalaan Data: Asas untuk Model Cekap
Dalam artikel ini, anda akan belajar cara membahagikan set data kepada latihan dan ujian, serta menyimpan bahagian ini dalam fail .pkl. Proses ini penting untuk memastikan pemisahan yang bersih antara data yang akan digunakan untuk melatih model dan yang akan digunakan untuk menilai prestasinya.
Pertama sekali, akses pautan buku nota ini dan pilih Fail > Simpan salinan ke Drive. Ingat bahawa set data (adult.csv) perlu dimuatkan sekali lagi dengan setiap siaran baharu (maklumat lanjut dalam Artikel 4 di atas), kerana setiap tutorial mencipta buku nota baharu, hanya menambah kod yang diperlukan yang dibentangkan dalam artikel ini, tetapi buku nota disertakan dengan semua kod yang dihasilkan setakat ini. Salinan buku nota akan disimpan di Google Drive, dalam folder Buku Nota Colab, memastikan proses teratur dan berterusan.
Membahagikan set data ialah langkah asas dalam mana-mana projek Pembelajaran Mesin, kerana ia membolehkan model "belajar" daripada sebahagian data (latihan) dan kemudian dinilai pada data baharu, yang tidak pernah dilihat sebelum ini (ujian). Amalan ini penting untuk mengukur generalisasi model. Untuk memudahkan pemantauan, kami akan menggunakan pembolehubah berikut:
Di bawah ialah kod Python untuk melakukan pemisahan antara data latihan dan ujian:
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
Rajah di bawah menunjukkan kod sebelumnya dengan outputnya selepas pelaksanaan.
train_test_split: Berfungsi daripada pustaka sklearn yang membahagikan set data.
test_size=0.2: Menunjukkan bahawa 20% daripada data akan dikhaskan untuk ujian, dan baki 80% untuk latihan.
random_state=0: Memastikan pembahagian sentiasa sama, menjana hasil yang konsisten untuk setiap larian.
bentuk: Semak bentuk data selepas pemisahan untuk mengesahkan bahawa pemisahan berlaku dengan betul.
Untuk memudahkan kerja dan memastikan konsistensi antara larian yang berbeza, kami akan menyimpan pembolehubah latihan dan ujian dalam fail .pkl. Ini membolehkan anda menggunakan semula data apabila perlu, tanpa perlu melakukan pembahagian lagi.
Kod untuk menyimpan pembolehubah menggunakan jeruk:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
Untuk melihat fail adult.pkl pada buku nota, cuma klik pada ikon folder di sebelah kiri seperti yang ditunjukkan dalam rajah di bawah.
acar: Pustaka Python digunakan untuk menyerikan objek, membolehkan anda menyimpan pembolehubah kompleks dalam fail.
buang: Menyimpan pembolehubah dalam fail yang dipanggil adult.pkl. Fail ini akan dibaca pada masa hadapan untuk memuatkan set data yang dibahagikan kepada latihan dan ujian, mengoptimumkan aliran kerja.
Dalam artikel ini, anda mempelajari cara membahagikan set data kepada data latihan dan ujian serta menyimpannya dalam fail .pkl. Proses ini adalah asas dalam projek Pembelajaran Mesin, memastikan struktur yang teratur dan cekap. Dalam artikel seterusnya, kami akan membincangkan penciptaan model, bermula dengan algoritma Naive Bayes, menggunakan fail adult.pkl untuk meneruskan pembangunan.
1. Statistik Praktikal untuk Saintis Data
2. Pengenalan kepada Pengkomputeran Menggunakan Python
3. 2041: Bagaimana Kepintaran Buatan Akan Mengubah Kehidupan Anda Dalam Dekad Akan Datang
4. Kursus Sawa Intensif
5. Memahami Algoritma. Panduan Bergambar untuk Pengaturcara dan Orang Lain Yang Ingin Tahu
6. Kecerdasan Buatan - Kai-Fu Lee
7. Pengenalan kepada Kepintaran Buatan - Pendekatan Bukan Teknikal - Tom Taulli
Saya melakukan analisis terperinci tentang Kindle baharu yang dilancarkan tahun ini, menyerlahkan inovasi dan faedah utama mereka untuk pembaca digital. Lihat teks penuh di pautan berikut: Dunia Pembacaan Digital yang Menarik: Kelebihan Mempunyai Kindle.
Menyertai Amazon Prime menawarkan satu siri kelebihan, termasuk akses tanpa had kepada beribu-ribu filem, siri dan muzik, serta penghantaran percuma untuk berjuta-juta produk dengan penghantaran pantas. Ahli juga menikmati tawaran eksklusif, akses awal kepada promosi dan faedah pada perkhidmatan seperti Prime Video, Prime Music dan Prime Reading, menjadikan pengalaman membeli-belah dan hiburan lebih mudah dan kaya.
Jika anda berminat, gunakan pautan berikut: AMAZON PRIME, yang membantu saya terus mempromosikan kecerdasan buatan dan pengaturcaraan komputer.
Atas ialah kandungan terperinci Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!