


Gunakan panda untuk memproses data fail txt dengan mudah
Gunakan panda untuk memproses data fail txt dengan mudah
Dalam analisis dan pemprosesan data, kita sering menghadapi situasi di mana data yang dibaca daripada fail txt perlu diproses. Sebagai contoh, format data mengelirukan dan perlu dibersihkan beberapa lajur tidak sah dan perlu dipadamkan beberapa lajur perlu ditukar jenis, dsb. Tugasan ini mungkin membawa banyak kerja dan masa, tetapi kami boleh menyelesaikan operasi ini dengan mudah melalui panda perpustakaan Python.
Artikel ini akan menggabungkan contoh kod untuk mengajar anda cara menggunakan panda untuk memproses data fail txt.
- Perkenalkan perpustakaan panda
Sebelum menggunakan perpustakaan panda, kita perlu memperkenalkannya terlebih dahulu. Dalam skrip Python, secara amnya dipersetujui untuk menamakan semula perpustakaan panda kepada pd untuk memudahkan panggilan seterusnya.
import pandas as pd
- Baca fail txt
Pertama, kita perlu membaca data dalam fail txt. Dalam panda, kami menggunakan fungsi pd.read_csv() untuk membaca dalam data. Walaupun nama fungsi mengandungi csv, fungsi ini juga sesuai untuk membaca fail txt.
data = pd.read_csv('data.txt', sep=' ', header=None)
Parameter fungsi dijelaskan seperti berikut:
- 'data.txt': Menunjukkan laluan dan nama fail fail txt yang perlu kita baca.
- sep: Menunjukkan pemisah data ' ' digunakan di sini untuk menunjukkan bahawa data dipisahkan oleh tab, dan ia juga boleh digantikan dengan simbol lain.
- pengepala: Menunjukkan sama ada fail mengandungi nama lajur, jika tidak, ia ditetapkan kepada Tiada.
Selepas membaca data, kita boleh melihat kandungan dan bentuk data dengan mencetak data.
print(data)
Hasil keluaran:
0 1 2 0 A 123 1.0 1 B 321 2.0 2 C 231 NaN 3 D 213 4.0 4 E 132 3.0
Dapat dilihat bahawa data yang dibaca telah disimpan dalam data dalam bentuk DataFrame.
- Membersihkan data
Data yang dibaca mungkin mempunyai banyak penyelewengan atau ralat format, yang memerlukan kami membersihkan data tersebut. Sebagai contoh, mungkin terdapat nilai yang hilang dalam beberapa baris atau lajur, dan kami perlu mengisi atau memadamnya jenis data beberapa lajur mungkin tidak memenuhi keperluan kami, dan kami perlu menukarnya kepada jenis angka atau rentetan, dsb .
a. Padamkan baris dengan nilai yang tiada
Kita boleh menggunakan fungsi dropna() untuk memadamkan baris dengan nilai yang tiada.
data_clean = data.dropna()
Fungsi ini akan memadamkan mana-mana baris yang mengandungi nilai yang hilang dalam data dan mengembalikan DataFrame dengan hanya data lengkap.
b. Isikan nilai yang hilang
Jika baris yang mengandungi nilai yang hilang tidak boleh dipadamkan, kita boleh memilih untuk mengisi nilai yang hilang ini. Hanya gunakan fungsi fillna().
data_fill = data.fillna(0)
Fungsi ini mengisi nilai yang hilang dengan 0. Jika anda ingin mengisinya dengan nilai lain, anda boleh memasukkan nilai yang sepadan dalam kurungan.
c. Tukar jenis data
Dalam analisis data, jenis data tertentu perlu ditukar kepada jenis berangka atau aksara untuk pengiraan atau pemprosesan seterusnya. Dalam panda, anda boleh menggunakan fungsi astype() untuk penukaran jenis.
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
Fungsi ini boleh menukar jenis lajur 1 dalam data_clean kepada jenis integer (int), dan jenis lajur 2 kepada jenis rentetan (str).
- Simpan data baharu
Akhir sekali, kami perlu menyimpan data yang telah dibersihkan dan diproses ke fail txt baharu. Dalam panda, kita boleh menggunakan fungsi to_csv() untuk mencapai ini.
data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
Parameter fungsi dijelaskan seperti berikut:
- 'data_clean.txt': Menunjukkan laluan dan nama fail fail yang disimpan.
- indeks: Menunjukkan sama ada untuk mengekalkan indeks baris Pilih Salah di sini bukan untuk mengekalkannya.
- pengepala: Menunjukkan sama ada nama lajur disertakan dalam fail Pilih Palsu di sini untuk mengecualikannya.
- sep: Menunjukkan pemisah ' ' digunakan di sini untuk menunjukkan penggunaan tab sebagai pemisah.
Contoh Kod
Di bawah ialah contoh kod lengkap yang boleh anda salin ke dalam skrip Python dan jalankan.
import pandas as pd # 读入数据 data = pd.read_csv('data.txt', sep=' ', header=None) print('原始数据: ', data) # 删除含有缺失值的行 data_clean = data.dropna() print('处理后数据(删除缺失值): ', data_clean) # 填充缺失值 data_fill = data.fillna(0) print('处理后数据(填充缺失值): ', data_fill) # 转换数据类型 data_conversion = data_clean.astype({'1': 'int', '2': 'str'}) print('处理后数据(类型转换): ', data_conversion) # 保存新数据 data_clean.to_csv('data_clean.txt', index=False, header=False, sep=' ')
Artikel ini memperkenalkan cara menggunakan panda untuk memproses data fail txt dengan mudah, termasuk membaca, membersihkan, menukar dan menyimpan data. Sebagai salah satu alat pemprosesan data yang penting dalam Python, panda boleh membantu kami menyelesaikan tugasan perlombongan dan analisis data dengan lebih cekap.
Atas ialah kandungan terperinci Gunakan panda untuk memproses data fail txt dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



1. Mula-mula, kita klik kanan ruang kosong bar tugas dan pilih pilihan [Task Manager], atau klik kanan logo mula, dan kemudian pilih pilihan [Task Manager]. 2. Dalam antara muka Pengurus Tugas yang dibuka, kami klik tab [Perkhidmatan] di hujung kanan. 3. Dalam tab [Perkhidmatan] yang dibuka, klik pilihan [Buka Perkhidmatan] di bawah. 4. Dalam tetingkap [Services] yang terbuka, klik kanan perkhidmatan [InternetConnectionSharing(ICS)], dan kemudian pilih pilihan [Properties]. 5. Dalam tetingkap sifat yang terbuka, tukar [Buka dengan] kepada [Disabled], klik [Apply] dan kemudian klik [OK]. 6. Klik logo mula, kemudian klik butang tutup, pilih [Mulakan Semula], dan selesaikan mula semula komputer.

Tutorial pemasangan Pandas: Analisis ralat pemasangan biasa dan penyelesaiannya, contoh kod khusus diperlukan Pengenalan: Pandas ialah alat analisis data yang berkuasa yang digunakan secara meluas dalam pembersihan data, pemprosesan data dan visualisasi data, jadi ia sangat dihormati dalam bidang sains data. Walau bagaimanapun, disebabkan oleh konfigurasi persekitaran dan isu pergantungan, anda mungkin menghadapi beberapa kesukaran dan ralat semasa memasang panda. Artikel ini akan memberi anda tutorial pemasangan panda dan menganalisis beberapa ralat pemasangan biasa serta penyelesaiannya. 1. Pasang panda

Cara menggunakan panda untuk membaca fail txt dengan betul memerlukan contoh kod khusus Pandas ialah perpustakaan analisis data Python yang digunakan secara meluas. Ia boleh digunakan untuk memproses pelbagai jenis data, termasuk fail CSV, fail Excel, pangkalan data SQL, dll. Pada masa yang sama, ia juga boleh digunakan untuk membaca fail teks, seperti fail txt. Walau bagaimanapun, apabila membaca fail txt, kadangkala kami menghadapi beberapa masalah, seperti masalah pengekodan, masalah pembatas, dsb. Artikel ini akan memperkenalkan cara membaca txt dengan betul menggunakan panda

Petua praktikal untuk membaca fail txt menggunakan panda, contoh kod khusus diperlukan Dalam analisis data dan pemprosesan data, fail txt ialah format data biasa. Menggunakan panda untuk membaca fail txt membolehkan pemprosesan data yang cepat dan mudah. Artikel ini akan memperkenalkan beberapa teknik praktikal untuk membantu anda menggunakan panda dengan lebih baik untuk membaca fail txt, bersama-sama dengan contoh kod tertentu. Baca fail txt dengan pembatas Apabila menggunakan panda untuk membaca fail txt dengan pembatas, anda boleh menggunakan read_c

Rahsia kaedah deduplikasi Pandas: cara yang cepat dan cekap untuk menyahduplikasi data, yang memerlukan contoh kod khusus Dalam proses analisis dan pemprosesan data, duplikasi dalam data sering ditemui. Data pendua mungkin mengelirukan keputusan analisis, jadi penduaan adalah langkah yang sangat penting. Pandas, pustaka pemprosesan data yang berkuasa, menyediakan pelbagai kaedah untuk mencapai penyahduplikasian data Artikel ini akan memperkenalkan beberapa kaedah penyahduplikasian yang biasa digunakan, dan melampirkan contoh kod tertentu. Kes penduaan yang paling biasa berdasarkan satu lajur adalah berdasarkan sama ada nilai lajur tertentu diduakan.

Permulaan Pantas: Kaedah Pandas membaca fail JSON, contoh kod khusus diperlukan Pengenalan: Dalam bidang analisis data dan sains data, Pandas ialah salah satu perpustakaan Python yang penting. Ia menyediakan fungsi yang kaya dan struktur data yang fleksibel, serta boleh memproses dan menganalisis pelbagai data dengan mudah. Dalam aplikasi praktikal, kita sering menghadapi situasi di mana kita perlu membaca fail JSON. Artikel ini akan memperkenalkan cara menggunakan Panda untuk membaca fail JSON dan melampirkan contoh kod tertentu. 1. Pemasangan Panda

Dalam proses pembangunan PHP, berurusan dengan aksara khas adalah masalah biasa, terutamanya dalam pemprosesan rentetan, aksara khas sering terlepas. Antaranya, menukar aksara khas kepada petikan tunggal adalah keperluan yang agak biasa, kerana dalam PHP, petikan tunggal adalah cara biasa untuk membungkus rentetan. Dalam artikel ini, kami akan menerangkan cara mengendalikan petikan tunggal penukaran aksara khas dalam PHP dan memberikan contoh kod khusus. Dalam PHP, aksara khas termasuk tetapi tidak terhad kepada petikan tunggal ('), petikan berganda ("), segaris ke belakang (), dsb. Dalam rentetan

Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza, contoh kod khusus diperlukan Memandangkan permintaan untuk pemprosesan dan analisis data terus meningkat, panda telah menjadi salah satu alat pilihan bagi ramai saintis data dan penganalisis. panda ialah pustaka pemprosesan dan analisis data yang berkuasa yang boleh memproses dan menganalisis sejumlah besar data berstruktur dengan mudah. Artikel ini akan memperincikan cara memasang panda pada sistem pengendalian yang berbeza dan memberikan contoh kod khusus. Pasang pada sistem pengendalian Windows
