Rumah pembangunan bahagian belakang Tutorial Python Gunakan panda untuk memproses data fail txt dengan mudah

Gunakan panda untuk memproses data fail txt dengan mudah

Jan 19, 2024 am 08:50 AM
txt pandas berurusan dengan

Gunakan panda untuk memproses data fail txt dengan mudah

Gunakan panda untuk memproses data fail txt dengan mudah

Dalam analisis dan pemprosesan data, kita sering menghadapi situasi di mana data yang dibaca daripada fail txt perlu diproses. Sebagai contoh, format data mengelirukan dan perlu dibersihkan beberapa lajur tidak sah dan perlu dipadamkan beberapa lajur perlu ditukar jenis, dsb. Tugasan ini mungkin membawa banyak kerja dan masa, tetapi kami boleh menyelesaikan operasi ini dengan mudah melalui panda perpustakaan Python.

Artikel ini akan menggabungkan contoh kod untuk mengajar anda cara menggunakan panda untuk memproses data fail txt.

  1. Perkenalkan perpustakaan panda

Sebelum menggunakan perpustakaan panda, kita perlu memperkenalkannya terlebih dahulu. Dalam skrip Python, secara amnya dipersetujui untuk menamakan semula perpustakaan panda kepada pd untuk memudahkan panggilan seterusnya.

import pandas as pd
Salin selepas log masuk
  1. Baca fail txt

Pertama, kita perlu membaca data dalam fail txt. Dalam panda, kami menggunakan fungsi pd.read_csv() untuk membaca dalam data. Walaupun nama fungsi mengandungi csv, fungsi ini juga sesuai untuk membaca fail txt.

data = pd.read_csv('data.txt', sep='    ', header=None)
Salin selepas log masuk

Parameter fungsi dijelaskan seperti berikut:

  • 'data.txt': Menunjukkan laluan dan nama fail fail txt yang perlu kita baca.
  • sep: Menunjukkan pemisah data ' ' digunakan di sini untuk menunjukkan bahawa data dipisahkan oleh tab, dan ia juga boleh digantikan dengan simbol lain.
  • pengepala: Menunjukkan sama ada fail mengandungi nama lajur, jika tidak, ia ditetapkan kepada Tiada.

Selepas membaca data, kita boleh melihat kandungan dan bentuk data dengan mencetak data.

print(data)
Salin selepas log masuk

Hasil keluaran:

   0    1    2
0  A  123  1.0
1  B  321  2.0
2  C  231  NaN
3  D  213  4.0
4  E  132  3.0
Salin selepas log masuk

Dapat dilihat bahawa data yang dibaca telah disimpan dalam data dalam bentuk DataFrame.

  1. Membersihkan data

Data yang dibaca mungkin mempunyai banyak penyelewengan atau ralat format, yang memerlukan kami membersihkan data tersebut. Sebagai contoh, mungkin terdapat nilai yang hilang dalam beberapa baris atau lajur, dan kami perlu mengisi atau memadamnya jenis data beberapa lajur mungkin tidak memenuhi keperluan kami, dan kami perlu menukarnya kepada jenis angka atau rentetan, dsb .

a. Padamkan baris dengan nilai yang tiada

Kita boleh menggunakan fungsi dropna() untuk memadamkan baris dengan nilai yang tiada.

data_clean = data.dropna()
Salin selepas log masuk

Fungsi ini akan memadamkan mana-mana baris yang mengandungi nilai yang hilang dalam data dan mengembalikan DataFrame dengan hanya data lengkap.

b. Isikan nilai yang hilang

Jika baris yang mengandungi nilai yang hilang tidak boleh dipadamkan, kita boleh memilih untuk mengisi nilai yang hilang ini. Hanya gunakan fungsi fillna().

data_fill = data.fillna(0)
Salin selepas log masuk

Fungsi ini mengisi nilai yang hilang dengan 0. Jika anda ingin mengisinya dengan nilai lain, anda boleh memasukkan nilai yang sepadan dalam kurungan.

c. Tukar jenis data

Dalam analisis data, jenis data tertentu perlu ditukar kepada jenis berangka atau aksara untuk pengiraan atau pemprosesan seterusnya. Dalam panda, anda boleh menggunakan fungsi astype() untuk penukaran jenis.

data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
Salin selepas log masuk

Fungsi ini boleh menukar jenis lajur 1 dalam data_clean kepada jenis integer (int), dan jenis lajur 2 kepada jenis rentetan (str).

  1. Simpan data baharu

Akhir sekali, kami perlu menyimpan data yang telah dibersihkan dan diproses ke fail txt baharu. Dalam panda, kita boleh menggunakan fungsi to_csv() untuk mencapai ini.

data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')
Salin selepas log masuk

Parameter fungsi dijelaskan seperti berikut:

  • 'data_clean.txt': Menunjukkan laluan dan nama fail fail yang disimpan.
  • indeks: Menunjukkan sama ada untuk mengekalkan indeks baris Pilih Salah di sini bukan untuk mengekalkannya.
  • pengepala: Menunjukkan sama ada nama lajur disertakan dalam fail Pilih Palsu di sini untuk mengecualikannya.
  • sep: Menunjukkan pemisah ' ' digunakan di sini untuk menunjukkan penggunaan tab sebagai pemisah.

Contoh Kod

Di bawah ialah contoh kod lengkap yang boleh anda salin ke dalam skrip Python dan jalankan.

import pandas as pd

# 读入数据
data = pd.read_csv('data.txt', sep='    ', header=None)
print('原始数据:
', data)

# 删除含有缺失值的行
data_clean = data.dropna()
print('处理后数据(删除缺失值):
', data_clean)

# 填充缺失值
data_fill = data.fillna(0)
print('处理后数据(填充缺失值):
', data_fill)

# 转换数据类型
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
print('处理后数据(类型转换):
', data_conversion)

# 保存新数据
data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')
Salin selepas log masuk

Artikel ini memperkenalkan cara menggunakan panda untuk memproses data fail txt dengan mudah, termasuk membaca, membersihkan, menukar dan menyimpan data. Sebagai salah satu alat pemprosesan data yang penting dalam Python, panda boleh membantu kami menyelesaikan tugasan perlombongan dan analisis data dengan lebih cekap.

Atas ialah kandungan terperinci Gunakan panda untuk memproses data fail txt dengan mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Proses operasi hos perkhidmatan WIN10 yang menduduki terlalu banyak CPU Proses operasi hos perkhidmatan WIN10 yang menduduki terlalu banyak CPU Mar 27, 2024 pm 02:41 PM

1. Mula-mula, kita klik kanan ruang kosong bar tugas dan pilih pilihan [Task Manager], atau klik kanan logo mula, dan kemudian pilih pilihan [Task Manager]. 2. Dalam antara muka Pengurus Tugas yang dibuka, kami klik tab [Perkhidmatan] di hujung kanan. 3. Dalam tab [Perkhidmatan] yang dibuka, klik pilihan [Buka Perkhidmatan] di bawah. 4. Dalam tetingkap [Services] yang terbuka, klik kanan perkhidmatan [InternetConnectionSharing(ICS)], dan kemudian pilih pilihan [Properties]. 5. Dalam tetingkap sifat yang terbuka, tukar [Buka dengan] kepada [Disabled], klik [Apply] dan kemudian klik [OK]. 6. Klik logo mula, kemudian klik butang tutup, pilih [Mulakan Semula], dan selesaikan mula semula komputer.

Menyelesaikan masalah pemasangan panda biasa: tafsiran dan penyelesaian kepada ralat pemasangan Menyelesaikan masalah pemasangan panda biasa: tafsiran dan penyelesaian kepada ralat pemasangan Feb 19, 2024 am 09:19 AM

Tutorial pemasangan Pandas: Analisis ralat pemasangan biasa dan penyelesaiannya, contoh kod khusus diperlukan Pengenalan: Pandas ialah alat analisis data yang berkuasa yang digunakan secara meluas dalam pembersihan data, pemprosesan data dan visualisasi data, jadi ia sangat dihormati dalam bidang sains data. Walau bagaimanapun, disebabkan oleh konfigurasi persekitaran dan isu pergantungan, anda mungkin menghadapi beberapa kesukaran dan ralat semasa memasang panda. Artikel ini akan memberi anda tutorial pemasangan panda dan menganalisis beberapa ralat pemasangan biasa serta penyelesaiannya. 1. Pasang panda

Cara membaca fail txt dengan betul menggunakan panda Cara membaca fail txt dengan betul menggunakan panda Jan 19, 2024 am 08:39 AM

Cara menggunakan panda untuk membaca fail txt dengan betul memerlukan contoh kod khusus Pandas ialah perpustakaan analisis data Python yang digunakan secara meluas. Ia boleh digunakan untuk memproses pelbagai jenis data, termasuk fail CSV, fail Excel, pangkalan data SQL, dll. Pada masa yang sama, ia juga boleh digunakan untuk membaca fail teks, seperti fail txt. Walau bagaimanapun, apabila membaca fail txt, kadangkala kami menghadapi beberapa masalah, seperti masalah pengekodan, masalah pembatas, dsb. Artikel ini akan memperkenalkan cara membaca txt dengan betul menggunakan panda

Petua praktikal untuk membaca fail txt menggunakan panda Petua praktikal untuk membaca fail txt menggunakan panda Jan 19, 2024 am 09:49 AM

Petua praktikal untuk membaca fail txt menggunakan panda, contoh kod khusus diperlukan Dalam analisis data dan pemprosesan data, fail txt ialah format data biasa. Menggunakan panda untuk membaca fail txt membolehkan pemprosesan data yang cepat dan mudah. Artikel ini akan memperkenalkan beberapa teknik praktikal untuk membantu anda menggunakan panda dengan lebih baik untuk membaca fail txt, bersama-sama dengan contoh kod tertentu. Baca fail txt dengan pembatas Apabila menggunakan panda untuk membaca fail txt dengan pembatas, anda boleh menggunakan read_c

Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat Mendedahkan kaedah penduaan data yang cekap dalam Pandas: Petua untuk mengalih keluar data pendua dengan cepat Jan 24, 2024 am 08:12 AM

Rahsia kaedah deduplikasi Pandas: cara yang cepat dan cekap untuk menyahduplikasi data, yang memerlukan contoh kod khusus Dalam proses analisis dan pemprosesan data, duplikasi dalam data sering ditemui. Data pendua mungkin mengelirukan keputusan analisis, jadi penduaan adalah langkah yang sangat penting. Pandas, pustaka pemprosesan data yang berkuasa, menyediakan pelbagai kaedah untuk mencapai penyahduplikasian data Artikel ini akan memperkenalkan beberapa kaedah penyahduplikasian yang biasa digunakan, dan melampirkan contoh kod tertentu. Kes penduaan yang paling biasa berdasarkan satu lajur adalah berdasarkan sama ada nilai lajur tertentu diduakan.

Tutorial penggunaan Panda: Permulaan pantas untuk membaca fail JSON Tutorial penggunaan Panda: Permulaan pantas untuk membaca fail JSON Jan 13, 2024 am 10:15 AM

Permulaan Pantas: Kaedah Pandas membaca fail JSON, contoh kod khusus diperlukan Pengenalan: Dalam bidang analisis data dan sains data, Pandas ialah salah satu perpustakaan Python yang penting. Ia menyediakan fungsi yang kaya dan struktur data yang fleksibel, serta boleh memproses dan menganalisis pelbagai data dengan mudah. Dalam aplikasi praktikal, kita sering menghadapi situasi di mana kita perlu membaca fail JSON. Artikel ini akan memperkenalkan cara menggunakan Panda untuk membaca fail JSON dan melampirkan contoh kod tertentu. 1. Pemasangan Panda

Ketahui cara mengendalikan aksara khas dan menukar petikan tunggal dalam PHP Ketahui cara mengendalikan aksara khas dan menukar petikan tunggal dalam PHP Mar 27, 2024 pm 12:39 PM

Dalam proses pembangunan PHP, berurusan dengan aksara khas adalah masalah biasa, terutamanya dalam pemprosesan rentetan, aksara khas sering terlepas. Antaranya, menukar aksara khas kepada petikan tunggal adalah keperluan yang agak biasa, kerana dalam PHP, petikan tunggal adalah cara biasa untuk membungkus rentetan. Dalam artikel ini, kami akan menerangkan cara mengendalikan petikan tunggal penukaran aksara khas dalam PHP dan memberikan contoh kod khusus. Dalam PHP, aksara khas termasuk tetapi tidak terhad kepada petikan tunggal ('), petikan berganda ("), segaris ke belakang (), dsb. Dalam rentetan

Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza Feb 21, 2024 pm 06:00 PM

Tutorial pemasangan panda mudah: Panduan terperinci tentang cara memasang panda pada sistem pengendalian yang berbeza, contoh kod khusus diperlukan Memandangkan permintaan untuk pemprosesan dan analisis data terus meningkat, panda telah menjadi salah satu alat pilihan bagi ramai saintis data dan penganalisis. panda ialah pustaka pemprosesan dan analisis data yang berkuasa yang boleh memproses dan menganalisis sejumlah besar data berstruktur dengan mudah. Artikel ini akan memperincikan cara memasang panda pada sistem pengendalian yang berbeza dan memberikan contoh kod khusus. Pasang pada sistem pengendalian Windows

See all articles