Cara menggunakan modul panda untuk analisis data dalam Python 3.x

PHPz
Lepaskan: 2023-07-30 18:27:40
asal
1484 orang telah melayarinya

Cara menggunakan modul panda untuk analisis data dalam Python 3.x

Pengenalan:
Dalam bidang analisis data, pembacaan data, pembersihan, pemprosesan dan analisis adalah tugas yang sangat diperlukan. Menggunakan panda, pustaka analisis data yang berkuasa, boleh memudahkan tugas-tugas ini. Artikel ini akan memperkenalkan cara menggunakan modul panda untuk operasi asas analisis data dalam Python 3.x, dan memberikan contoh kod yang berkaitan.

  1. Pasang modul panda
    Pertama, kita perlu memasang modul panda. Ia boleh dipasang di terminal melalui arahan berikut:

    pip install pandas
    Salin selepas log masuk

    Selepas pemasangan selesai, kita boleh memperkenalkan modul panda ke dalam kod Python.

  2. Import modul panda
    Dalam kod Python, gunakan kata kunci import untuk mengimport modul panda. Secara umumnya, kami menggunakan kaedah berikut untuk mengimport modul panda dan menyingkatkannya sebagai pd: import 关键字可以导入 pandas 模块。一般情况下,我们使用以下方式导入 pandas 模块并简写为 pd

    import pandas as pd
    Salin selepas log masuk
  3. 读取数据
    使用 pandas 模块,我们可以读取各种常见的数据文件,比如 CSV 文件、Excel 文件等。以读取 CSV 文件为例,我们可以使用 read_csv() 函数来读取。

    data = pd.read_csv('data.csv')
    Salin selepas log masuk

    这里假设当前目录下存在名为 data.csv 的 CSV 文件,通过以上代码,我们将数据读取到 data 变量中。

  4. 数据清洗与处理
    在进行数据分析之前,我们经常需要对数据进行清洗与处理。pandas 提供了丰富的功能来进行这些操作。

4.1. 查看数据
使用 head() 函数可以查看数据的前几行,默认显示前 5 行。

data.head()
Salin selepas log masuk

4.2. 去除重复数据
使用 drop_duplicates() 函数可以去除数据中的重复行。

data = data.drop_duplicates()
Salin selepas log masuk

4.3. 缺失值处理
使用 dropna() 函数可以删除包含缺失值的行。

data = data.dropna()
Salin selepas log masuk
  1. 数据分析
    在数据清洗与处理完成后,我们可以开始进行数据分析工作了。pandas 提供了强大的数据操作和分析功能。

5.1. 基本统计信息
使用 describe() 函数可以给出数据集的基本统计信息,包括均值、方差、最小值、最大值等。

data.describe()
Salin selepas log masuk

5.2. 数据排序
使用 sort_values() 函数可以对特定列的数据进行排序。

data = data.sort_values(by='column_name')
Salin selepas log masuk

5.3. 数据筛选
使用条件语句可以对数据进行筛选操作。

filtered_data = data[data['column_name'] > 10]
Salin selepas log masuk

5.4. 数据分组
使用 groupby()

grouped_data = data.groupby('column_name')
Salin selepas log masuk

Baca data

Menggunakan modul panda, kita boleh membaca pelbagai fail data biasa, seperti fail CSV , fail Excel, dsb. Mengambil membaca fail CSV sebagai contoh, kita boleh menggunakan fungsi read_csv() untuk membaca.

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗与处理
data = data.drop_duplicates()
data = data.dropna()

# 查看数据
data.head()

# 基本统计信息
data.describe()

# 数据排序
data = data.sort_values(by='column_name')

# 数据筛选
filtered_data = data[data['column_name'] > 10]

# 数据分组
grouped_data = data.groupby('column_name')
Salin selepas log masuk
Diandaikan di sini bahawa terdapat fail CSV bernama data.csv dalam direktori semasa Melalui kod di atas, kami membaca data ke dalam pembolehubah data.

Pembersihan dan pemprosesan data

Sebelum menjalankan analisis data, kita selalunya perlu membersihkan dan memproses data. panda menyediakan fungsi yang kaya untuk melaksanakan operasi ini. 🎜🎜4.1. Lihat data🎜Gunakan fungsi head() untuk melihat beberapa baris data pertama 5 baris pertama dipaparkan secara lalai. 🎜rrreee🎜4.2 Alih keluar data pendua🎜Gunakan fungsi drop_duplicates() untuk mengalih keluar baris pendua dalam data. 🎜rrreee🎜4.3. Pemprosesan nilai tiada🎜Gunakan fungsi dropna() untuk memadamkan baris yang mengandungi nilai yang tiada. 🎜rrreee
    🎜Analisis data🎜Selepas pembersihan dan pemprosesan data selesai, kita boleh memulakan kerja analisis data. panda menyediakan manipulasi data dan fungsi analisis yang berkuasa. 🎜
🎜5.1. Maklumat statistik asas🎜Gunakan fungsi describe() untuk memberikan maklumat statistik asas bagi set data, termasuk min, varians, nilai minimum, nilai maksimum, dsb. 🎜rrreee🎜5.2. Pengisihan data🎜Gunakan fungsi sort_values() untuk mengisih data lajur tertentu. 🎜rrreee🎜5.3 Penapisan data🎜Gunakan pernyataan bersyarat untuk menapis data. 🎜rrreee🎜5.4 Pengumpulan data🎜Gunakan fungsi groupby() untuk mengumpulkan data mengikut nilai lajur tertentu untuk mencapai analisis yang lebih terperinci. 🎜rrreee🎜Di atas hanyalah beberapa fungsi asas yang disediakan oleh panda. Terdapat banyak operasi pemprosesan dan analisis data lanjutan yang boleh diterokai dengan lebih lanjut. 🎜🎜Kesimpulan:🎜Artikel ini memperkenalkan cara menggunakan modul panda untuk analisis data dalam Python 3.x. Melalui langkah asas seperti memasang modul panda, mengimport modul, membaca fail data, pembersihan dan pemprosesan data, dan analisis data, kami boleh melaksanakan kerja analisis data dengan cepat dan berkesan. Dalam aplikasi praktikal, kita boleh menggunakan lebih banyak fungsi yang disediakan oleh modul panda untuk pemprosesan dan analisis data yang lebih mendalam mengikut keperluan kita sendiri. 🎜🎜Akhirnya, contoh kod lengkap operasi di atas dilampirkan:🎜rrreee🎜Saya harap artikel ini dapat membantu pemula untuk meneroka lebih lanjut fungsi modul panda dan meningkatkan kecekapan analisis data. 🎜

Atas ialah kandungan terperinci Cara menggunakan modul panda untuk analisis data dalam Python 3.x. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!