pandas妙招之在DataFrame中透過索引高效取得數據-Python教學-PHP中文網

首頁

後端開發

Python教學

pandas妙招之在DataFrame中透過索引高效取得數據

coldplay.xixi

Sep 16, 2020 pm 04:15 PM

dataframe pandas python

pandas妙招之在DataFrame中透過索引高效取得數據

相關學習推薦：python教學

#今天是pandas資料處理專題的第三篇文章，我們一起來聊聊DataFrame中的索引。

上一篇文章當中我們介紹了DataFrame資料結構當中一些常用的索引的使用方法，例如iloc、loc以及邏輯索引等等。今天的文章我們來看看DataFrame的一些基本運算。

資料對齊

我們可以計算兩個DataFrame的加和，pandas會自動將此兩個DataFrame進行資料對齊，如果對不上的資料會被置為Nan（not a number）。

首先我們來建立兩個DataFrame：

import numpy as npimport pandas as pddf1 = pd.DataFrame(np.arange(9).reshape((3, 3)), columns=list('abc'), index=['1', '2', '3'])df2 = pd.DataFrame(np.arange(12).reshape((4, 3)), columns=list('abd'), index=['2', '3', '4', '5'])复制代码

登入後複製

得到的結果和我們設想的一致，其實只是透過numpy陣列建立DataFrame#，然後指定index和columns而已，這應該算是很基礎的用法了。

然後我們將兩個DataFrame相加，會得到：

我們發現pandas將兩個DataFrame加起來合併了之後，凡是沒有在兩個DataFrame都出現的位置就會被置為Nan。這其實是很合理的，其實不只加法，我們可以計算兩個DataFrame的加減乘除的四則運算都是可以的。如果是計算兩個DataFrame相除的話，那麼除了對應不上的資料會被置為Nan之外，除零這個行為也會導致異常值的發生（可能不一定是Nan，而是inf）。

fill_value

#如果我們要對兩個DataFrame進行運算，那麼我們當然不會希望出現空值。這時候就需要對空值進行填充了，我們直接使用運算子進行運算是沒辦法傳遞參數進行填充的，這時候我們需要使用DataFrame當中為我們提供的算術方法。

DataFrame當中常用的運算子有這麼多種：

add、sub、p這些我們都很好理解，那麼這裡的radd、rsub方法又是什麼意思呢，為什麼前面要加上一個r呢？

看起來很費解，但是說白了一文不值，radd是用來翻轉參數的。舉個例子，比如說我們希望得到DataFrame當中所有元素的倒數，我們可以寫成1 / df。由於1本身並不是一個DataFrame，所以我們不能用1來呼叫DataFrame當中的方法，也就不能傳遞參數，為了解決這種情況，我們可以把1 / df寫成df.rp(1)，這樣我們就可以在其中傳遞參數了。

由於在算除法的過程當中發生了除零，所以我們得到了一個inf，它表示無窮大。

我們可以在add、p這些方法當中傳入一個fill_value的參數，這個參數可以在計算之前對於一邊出現缺失值的情況進行填入。也就是說對於只在一個DataFrame中缺少的位置會被替換成我們指定的值，如果在兩個DataFrame都缺失，那麼依然還會是Nan。

我們對比下結果就能發現了，相加之後的(1, d), (4, c)以及(5, c)的位置都是Nan ，因為df1和df2兩個DataFrame當中這些位置都是空值，所以沒有被填滿。

fill_value這個參數在很多api當中都有出現，例如reindex等，用法都是一樣的，我們在查閱api文檔的時候可以注意一下。

那麼對於這種填充了之後還會出現的空值我們該怎麼辦呢？難道只能手動找到這些位置進行填充嗎？當然是不切實際的，pandas當中也為我們提供了專門解決空值的api。

空值api

#在填入空值之前，我們首先要做的是發現空值。針對這個問題，我們有isna這個api，它會傳回一個bool型的DataFrame，DataFrame當中的每一個位置表示了原DataFrame對應的位置是否是空值。

dropna

#當然只是發現是否是空值肯定是不夠的，我們有時候會希望不要空值的出現，這個時候我們可以選擇drop掉空值。針對這種情況，我們可以使用DataFrame當中的dropna方法。

我們發現使用了dropna之後，出現了空值的行都被拋棄了。只保留了沒有空值的行，有時候我們希望拋棄是的列而不是行，這個時候我們可以透過傳入axis參數來控制。

這樣我們得到的就是不含空值的列，除了可以控制行列之外，我們還可以控制執行drop的嚴格程度。我們可以透過how這個參數來判斷，how支援兩種值傳入，一種是'all'，一種是'any'。 all表示只有在某一行或是某一列全為空值的時候才會拋棄，any與之對應就是只要出現了空值就會拋棄。預設不填的話認為是any，一般情況下我們也用不到這個參數，大概有個印象就可以了。

fillna

#pandas除了可以drop含有空值的資料之外，當然也可以用來填入空值，事實上這也是最常用的方法。

我們可以很簡單地傳入一個具體的值用來填入：

#fillna會傳回一個新的DataFrame，其中所有的Nan值會被替換成我們指定的值。如果我們不希望它回傳一個新的DataFrame，而是直接在原始資料進行修改的話，我們可以使用inplace參數，表示這是一個inplace的操作，那麼pandas將會在原DataFrame上進行修改。

df3.fillna(3, inplace=True)复制代码

登入後複製

除了填充具体的值以外，我们也可以和一些计算结合起来算出来应该填充的值。比如说我们可以计算出某一列的均值、最大值、最小值等各种计算来填充。fillna这个函数不仅可以使用在DataFrame上，也可以使用在Series上，所以我们可以针对DataFrame中的某一列或者是某些列进行填充：

除了可以计算出均值、最大最小值等各种值来进行填充之外，还可以指定使用缺失值的前一行或者是后一行的值来填充。实现这个功能需要用到method这个参数，它有两个接收值，ffill表示用前一行的值来进行填充，bfill表示使用后一行的值填充。

我们可以看到，当我们使用ffill填充的时候，对于第一行的数据来说由于它没有前一行了，所以它的Nan会被保留。同样当我们使用bfill的时候，最后一行也无法填充。

总结

今天的文章当中我们主要介绍了DataFrame的一些基本运算，比如最基础的四则运算。在进行四则运算的时候由于DataFrame之间可能存在行列索引不能对齐的情况，这样计算得到的结果会出现空值，所以我们需要对空值进行处理。我们可以在进行计算的时候通过传入fill_value进行填充，也可以在计算之后对结果进行fillna填充。

在实际的运用当中，我们一般很少会直接对两个DataFrame进行加减运算，但是DataFrame中出现空置是家常便饭的事情。因此对于空值的填充和处理非常重要，可以说是学习中的重点，大家千万注意。

想了解更多编程学习，敬请关注php培训栏目！

以上是pandas妙招之在DataFrame中透過索引高效取得數據的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7493

CakePHP 教程

1377

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

mysql 是否要付費 Apr 08, 2025 pm 05:36 PM

MySQL 有免費的社區版和收費的企業版。社區版可免費使用和修改，但支持有限，適合穩定性要求不高、技術能力強的應用。企業版提供全面商業支持，適合需要穩定可靠、高性能數據庫且願意為支持買單的應用。選擇版本時考慮的因素包括應用關鍵性、預算和技術技能。沒有完美的選項，只有最合適的方案，需根據具體情況謹慎選擇。

HadiDB：Python 中的輕量級、可水平擴展的數據庫 Apr 08, 2025 pm 06:12 PM

HadiDB：輕量級、高水平可擴展的Python數據庫HadiDB(hadidb)是一個用Python編寫的輕量級數據庫，具備高度水平的可擴展性。安裝HadiDB使用pip安裝：pipinstallhadidb用戶管理創建用戶：createuser()方法創建一個新用戶。 authentication()方法驗證用戶身份。 fromhadidb.operationimportuseruser_obj=user("admin","admin")user_obj.

Navicat查看MongoDB數據庫密碼的方法 Apr 08, 2025 pm 09:39 PM

直接通過 Navicat 查看 MongoDB 密碼是不可能的，因為它以哈希值形式存儲。取回丟失密碼的方法：1. 重置密碼；2. 檢查配置文件（可能包含哈希值）；3. 檢查代碼（可能硬編碼密碼）。

mysql 需要互聯網嗎 Apr 08, 2025 pm 02:18 PM

MySQL 可在無需網絡連接的情況下運行，進行基本的數據存儲和管理。但是，對於與其他系統交互、遠程訪問或使用高級功能（如復制和集群）的情況，則需要網絡連接。此外，安全措施（如防火牆）、性能優化（選擇合適的網絡連接）和數據備份對於連接到互聯網的 MySQL 數據庫至關重要。

mysql 無法連接到本地主機怎麼解決 Apr 08, 2025 pm 02:24 PM

無法連接 MySQL 可能是由於以下原因：MySQL 服務未啟動、防火牆攔截連接、端口號錯誤、用戶名或密碼錯誤、my.cnf 中的監聽地址配置不當等。排查步驟包括：1. 檢查 MySQL 服務是否正在運行；2. 調整防火牆設置以允許 MySQL 監聽 3306 端口；3. 確認端口號與實際端口號一致；4. 檢查用戶名和密碼是否正確；5. 確保 my.cnf 中的 bind-address 設置正確。

mysql workbench 可以連接到 mariadb 嗎 Apr 08, 2025 pm 02:33 PM

MySQL Workbench 可以連接 MariaDB，前提是配置正確。首先選擇 "MariaDB" 作為連接器類型。在連接配置中，正確設置 HOST、PORT、USER、PASSWORD 和 DATABASE。測試連接時，檢查 MariaDB 服務是否啟動，用戶名和密碼是否正確，端口號是否正確，防火牆是否允許連接，以及數據庫是否存在。高級用法中，使用連接池技術優化性能。常見錯誤包括權限不足、網絡連接問題等，調試錯誤時仔細分析錯誤信息和使用調試工具。優化網絡配置可以提升性能

如何針對高負載應用程序優化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL數據庫性能優化指南在資源密集型應用中，MySQL數據庫扮演著至關重要的角色，負責管理海量事務。然而，隨著應用規模的擴大，數據庫性能瓶頸往往成為製約因素。本文將探討一系列行之有效的MySQL性能優化策略，確保您的應用在高負載下依然保持高效響應。我們將結合實際案例，深入講解索引、查詢優化、數據庫設計以及緩存等關鍵技術。 1.數據庫架構設計優化合理的數據庫架構是MySQL性能優化的基石。以下是一些核心原則：選擇合適的數據類型選擇最小的、符合需求的數據類型，既能節省存儲空間，又能提升數據處理速度

如何將 AWS Glue 爬網程序與 Amazon Athena 結合使用 Apr 09, 2025 pm 03:09 PM

作為數據專業人員，您需要處理來自各種來源的大量數據。這可能會給數據管理和分析帶來挑戰。幸運的是，兩項 AWS 服務可以提供幫助：AWS Glue 和 Amazon Athena。

See all articles

pandas妙招之在DataFrame中透過索引高效取得數據

資料對齊

fill_value

空值api

dropna

fillna

总结

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

pandas妙招之 在DataFrame中透過索引高效取得數據

資料對齊

fill_value

空值api

dropna

fillna

总结

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

pandas妙招之在DataFrame中透過索引高效取得數據