本文所整理的技巧與以前整理過10個Pandas的常用技巧不同,你可能不會經常的使用它,但是有時當你遇到一些非常棘手的問題時,這些技巧可以幫你快速解決一些不常見的問題。
預設情況下,具有有限數量選項的欄位都會被指派object 類型。但是就記憶體來說並不是一個有效的選擇。我們可以這些列建立索引,並僅使用對物件的參考而實際值。 Pandas 提供了一種稱為 Categorical的Dtype來解決這個問題。
例如一個具有圖片路徑的大型資料集組成。每行有三列:anchor, positive, and negative.。
如果類別列使用 Categorical 可以顯著減少記憶體使用量。
# raw data +----------+------------------------+ |class |filename| +----------+------------------------+ | Bathroom | Bathroombath_1.jpg| | Bathroom | Bathroombath_100.jpg| | Bathroom | Bathroombath_1003.jpg | | Bathroom | Bathroombath_1004.jpg | | Bathroom | Bathroombath_1005.jpg | +----------+------------------------+ # target +------------------------+------------------------+----------------------------+ | anchor |positive|negative| +------------------------+------------------------+----------------------------+ | Bathroombath_1.jpg| Bathroombath_100.jpg| Dinningdin_540.jpg| | Bathroombath_100.jpg| Bathroombath_1003.jpg | Dinningdin_1593.jpg | | Bathroombath_1003.jpg | Bathroombath_1004.jpg | Bedroombed_329.jpg| | Bathroombath_1004.jpg | Bathroombath_1005.jpg | Livingroomliving_1030.jpg | | Bathroombath_1005.jpg | Bathroombath_1007.jpg | Bedroombed_1240.jpg | +------------------------+------------------------+----------------------------+
filename欄的值會經常被複製重複。因此,所以透過使用Categorical可以極大的減少記憶體使用量。
讓我們讀取目標資料集,看看記憶體的差異:
triplets.info(memory_usage="deep") # Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 anchor 525000 non-null category # 1 positive 525000 non-null category # 2 negative 525000 non-null category # dtypes: category(3) # memory usage: 4.6 MB # without categories triplets_raw.info(memory_usage="deep") # Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 anchor 525000 non-null object # 1 positive 525000 non-null object # 2 negative 525000 non-null object # dtypes: object(3) # memory usage: 118.1 MB
差異非常大,並且隨著重複次數的增加,差異呈現非線性成長。
sql中常會遇到行列轉換的問題,Pandas有時候也需要,讓我們看看來自Kaggle比賽的資料集。 census_start .csv檔:
可以看到,這些按年來保存的,如果有一個列year和pct_bb,並且每一行有相應的值,則會好得多,對吧。
cols = sorted([col for col in original_df.columns if col.startswith("pct_bb")]) df = original_df[(["cfips"] + cols)] df = df.melt(id_vars="cfips", value_vars=cols, var_name="year", value_name="feature").sort_values(by=["cfips", "year"])
看看結果,這樣是不是就好很多了:
我們上次已經介紹過,最好不要使用這個方法,因為它遍歷每行並呼叫指定的方法。但是要是我們沒有別的選擇,那還有沒有辦法提高速度呢?
可以使用swifter或pandarallew這樣的包,使過程並行化。
import pandas as pd import swifter def target_function(row): return row * 10 def traditional_way(data): data['out'] = data['in'].apply(target_function) def swifter_way(data): data['out'] = data['in'].swifter.apply(target_function)
import pandas as pd from pandarallel import pandarallel def target_function(row): return row * 10 def traditional_way(data): data['out'] = data['in'].apply(target_function) def pandarallel_way(data): pandarallel.initialize() data['out'] = data['in'].parallel_apply(target_function)
透過多線程,可以提高計算的速度,當然當然,如果有集群,那麼最好使用dask或pyspark
標準整數資料型別不支援空值,所以會自動轉換為浮點數。所以如果資料要求在整數欄位中使用空值,請考慮使用Int64資料類型,因為它會使用pandas.NA來表示空值。
#盡可能選擇parquet。 parquet會保留資料類型,讀取資料時就不需要指定dtypes。 parquet檔案預設已經使用了snappy進行壓縮,所以佔用的磁碟空間小。下面可以看看幾個的對比
|file|size | +------------------------+---------+ | triplets_525k.csv| 38.4 MB | | triplets_525k.csv.gzip |4.3 MB | | triplets_525k.csv.zip|4.5 MB | | triplets_525k.parquet|1.9 MB | +------------------------+---------+
讀取parquet需要額外的包,例如pyarrow或fastparquet。 chatgpt說pyarrow比fastparquet要快,但是我在小資料集上測試時fastparquet比pyarrow要快,但是這裡建議使用pyarrow,因為pandas 2.0也是預設的使用這個。
計算相對頻率,包括獲得絕對值、計數和除以總數是很複雜的,但是使用value_counts,可以更容易地完成這項任務,並且此方法提供了包含或排除空值的選項。
df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]}) df["a"] = df["a"].astype("Int64") print(df.info()) print(df["a"].value_counts(normalize=True, dropna=False), df["a"].value_counts(normalize=True, dropna=True), sep="nn")
這樣是不是就簡單很多了
注意:Modin現在還在測試階段。
pandas是單線程的,但Modin可以透過縮放pandas來加快工作流程,它在較大的資料集上工作得特別好,因為在這些資料集上,pandas會變得非常緩慢或記憶體佔用過大導致OOM。
!pip install modin[all] import modin.pandas as pd df = pd.read_csv("my_dataset.csv")
以下是modin官網的架構圖,有興趣的研究把:
如果經常遇到複雜的半結構化的數據,並且需要從中分離出單獨的列,那麼可以使用這個方法:
import pandas as pd regex = (r'(?P<title>[A-Za-z's]+),' r'(?P<author>[A-Za-zs']+),' r'(?P<isbn>[d-]+),' r'(?P<year>d{4}),' r'(?P<publisher>.+)') addr = pd.Series([ "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins", "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House", "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster", "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers", "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books" ]) addr.str.extract(regex)
这个技巧有人一次也用不到,但是有人可能就是需要,比如:在分析中包含PDF文件中的表格时。通常的方法是复制数据,粘贴到Excel中,导出到csv文件中,然后导入Pandas。但是,这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。
有读就可以写,所以还可以使用to_clipboard()方法导出到剪贴板。
但是要记住,这里的剪贴板是你运行python/jupyter主机的剪切板,并不可能跨主机粘贴,一定不要搞混了。
假设我们有这样一个数据集,这是一个相当典型的情况:
import pandas as pd df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6], "category": [["foo", "bar"], ["foo"], ["qux"]]}) # let's increase the number of rows in a dataframe df = pd.concat([df]*10000, ignore_index=True)
我们想将category分成多列显示,例如下面的
先看看最慢的apply:
def dummies_series_apply(df): return df.join(df['category'].apply(pd.Series) .stack() .str.get_dummies() .groupby(level=0) .sum()) .drop("category", axis=1) %timeit dummies_series_apply(df.copy()) #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
sklearn的MultiLabelBinarizer
from sklearn.preprocessing import MultiLabelBinarizer def sklearn_mlb(df): mlb = MultiLabelBinarizer() return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) .drop("category", axis=1) %timeit sklearn_mlb(df.copy()) #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
是不是快了很多,我们还可以使用一般的向量化操作对其求和:
def dummies_vectorized(df): return pd.get_dummies(df.explode("category"), prefix="cat") .groupby(["a", "b"]) .sum() .reset_index() %timeit dummies_vectorized(df.copy()) #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。
我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外,除了csv之外,还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型,它可以节省大量内存。感谢阅读!
以上是十個Pandas的另類資料處理技巧的詳細內容。更多資訊請關注PHP中文網其他相關文章!