在 Pandas 中,dtype 对象表示包含对象的列。然而,当列中的所有元素都显示为字符串时,这可能会令人困惑。
对象数据类型源于 NumPy 的 ndarray 实现。在 NumPy 中,数组必须具有统一大小(以字节为单位)的元素。由于字符串具有可变长度,Pandas 将字符串存储为指向对象 ndarray 中的对象的指针。这会产生对象数据类型。
考虑以下示例:
import numpy as np import pandas as pd # Create an int64 ndarray int_arr = np.array([1, 2, 3, 4], dtype=np.int64) # Create an object ndarray containing pointers to string objects obj_arr = np.array(['a', 'b', 'c', 'd'], dtype=object) # Convert obj_arr to a Pandas DataFrame df = pd.DataFrame({'int_col': int_arr, 'obj_col': obj_arr}) # Check data types print(df.dtypes)
输出:
int_col int64 obj_col object
如您所见尽管所有元素都是字符串,但由于 ndarray 中使用了指针,obj_col 具有对象数据类型。
Pandas DataFrames 中的对象数据类型源自底层 ndarray 实现。虽然它包含字符串,但请务必注意,字符串并未明确表示为不同的数据类型。相反,它们被存储为指向对象 ndarray 中对象的指针。
以上是为什么我的 Pandas DataFrame 仅包含字符串的列具有对象数据类型?的详细内容。更多信息请关注PHP中文网其他相关文章!