DataFrame 中的字符串,但 dtype 是对象
一些用户遇到过 Pandas DataFrame,其中某些列显示“dtype object”,即使这些列中的每个项目都是字符串,即使在显式转换为字符串之后也是如此。要理解这种行为,有必要深入研究 Pandas 和 NumPy 中数据类型的本质。
NumPy 是 Pandas 的底层库,将数据类型描述为 int64、float64 和 object。 “object”数据类型表示 NumPy 数组中的元素不是统一的、固定的字节大小,就像整数或浮点数的情况一样。
对于字符串,它们的长度各不相同,因此可以直接存储数组中的字符串字节不切实际。相反,Pandas 使用“对象数组”来存储指向字符串对象的指针。这种方法解释了为什么包含字符串的列的数据类型是对象。
考虑以下示例:
import numpy as np import pandas as pd # Create a NumPy array of integers int_array = np.array([1, 2, 3, 4], dtype=np.int64) # Create a NumPy array of strings object_array = np.array(['a', 'b', 'c', 'd'], dtype=np.object) # Convert the object array to pandas DataFrame df = pd.DataFrame({'INTS': int_array, 'STRINGS': object_array}) # Check the data types print(df.dtypes) # Print the lengths of the first item in each column print(len(df['INTS'].iat[0])) print(len(df['STRINGS'].iat[0]))
输出将是:
INTS int64 STRINGS object dtype: object 1 1
你可以请注意,“INTS”列的数据类型为 int64,因为它的所有元素都是 8 字节整数。 “STRINGS”列具有对象的数据类型,因为它的元素是指向字符串对象的指针。每个字符串的长度不同,如输出所示。
以上是为什么带有字符串的 Pandas DataFrame 列即使在转换为字符串后仍显示'dtype object”?的详细内容。更多信息请关注PHP中文网其他相关文章!