为什么带有字符串的 Pandas DataFrame 列即使在转换为字符串后仍显示'dtype object”?

DDD
发布: 2024-10-26 07:24:02
原创
565 人浏览过

Why does a Pandas DataFrame column with strings show

DataFrame 中的字符串,但 dtype 是对象

一些用户遇到过 Pandas DataFrame,其中某些列显示“dtype object”,即使这些列中的每个项目都是字符串,即使在显式转换为字符串之后也是如此。要理解这种行为,有必要深入研究 Pandas 和 NumPy 中数据类型的本质。

NumPy 是 Pandas 的底层库,将数据类型描述为 int64、float64 和 object。 “object”数据类型表示 NumPy 数组中的元素不是统一的、固定的字节大小,就像整数或浮点数的情况一样。

对于字符串,它们的长度各不相同,因此可以直接存储数组中的字符串字节不切实际。相反,Pandas 使用“对象数组”来存储指向字符串对象的指针。这种方法解释了为什么包含字符串的列的数据类型是对象。

考虑以下示例:

import numpy as np
import pandas as pd

# Create a NumPy array of integers
int_array = np.array([1, 2, 3, 4], dtype=np.int64)

# Create a NumPy array of strings
object_array = np.array(['a', 'b', 'c', 'd'], dtype=np.object)

# Convert the object array to pandas DataFrame
df = pd.DataFrame({'INTS': int_array, 'STRINGS': object_array})

# Check the data types
print(df.dtypes)

# Print the lengths of the first item in each column
print(len(df['INTS'].iat[0]))
print(len(df['STRINGS'].iat[0]))
登录后复制

输出将是:

INTS         int64
STRINGS      object
dtype: object
1
1
登录后复制

你可以请注意,“INTS”列的数据类型为 int64,因为它的所有元素都是 8 字节整数。 “STRINGS”列具有对象的数据类型,因为它的元素是指向字符串对象的指针。每个字符串的长度不同,如输出所示。

以上是为什么带有字符串的 Pandas DataFrame 列即使在转换为字符串后仍显示'dtype object”?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!