了解您的数据:探索性数据分析 (EDA) 的要点。
收集并存储数据后,需要对其进行分析以获得对其有意义的理解。正是由于这个原因,探索性数据分析(EDA)发挥了作用。顾名思义,我们正在“探索”数据,即获得数据的总体概述。
收集的数据可以是文本、视频或图像,通常以非结构化方式存储。您很少会找到 100% 干净的数据,即没有任何异常情况。此外,数据可能采用各种格式,例如 Excel、CSV(逗号分隔值)、Json、Parquet 等
在数据世界中,EDA 也可能被称为数据操作 或数据清理。行业从业者强调清理数据以删除“垃圾”的重要性,因为这可能会对结果和预测产生负面影响。结构化数据通常采用表格格式,可以使用多种技术和工具(如 Excel、Power BI、SQL)进行分析,但在本例中我们将重点关注 Python。
使用 Python 进行 EDA
Python 编程语言是 EDA 中最广泛的工具之一,因为它具有多功能性,可以跨多个行业使用,包括金融、教育、医疗保健、采矿、酒店等。
内置库,即 Pandas 和 NumPy 在这方面非常有效,并且可以跨领域工作(无论是使用 Anaconda/Jupyter Notebook、Google Collab 还是 Visual Studio 等 IDE)
以下是执行 EDA 时可执行的常见步骤和代码行:
首先,您将导入操作/分析所需的 python 库:
将 pandas 导入为 pd
将 numpy 导入为 np
其次,加载数据集
df = pd.read_excel('文件路径')
注意:df 是将表格数据转换为数据框的标准函数。
加载后,您可以使用以下代码预览数据:
df.head()
这将显示数据集的前 5 行
或者,您可以简单地运行 df ,它将显示整个数据集的选定几行(顶部和底部)以及其中的所有列。
第三,使用以下方式了解所有数据类型:
df.info()
注意:数据类型包括整数(整数)、浮点数(小数)或对象(定性数据/描述性文字)。
在此步骤中,建议使用以下方式获取数据的汇总统计信息:
df.describe()
这将为您提供平均值、众数、标准差、最大值/最小值和四分位数等统计数据。
第四,使用以下方法识别数据集中是否存在空值:
df.isnull()
然后可以检查重复项(重复条目)
df.duplicated()
EDA 的其他关键方面是检查数据集中的各个变量如何相互关联(相关性)及其分布。
相关性可以是正的,也可以是负的,范围是-1到1。其代码是:
df.corr()
注:相关性数值接近1表示强正相关,接近-1表示强负相关。
分布检查对称或不对称数据的情况,以及数据的偏度,它可以是正态、二项式、伯努利或泊松。
总之,探索性数据分析是更好地理解数据的重要过程。它可以实现更好的可视化和模型构建。
以上是了解您的数据:探索性数据分析 (EDA) 的要点。的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Linux终端中查看Python版本时遇到权限问题的解决方法当你在Linux终端中尝试查看Python的版本时,输入python...

使用FiddlerEverywhere进行中间人读取时如何避免被检测到当你使用FiddlerEverywhere...

在使用Python的pandas库时,如何在两个结构不同的DataFrame之间进行整列复制是一个常见的问题。假设我们有两个Dat...

Uvicorn是如何持续监听HTTP请求的?Uvicorn是一个基于ASGI的轻量级Web服务器,其核心功能之一便是监听HTTP请求并进�...

如何在10小时内教计算机小白编程基础?如果你只有10个小时来教计算机小白一些编程知识,你会选择教些什么�...

攻克Investing.com的反爬虫策略许多人尝试爬取Investing.com(https://cn.investing.com/news/latest-news)的新闻数据时,常常�...
