深入了解Python数据处理及可视化-Python教程-PHP中文网

一、NumPy的初步使用

二、Matplotlib包的使用–图形化数据处理

三、深度学习理论方法–相似度计算（可以跳过）

1、基于欧几里得距离的相似度计算

2、基于余弦角度的相似度计算

四、数据统计的可视化展示（以我们亳州市降水为例）

数据的四分位

首页

后端开发

Python教程

深入了解Python数据处理及可视化

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 21, 2022 pm 05:43 PM

python

本篇文章给大家带来了关于python的相关知识，其中主要介绍了关于数据处理以及可视化的相关问题，包括了NumPy的初步使用、Matplotlib包的使用和数据统计的可视化展示等等，希望对大家有帮助。

深入了解Python数据处理及可视化

推荐学习：python教程

一、NumPy的初步使用

表格是数据的一般表示形式，但对于机器来说是不可理解的，也就是无法辨识的数据，所以我们需要对表格的形式进行调整。
常用的机器学习表示形式为数据矩阵。
在这里插入图片描述
我们观察这个表格，发现，矩阵中的属性有两种，一种是数值型，一种是布尔型。那么我们现在就建立模型描述这个表格：

#  数据的矩阵化import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:
    row += 1print( row )print(data.size)print(data)

登录后复制

这里第一行代码的意思就是引入NumPy将其重命名为np。第二行我们使用NumPy中的mat()方法建立一个数据矩阵，row是引入的计算行数的变量。
这里的size意思就是5*5的一个表格，直接打印data就可以看到数据了：
在这里插入图片描述

二、Matplotlib包的使用–图形化数据处理

我们还是看最上面的表格，第二列是房价的差异，我们想直观的看出差别是不容易的（因为只有数字），所以我们希望能够把它画出来（研究数值差异和异常的方法就是绘制数据的分布程度）：

import numpy as npimport scipy.stats as statsimport pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:
    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

登录后复制

这个代码的结果就是生成一个图：
在这里插入图片描述
这样我们就能清晰的看出来差异了。

一个坐标图的要求，就是通过不同的行和列表现出数据的具体值。
当然，坐标图我们一样可以展示：
在这里插入图片描述

三、深度学习理论方法–相似度计算（可以跳过）

相似度的计算方法有很多，我们选用最常用的两种，即欧几里得相似度和余弦相似度计算。

1、基于欧几里得距离的相似度计算

欧几里得距离，用来表示三维空间中两个点的真实距离。公式我们其实都知道，只是名字听的少：
在这里插入图片描述
那么我们来看一看它的实际应用：
这个表格是3个用户对物品的打分：

d12表示用户1和用户2的相似度，那么就有：

同理，d13：

可见，用户2更加相似于用户1（距离越小，相似度越大）。

2、基于余弦角度的相似度计算

余弦角度的计算出发点是夹角的不同。
在这里插入图片描述

可见相对于用户3，用户2与用户1更为相似（两个目标越相似，其线段形成的夹角越小）

四、数据统计的可视化展示（以我们亳州市降水为例）

数据的四分位

四分位数，是统计学中分位数的一种，也就是把数据由小到大排列，之后分成四等份，处于三个分割点位置的数据，就是四分位数。
第一四分位数（Q1），也称下四分位数；
第二四分位数（Q1），也称中位数；
第三四分位数（Q1），也称下四分位数；

第三四分位数与第一四分位数的差距又称为四分差距（IQR）。

若n为项数，则：
Q1的位置 = （n+1）*0.25
Q2的位置 = （n+1）*0.50
Q3的位置 = （n+1）*0.75

四分位示例：
关于这个rain.csv，有需要的可以私我要文件，我使用的是亳州市2010-2019年的月份降水情况。

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].values
boxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

登录后复制

以下是plot运行结果：
在这里插入图片描述
这个是pandas的运行

这里就可以很清晰的看出来数据的波动范围。
可以看出，不同月份的降水量有很大差距，8月最多，1-4月和10-12月最少。

那么每月的降水增减程度如何比较？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

登录后复制

结果如图：
在这里插入图片描述
可以看出来降水月份并不规律的上涨或下跌。

那么每月降水是否相关？

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

登录后复制

结果如图：
在这里插入图片描述
可以看出，颜色分布十分均匀，表示没有多大的相关性，因此可以认为每月的降水是独立行为。

今天就记录到这里了，我们下次再见！希望本文章对你也有所帮助。

推荐学习：python学习教程

以上是深入了解Python数据处理及可视化的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7467

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

PS羽化如何控制过渡的柔和度？ Apr 06, 2025 pm 07:33 PM

羽化控制的关键在于理解其渐变本质。PS本身不提供直接控制渐变曲线的选项，但你可以通过多次羽化、配合蒙版、精细选区，灵活调整半径和渐变柔和度，实现自然过渡效果。

mysql 是否要付费 Apr 08, 2025 pm 05:36 PM

MySQL 有免费的社区版和收费的企业版。社区版可免费使用和修改，但支持有限，适合稳定性要求不高、技术能力强的应用。企业版提供全面商业支持，适合需要稳定可靠、高性能数据库且愿意为支持买单的应用。选择版本时考虑的因素包括应用关键性、预算和技术技能。没有完美的选项，只有最合适的方案，需根据具体情况谨慎选择。

mysql安装后怎么使用 Apr 08, 2025 am 11:48 AM

文章介绍了MySQL数据库的上手操作。首先，需安装MySQL客户端，如MySQLWorkbench或命令行客户端。1.使用mysql-uroot-p命令连接服务器，并使用root账户密码登录；2.使用CREATEDATABASE创建数据库，USE选择数据库；3.使用CREATETABLE创建表，定义字段及数据类型；4.使用INSERTINTO插入数据，SELECT查询数据，UPDATE更新数据，DELETE删除数据。熟练掌握这些步骤，并学习处理常见问题和优化数据库性能，才能高效使用MySQL。

PS羽化怎么设置？ Apr 06, 2025 pm 07:36 PM

PS羽化是一种图像边缘模糊效果，通过在边缘区域对像素加权平均实现。设置羽化半径可以控制模糊程度，数值越大越模糊。灵活调整半径可根据图像和需求优化效果，如处理人物照片时使用较小半径保持细节，处理艺术作品时使用较大半径营造朦胧感。但需注意，半径过大易丢失边缘细节，过小则效果不明显。羽化效果受图像分辨率影响，且需要根据图像理解和效果把握进行调整。

mysql安装后怎么优化数据库性能 Apr 08, 2025 am 11:36 AM

MySQL性能优化需从安装配置、索引及查询优化、监控与调优三个方面入手。1.安装后需根据服务器配置调整my.cnf文件，例如innodb_buffer_pool_size参数，并关闭query_cache_size；2.创建合适的索引，避免索引过多，并优化查询语句，例如使用EXPLAIN命令分析执行计划；3.利用MySQL自带监控工具(SHOWPROCESSLIST,SHOWSTATUS)监控数据库运行状况，定期备份和整理数据库。通过这些步骤，持续优化，才能提升MySQL数据库性能。

mysql下载文件损坏无法安装的修复方案 Apr 08, 2025 am 11:21 AM

MySQL下载文件损坏，咋整？哎，下载个MySQL都能遇到文件损坏，这年头真是不容易啊！这篇文章就来聊聊怎么解决这个问题，让大家少走弯路。读完之后，你不仅能修复损坏的MySQL安装包，还能对下载和安装过程有更深入的理解，避免以后再踩坑。先说说为啥下载文件会损坏这原因可多了去了，网络问题是罪魁祸首，下载过程中断、网络不稳定都可能导致文件损坏。还有就是下载源本身的问题，服务器文件本身就坏了，你下载下来当然也是坏的。另外，一些杀毒软件过度“热情”的扫描也可能造成文件损坏。诊断问题：确定文件是否真的损坏

mySQL下载完安装不了 Apr 08, 2025 am 11:24 AM

MySQL安装失败的原因主要有：1.权限问题，需以管理员身份运行或使用sudo命令；2.依赖项缺失，需安装相关开发包；3.端口冲突，需关闭占用3306端口的程序或修改配置文件；4.安装包损坏，需重新下载并验证完整性；5.环境变量配置错误，需根据操作系统正确配置环境变量。解决这些问题，仔细检查每个步骤，就能顺利安装MySQL。

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度

See all articles

深入了解Python数据处理及可视化

一、NumPy的初步使用

二、Matplotlib包的使用–图形化数据处理

三、深度学习理论方法–相似度计算（可以跳过）

1、基于欧几里得距离的相似度计算

2、基于余弦角度的相似度计算

四、数据统计的可视化展示（以我们亳州市降水为例）

数据的四分位

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题