首页 > 后端开发 > Python教程 > 数据可视化基础知识

数据可视化基础知识

WBOY
发布: 2024-09-07 14:32:32
原创
1744 人浏览过

为什么要使用数据可视化

当您需要使用具有大量数据的新数据源时,使用数据可视化来更好地理解数据非常重要。
数据分析过程大多数时候分为 5 个步骤:

  1. 提取 - 从电子表格、SQL、网络等获取数据。
  2. 干净 - 在这里我们可以使用探索性视觉效果。

  3. 探索 - 在这里我们使用探索性视觉效果。

  4. 分析 - 在这里我们可以使用探索性或解释性的视觉效果。

  5. 分享 - 这里是解释性视觉效果的所在地。

数据类型

为了能够为给定的度量选择合适的绘图,了解您正在处理的数据非常重要。

定性又名分类类型

名义定性数据

与项目本身没有关联的顺序或等级的标签。
示例:性别、婚姻状况、菜单项

序数定性数据

具有顺序或排名的标签。
示例:字母等级、评级

定量又称数字类型

离散定量值

数字不能分割成更小的单位
示例:书中的页数、公园中的树木数量

连续定量值

数字可以分割成更小的单位
示例:身高、年龄、收入、工作时间

统计摘要

数值数据

平均值:平均值。
中位数:数据排序时的中间值。
众数:最常出现的值。
方差/标准差:传播或分散的度量。
范围:最大值和最小值之间的差值。

分类数据

频率:每个类别出现的次数。
模式:最常见的类别。

可视化

您可以非常快速地了解新数据源,还可以更轻松地查看不同数据类型之间的联系。
因为当你只使用标准统计来总结你的数据时,你会得到最小值、最大值、平均值、中位数和众数,但这在其他方面可能会产生误导。就像安斯科姆四重奏中所示:均值和偏差始终相同,但数据分布始终不同。

在数据可视化中,我们有两种类型:

  1. 探索性数据可视化 我们用它来深入了解数据。它不需要具有视觉吸引力。
  2. 解释性数据可视化 当呈现给用户时,这种可视化效果必须准确、富有洞察力且具有视觉吸引力。

图表垃圾、数据墨水比率和设计完整性

图表垃圾

为了能够心无旁骛地阅读通过绘图提供的信息,避免图表垃圾非常重要。喜欢:

  • 粗网格线
  • 视觉效果中的图片
  • 色调
  • 3d 组件
  • 装饰品
  • 多余的文字 Data Visualisation Basics

数据墨水比率

视觉效果中的图表垃圾越少,数据墨水比率就越高。这只是意味着视觉中用于传输数据消息的“墨水”越多,效果就越好。

设计完整性

谎言因子计算如下:

$$
text{谎言因子} = frac{text{图形中显示的效果大小}}{text{数据中的效果大小}}
$$

Delta 代表差异。因此,它是图形中显示的相对变化除以数据中实际的相对变化。理想情况下应该是 1。如果不是,则意味着数据呈现方式与实际变化存在一些不匹配。

Data Visualisation Basics
上面的例子取自wiki,在比较每个医生的像素时,谎言因子为3,代表加州医生的数量。

Data Visualisation Basics

数据整齐

确保您的数据已正确清理并可供使用:

  • 每个变量都是一列
  • 每个观察结果都是一行
  • 每种类型的观察单元都是一个表

数据的单变量探索

这是指对数据集中单个变量(或特征)的分析。

条形图

  • 始终从 0 开始绘制,以真实可比的方式呈现值。
  • 对标称数据进行排序
  • 不要对序数数据进行排序 - 在这里,了解最重要类别出现的频率比最频繁出现的频率更重要
  • 如果您有很多类别,请使用水平条形图:将类别放在 y 轴上,以提高可读性。 Data Visualisation Basics

Data Visualisation Basics

Data Visualisation Basics

Data Visualisation Basics

直方图

  • 条形图的定量版本。这用于绘制数值。
  • 值被分组到连续的箱中,每个箱绘制一个条形 Data Visualisation Basics

KDE - 核密度估计

  • 通常是高斯分布或正态分布,用于估计每个点的密度。
  • KDE 图可以更清楚地揭示趋势和分布形状,特别是对于分布不均匀的数据。 Data Visualisation Basics

饼图和圆环图

  • 数据需要采用相对频率
  • 饼图在最多 3 个切片时效果最佳。如果有更多的楔子要显示,它就会变得难以阅读,并且不同的数量也很难比较。那么您会更喜欢条形图。 Data Visualisation Basics

数据的双变量探索

分析数据集中两个变量之间的关系。

簇状条形图

  • 显示两个分类值之间的关系。这些条形根据第一个变量的级别组织成簇。 Data Visualisation Basics

散点图

  • 每个数据点都单独绘制为一个点,其 x 位置对应于一个特征值,y 位置对应于第二个特征值。
  • 如果绘图出现过度绘制(太多数据点重叠):您可以使用透明度和抖动(每个点都稍微偏离其真实值) Data Visualisation Basics

热图

  • 直方图的二维版本
  • 数据点的放置方式是其 x 位置对应于一个特征值,其 y 位置对应于第二个特征值。
  • 绘图区域被划分为网格,点数在网格中相加,计数用颜色表示 Data Visualisation Basics

小提琴情节

  • 在较低的抽象水平上显示定量(数值)和定性(分类)变量之间的关系。
  • 分布像核密度估计一样绘制,因此我们可以有一个清晰的
  • 要同时显示关键统计数据,您可以在小提琴图中嵌入箱形图。 Data Visualisation Basics

箱线图

  • 它还在较低的抽象水平上绘制了定量(数值)和定性(分类)变量之间的关系。
  • 与小提琴图相比,箱线图更倾向于数据的汇总,主要只是报告每个类别级别上数值的一组描述性统计数据。
  • 它可视化数据的五个数字摘要:最小值、第一四分位数 (Q1)、中位数 (Q2)、第三四分位数 (Q3) 和最大值。

箱线图的关键元素:
方框:图的中心部分代表四分位数范围 (IQR),即第一个四分位数(Q1,第 25 个百分位数)和第三个四分位数(Q3,第 75 个百分位数)之间的范围。这包含中间 50% 的数据。

中位数线:在方框内,一条线代表数据集的中位数(Q2,第 50 个百分位数)。

晶须:从方框延伸出来的线(称为“晶须”)显示 Q1 和 Q3 IQR 1.5 倍以内的数据范围。它们通常会扩展到此范围内的最小值和最大值。

离群值:任何超出 IQR 1.5 倍的数据点都被视为离群值,通常由胡须之外的单个点或标记表示。
Data Visualisation Basics

组合小提琴图和箱线图

小提琴图显示不同类别的密度,箱线图提供汇总统计数据
Data Visualisation Basics

刻面

  • 数据被划分为不相交的子集,最常见的是按分类变量的不同级别划分。对于数据的每个子集,在其他变量上呈现相同的绘图类型,即具有不同分类值的彼此相邻的更多直方图。 Data Visualisation Basics

线图

  • 用于绘制一个数字变量相对于第二个变量的趋势。 Data Visualisation Basics

分位数-分位数 (Q-Q) 图

  • 是一种绘图,用于将数据集的分布与理论分布(如正态分布)进行比较,或比较两个数据集以检查它们是否遵循相同的分布。 Data Visualisation Basics

群体图

  • 与散点图一样,每个数据点根据其在绘制的两个变量上的值绘制位置。与普通散点图中的随机抖动点不同,点的放置尽可能接近其实际值,而不允许任何重叠。 Data Visualisation Basics

蜘蛛情节

  • 比较径向网格上不同类别的多个变量。也称为雷达图。 Data Visualisation Basics

有用的链接

我的样本笔记本

示例代码

用于示例图的库:

  • Matplotlib:一个用于可视化的多功能库,但可能需要一些代码工作才能将常见的可视化组合在一起。
  • Seaborn:建立在 matplotlib 之上,添加了许多函数,使常见的统计可视化更容易生成。
  • pandas:虽然这个库包含一些方便的方法来可视化连接到 matplotlib 的数据,但我们主要将其用作处理数据的通用工具(https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf ).

进一步阅读:

  • Anscombes Quartett:数据统计相同,但分布不同:https://en.wikipedia.org/wiki/Anscombe%27s_quartet
  • Chartchunk:https://en.wikipedia.org/wiki/Chartjunk
  • 数据墨水比率:https://infovis-wiki.net/wiki/Data-Ink_Ratio
  • 谎言因素:https://infovis-wiki.net/wiki/Lie_Factor
  • 整洁的数据:https://cran.r-project.org/web/packages/tidyr/vignettes/tidy-data.html
  • 色盲友好的可视化:https://www.tableau.com/blog/examining-data-viz-rules-dont-use-red-green-together

以上是数据可视化基础知识的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:dev.to
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板