首页 头条 通过技术视角看看不一样的第七次全国人口普查!!

通过技术视角看看不一样的第七次全国人口普查!!

May 13, 2021 am 11:52 AM
数据分析

通过技术视角看看不一样的第七次全国人口普查!!

看过第七次人口普查公报就会发现,整个工作流程跟企业里做数据分析的流程是相似的。这篇文章先来看看二者的共性,再来看看作为一个互联网从业人员应该重点关注“七人普”里的哪些信息。

我们对照《第七次全国人口普查公报》进行说明

对普查内容和普查方式进行创新。全面采用电子化数据采集方式,由普查员使用电子设备采集,实时直接上报数据;

巧妇难为无米之炊,做数据分析首先要收集数据,本次普查将人口信息数据化并上报,对应到企业就是埋点上报

埋点怎么理解呢,“点”其实就是app或者网站上某个位置,埋点就是在某个位置,用户产生某个动作后,记录下来用户当前的信息。某个动作可以是浏览、点击、滑动等等。比如:电商app里,当用户点击下单按钮后,就把用户下单的时间、金额、商品id、手机网络状态、手机操作系统等信息记录下来,这就是一个埋点。一个埋点可以记录任何信息,但必不可少信息有三个,时间、地点、人物。时间是行为发生的时间,用于分析用户时序;地点是在当前页面具体哪个位置发生的;人物就是用户标识,一般用手机、PC的设备信息生成。其他信息根据数据分析的需要选择性地收集。

信息收集完,一般都是通过实时技术上报到企业的服务器中,用于后续的分析。根据这些埋点就可以分析出用户在什么时间浏览了哪些内容,最后点击了哪些内容,点击的内容看了多长时间,最终购买了什么东西,花了多少钱等等,进一步可以分析出用户偏好什么内容,用户的消费能力怎么样,从而更进一步地做个性化推荐。 

充分利用互联网云技术、云服务和云应用完成数据处理工作

由于埋点数据量比较大,并且有长期存储的需求。所以企业的埋点上报后,一般存放在分布式存储介质里,后续数据分析工作大都用分布式计算框架进行处理。分布式存储、计算服务目前大都采用云服务的形式。我之前工作的一家公司最开始自己买服务器搭建分布式服务,由于运维成本实在太大,不堪其扰,最终转移到阿里云上,节省了很大一部分运维成本。

分布式存储、计算框架可以用开源的,如:Hadoop、Hive、Spark等,也可以企业自研的,如:阿里云的 MaxCompute。

按照国家网络安全三级等保标准对普查数据采集、传输、存储进行安全管理,确保公民个人信息安全

这部分说的是个人信息保护,在企业里,对于用户保密的信息,如:身份证号,会进行脱敏处理,即:将身份证号进行编码,变成两外一个唯一的标识,这样既不影响使用,又不会泄露隐私信息。

除了脱敏,还需要对数据的保密程度分级,建立相应的权限审核机制。使用什么级别的保密数据,就要申请对应的权限,记录在案,做到信息泄露可追溯。

各级普查机构严格执行质量控制要求,认真开展质量验收,确保普查各阶段工作质量

这部分说的是数据质量监控。在企业里,埋点质量监控也是重点内容,如果上报上来的埋点都是错误的、不可以用的,显然是没有意义的。

企业的埋点质量监控一般通过两个方面来做,第一,对单个埋点校验,检查上报的埋点各个字段的格式是否正确、监控核心字段的空值率等。第二,对流量做监控,通过同环比,判断上报埋点的量级是否有异常。

第七次全国人口普查全面查清了我国人口数量、结构、分布等方面情况,掌握了人口变化的趋势性特征,为完善我国人口发展战略和政策体系、制定经济社会发展规划、推动经济高质量发展提供了准确统计信息支持。

这部分就是我们熟悉的数据分析了,在企业里就是对用户行为进行分析,得到有价值的结论,为app或网站的迭代提供决策支持。

数据分析一般分为两大部分,一部分是数值分析,可以是单纯的数字统计,也可以用 Python 机器学习进行拟合、分类等。数据量较大的情况会用分布式计算框架Hadoop、Spark。另一部分是文本分析,这部分更多的使用机器学习、深度学习方法去挖掘数值分析看不到的东西。

另外,补充一点。人口普查里我们看到的年龄、性别、学历等信息在企业里一般称之为用户画像。这些信息是无法通过埋点收集过来,但对企业来说是非常重要的数据,往往需要结合用户行为,使用机器学习、深度学习算法预测得到。

到这里,第一部分内容就结束了,我们以人口普查为例,介绍了企业数据分析的流程以及涉及的技术。下面再来简单说下作为互联网从业者我们应该关注哪些方面。

人口素质不断提高,人才红利新的优势将逐步显现。同时,大学生就业压力加大,产业转型升级步伐需要加快。

白领人口供给长期过剩,996内卷还会激烈,所以高新企业人才成本降低,“人才红利优势逐步显现”。

打铁还需自身硬,还得不断提高真才实学。

人口加快集聚,既反映了城镇化和经济集聚的趋势性变化,也对提高城镇化质量、促进区域协调发展提出了新的要求。

大城市人口加速流入,农村人口加速流失。

中国的城市化进程尚未完成,对于还未毕业的在校生来说,选择一线、新一线城市是明智的选择。对于已经在大城市的打工人来说,在核心地段买房是明智的选择。

老年人口比例上升较快,老龄化已成为今后一段时期我国的基本国情。同时,老年人口的增加也会带来智慧、传承、发挥和需求拓展扩大。

做好延迟退休的准备,看来不光要考虑中年危机,还要考虑老年危机了。

没有哪个企业会闲的没事,整天分析一堆没用的数据。人口普查也一样,从中找到对自己有用的信息,找到未来的路该怎么走,才是每个人最应该干的事。

相关推荐:

php前世今生与未来展望

对于初学者,如何从0开始快速学习php?(送给迷茫的你)

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

使用pandas读取CSV文件并进行数据分析 使用pandas读取CSV文件并进行数据分析 Jan 09, 2024 am 09:26 AM

Pandas是一个强大的数据分析工具,可以方便地读取和处理各种类型的数据文件。其中,CSV文件是最常见和常用的数据文件格式之一。本文将介绍如何使用Pandas读取CSV文件并进行数据分析,同时提供具体的代码示例。一、导入必要的库首先,我们需要导入Pandas库和其他可能需要的相关库,如下所示:importpandasaspd二、读取CSV文件使用Pan

数据分析方法介绍 数据分析方法介绍 Jan 08, 2024 am 10:22 AM

常见的数据分析方法:1、对比分析法;2、结构分析法;3、交叉分析法;4、趋势分析法;5、因果分析法;6、关联分析法;7、聚类分析法;8、主成分分析法;9、散点分析法;10、矩阵分析法。详细介绍:1、对比分析法:将两个或两个以上的数据进行对比分析,找出其中的差异和规律;2、结构分析法:对总体内各部分与总体之间进行对比分析的方法;3、交叉分析法等等。

如何利用React和Google BigQuery构建快速的数据分析应用 如何利用React和Google BigQuery构建快速的数据分析应用 Sep 26, 2023 pm 06:12 PM

如何利用React和GoogleBigQuery构建快速的数据分析应用引言:在当今信息爆炸的时代,数据分析已经成为了各个行业中不可或缺的环节。而其中,构建快速、高效的数据分析应用则成为了许多企业和个人追求的目标。本文将介绍如何利用React和GoogleBigQuery结合起来构建快速的数据分析应用,并提供详细的代码示例。一、概述React是一个用于构建

11个基本分布,数据科学家95%的时间都在使用 11个基本分布,数据科学家95%的时间都在使用 Dec 15, 2023 am 08:21 AM

继上次盘点《数据科学家95%的时间都在使用的11个基本图表》之后,今天将为大家带来数据科学家95%的时间都在使用的11个基本分布。掌握这些分布,有助于我们更深入地理解数据的本质,并在数据分析和决策过程中做出更准确的推断和预测。1.正态分布正态分布(NormalDistribution),也被称为高斯分布(GaussianDistribution),是一种连续型概率分布。它具有一个对称的钟形曲线,以均值(μ)为中心,标准差(σ)为宽度。正态分布在统计学、概率论、工程学等多个领域具有重要的应用价值。

数据分析和机器学习的11个高级可视化图表介绍 数据分析和机器学习的11个高级可视化图表介绍 Oct 25, 2023 am 08:13 AM

可视化是一种强大的工具,用于以直观和可理解的方式传达复杂的数据模式和关系。它们在数据分析中发挥着至关重要的作用,提供了通常难以从原始数据或传统数字表示中辨别出来的见解。可视化对于理解复杂的数据模式和关系至关重要,我们将介绍11个最重要和必须知道的图表,这些图表有助于揭示数据中的信息,使复杂数据更加可理解和有意义。1、KSPlotKSPlot用来评估分布差异。其核心思想是测量两个分布的累积分布函数(CDF)之间的最大距离。最大距离越小,它们越有可能属于同一分布。所以它主要被解释为确定分布差异的“统

使用Go语言进行机器学习和数据分析 使用Go语言进行机器学习和数据分析 Nov 30, 2023 am 08:44 AM

在当今智能化的社会中,机器学习和数据分析是必不可少的工具,能够帮助人们更好地理解和利用大量的数据。而在这些领域中,Go语言也成为了备受关注的一种编程语言,它的速度和效率使它成为了很多程序员的选择。本文介绍如何使用Go语言进行机器学习和数据分析。一、机器学习Go语言的生态系统并不像Python和R那样丰富,但是,随着越来越多的人开始使用它,一些机器学习库和框架

如何利用ECharts和php接口实现统计图的数据分析和预测 如何利用ECharts和php接口实现统计图的数据分析和预测 Dec 17, 2023 am 10:26 AM

如何利用ECharts和php接口实现统计图的数据分析和预测数据分析和预测在各个领域中扮演着重要角色,它们能够帮助我们理解数据的趋势和模式,为未来的决策提供参考。ECharts是一款开源的数据可视化库,它提供了丰富灵活的图表组件,可以通过使用php接口来实现数据的动态加载和处理。本文将介绍基于ECharts和php接口的统计图数据分析和预测的实现方法,并提供

集成Excel数据分析 集成Excel数据分析 Mar 21, 2024 am 08:21 AM

1.本节课我们进行讲解集成Excel数据分析,我们通过一个案例进行完成,打开课程素材单击E2单元格进行输入公式。2.我们再进行选中到单元格E53,就可以将下面的数据都计算出来。3.然后我们点击F2单元格,然后我们输入公式就可以计算出,同样向下拖拽都可以计算出我们要的数值。4.我们选中G2单元格点击数据选项卡点击数据验证,进行选择然后确定。5.我们再使用相同方式进行下拉自动填充到下面需要计算的单元格。6.接下来我们计算实发工资,选中H2单元格进行输入公式。7.然后我们点击数值下拉菜单进行点击其他数