首頁 頭條 透過技術視角來看看不一樣的第七次全國人口普查! !

透過技術視角來看看不一樣的第七次全國人口普查! !

May 13, 2021 am 11:52 AM
數據分析

透過技術視角來看看不一樣的第七次全國人口普查! !

看過第七次人口普查公報就會發現,整個工作流程跟企業裡做資料分析的流程是相似的。這篇文章先來看看二者的共通性,再來看看身為網路從業人員應該要專注在「七人普」裡的哪些資訊。

我們對照《第七次全國人口普查公報》進行說明

對普查內容和普查方式進行創新。全面採用電子化資料蒐集方式,由普查員使用電子設備採集,即時直接上報資料;

#巧婦難為無米之炊,做資料分析先收集數據,本次普查將人口資訊數據化並上報,對應到企業就是埋點上報

埋點怎麼理解呢,「點」其實就是app或網站上某個位置,埋點就是在某個位置,使用者產生某個動作後,記錄下來使用者目前的資訊。某個動作可以是瀏覽、點擊、滑動等等。例如:電商app裡,當用戶點選下單按鈕後,就把用戶下單的時間、金額、商品id、手機網路狀態、手機作業系統等資訊記錄下來,這就是一個埋點。一個埋點可以記錄任何信息,但必不可少信息有三個,時間、地點、人物。時間是行為發生的時間,用來分析使用者時序;地點是在目前頁面具體哪個位置發生的;人物就是使用者標識,一般用手機、PC的設備資訊產生。其他資訊則根據數據分析的需要選擇性地收集。

資訊收集完,一般都是透過即時技術上報到企業的伺服器中,用於後續的分析。根據這些埋點就可以分析出用戶在什麼時間瀏覽了哪些內容,最後點擊了哪些內容,點擊的內容看了多長時間,最終購買了什麼東西,花了多少錢等等,進一步可以分析出用戶偏好什麼內容,使用者的消費能力怎麼樣,進而更進一步做個人化推薦。 

充分利用網路雲端技術、雲端服務和雲端應用完成資料處理工作

由於埋入資料量比較大,並且有長期儲存的需求。所以企業的埋點上報後,一般存放在分散式儲存媒體裡,後續資料分析工作大都用分散式運算框架處理。分散式儲存、運算服務目前大都採用雲端服務的形式。我之前工作的一家公司最開始自己買伺服器搭建分散式服務,由於運維成本實在太大,不堪其擾,最終轉移到阿里雲上,節省了很大一部分運維成本。

分散式儲存、運算框架可以用開源的,如:Hadoop、Hive、Spark等,也可以企業自研的,如:阿里雲的 MaxCompute。

依照國家網路安全三級等保標準對普查資料收集、傳輸、儲存進行安全管理,確保公民個人資訊安全

這部分說的是個人資訊保護,在企業裡,對於使用者保密的訊息,如:身分證號,會進行減敏處理,即:將身分證號進行編碼,變成兩外一個唯一的標識,這樣既不影響使用,又不會洩漏隱私資訊。

除了脫敏,還需要對資料的保密程度分級,建立對應的權限審核機制。使用什麼程度的保密數據,就要申請對應的權限,記錄在案,做到資訊外洩可追溯。

各級普查機構嚴格執行品質控制要求,認真進行品質驗收,確保普查各階段工作品質

這部分說的是資料品質監控。在企業裡,埋點品質監控也是重點內容,如果上報上來的埋點都是錯誤的、不可以用的,顯然是沒有意義的。

企業的埋點品質監控一般透過兩個面向來做,第一,對單一埋點校驗,檢查上報的埋點各個欄位的格式是否正確、監控核心欄位的空值率等。第二,對流量做監控,透過同環比,判斷上報埋點的量級是否有異常。

第七次全國人口普查全面查清了我國人口數量、結構、分佈等方面情況,掌握了人口變化的趨勢性特徵,為完善我國人口發展戰略和政策體系、制定經濟社會發展規劃、推動經濟高品質發展提供了準確統計資訊支援。

這部分就是我們熟悉的資料分析了,在企業裡就是對使用者行為進行分析,得到有價值的結論,為app或網站的迭代提供決策支持。

資料分析一般分為兩大部分,一部分是數值分析,可以是單純的數字統計,也可以用 Python 機器學習進行擬合、分類等。資料量較大的情況會用分散式計算框架Hadoop、Spark。另一部分是文字分析,這部分更多的使用機器學習、深度學習方法去挖掘數值分析看不到的東西。

另外,補充一點。人口普查裡我們看到的年齡、性別、學歷等資訊在企業裡一般稱之為使用者畫像。這些資訊是無法透過埋點收集過來,但對企業來說是非常重要的數據,往往需要結合使用者行為,使用機器學習、深度學習演算法預測得到。

到這裡,第一部分內容就結束了,我們以人口普查為例,介紹了企業資料分析的流程以及涉及的技術。下面再來簡單說下身為網路從業者我們應該關注哪些面向。

人口素質不斷提高,人才紅利新的優勢將逐步顯現。同時,大學生就業壓力加大,產業轉型升級步伐需要加快。

白領人口供給長期過剩,996內卷還會激烈,所以高新企業人才成本降低,「人才紅利優勢逐步顯現」。

打鐵還需自身硬,還得不斷提高真才實學。

人口加快集聚,既反映了城鎮化和經濟集聚的趨勢性變化,也對提高城鎮化品質、促進區域協調發展提出了新的要求。

大城市人口加速流入,農村人口加速流失。

中國的都市化進程尚未完成,對於還沒畢業的在校生來說,選擇一線、新一線城市是明智的選擇。對於已經在大城市的打工人來說,在核心地段買房是明智的選擇。

老年人口比例上升較快,老化已成為今後一段時間我國的基本國情。同時,老年人口的增加也會帶來智慧、傳承、發揮和需求拓展擴大。

做好延遲退休的準備,看來不光要考慮中年危機,還要考慮老年危機了。

沒有企業會閒的沒事,整天分析一堆沒用的數據。人口普查也是一樣,從中找到對自己有用的信息,找到未來的路該怎麼走,才是每個人最該做的事。

相關推薦:

php前世今生與未來展望

對於初學者,如何從0開始快速學習php? (送給迷惘的你)

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

使用pandas讀取CSV檔案並進行資料分析 使用pandas讀取CSV檔案並進行資料分析 Jan 09, 2024 am 09:26 AM

Pandas是一個強大的資料分析工具,可以輕鬆讀取和處理各種類型的資料檔案。其中,CSV檔案是最常見且常用的資料檔案格式之一。本文將介紹如何使用Pandas讀取CSV檔案並進行資料分析,同時提供具體的程式碼範例。一、導入必要的函式庫首先,我們需要導入Pandas函式庫和其他可能需要的相關函式庫,如下所示:importpandasaspd二、讀取CSV檔使用Pan

數據分析方法介紹 數據分析方法介紹 Jan 08, 2024 am 10:22 AM

常見的資料分析方法:1、對照分析法;2、結構分析法;3、交叉分析法;4、趨勢分析法;5、因果分析法;6、關聯分析法;7、聚類分析法;8 、主成分分析法;9、散點分析法;10、矩陣分析法。詳細介紹:1、對照分析法:將兩個或兩個以上的資料進行比較分析,找出其中的差異與規律;2、結構分析法:對總體內各部分與總體進行比較分析的方法;3、交叉分析法等等。

如何利用React和Google BigQuery建立快速的資料分析應用 如何利用React和Google BigQuery建立快速的資料分析應用 Sep 26, 2023 pm 06:12 PM

如何利用React和GoogleBigQuery建立快速的資料分析應用引言:在當今資訊爆炸的時代,資料分析已經成為了各產業中不可或缺的環節。而其中,建構快速、有效率的資料分析應用則成為了許多企業和個人追求的目標。本文將介紹如何利用React和GoogleBigQuery結合來建立快速的資料分析應用,並提供詳細的程式碼範例。一、概述React是用來構建

11個基本分佈,資料科學家95%的時間都在使用 11個基本分佈,資料科學家95%的時間都在使用 Dec 15, 2023 am 08:21 AM

繼上次盤點《資料科學家95%的時間都在使用的11個基本圖表》之後,今天將為大家帶來資料科學家95%的時間都在使用的11個基本分佈。掌握這些分佈,有助於我們更深入地理解數據的本質,並在數據分析和決策過程中做出更準確的推論和預測。 1.常態分佈常態分佈(NormalDistribution),也被稱為高斯分佈(GaussianDistribution),是一種連續型機率分佈。它具有一個對稱的鐘形曲線,以平均值(μ)為中心,標準差(σ)為寬度。常態分佈在統計學、機率論、工程學等多個領域具有重要的應用價值。

使用Go語言進行機器學習和數據分析 使用Go語言進行機器學習和數據分析 Nov 30, 2023 am 08:44 AM

在當今智慧化的社會中,機器學習和數據分析是必不可少的工具,能夠幫助人們更好地理解和利用大量的數據。而在這些領域中,Go語言也成為了備受關注的程式語言,它的速度和效率使它成為了許多程式設計師的選擇。本文介紹如何使用Go語言進行機器學習和資料分析。一、機器學習Go語言的生態系統並不像Python和R那樣豐富,但是,隨著越來越多的人開始使用它,一些機器學習庫和框架

如何利用ECharts和php介面實現統計圖的資料分析與預測 如何利用ECharts和php介面實現統計圖的資料分析與預測 Dec 17, 2023 am 10:26 AM

如何利用ECharts和php介面實現統計圖的資料分析和預測資料分析和預測在各個領域中扮演著重要角色,它們能夠幫助我們理解資料的趨勢和模式,為未來的決策提供參考。 ECharts是一款開源的資料視覺化函式庫,它提供了豐富且靈活的圖表元件,可以透過使用php介面來實現資料的動態載入和處理。本文將介紹基於ECharts和php介面的統計圖資料分析和預測的實作方法,並提供

資料分析與機器學習的11個進階視覺化圖表介紹 資料分析與機器學習的11個進階視覺化圖表介紹 Oct 25, 2023 am 08:13 AM

視覺化是一種強大的工具,用於以直觀和可理解的方式傳達複雜的數據模式和關係。它們在數據分析中發揮著至關重要的作用,提供了通常難以從原始數據或傳統數位表示中辨別出來的見解。視覺化對於理解複雜的數據模式和關係至關重要,我們將介紹11個最重要且必須知道的圖表,這些圖表有助於揭示數據中的信息,使複雜數據更加可理解和有意義。 1.KSPlotKSPlot用來評估分佈差異。其核心思想是測量兩個分佈的累積分佈函數(CDF)之間的最大距離。最大距離越小,它們越有可能屬於同一分佈。所以它主要被解釋為確定分佈差異的「統

整合Excel資料分析 整合Excel資料分析 Mar 21, 2024 am 08:21 AM

1.本課我們進行講解整合Excel資料分析,我們透過一個案例進行完成,開啟課程素材點選E2儲存格進行輸入公式。 2.我們再進行選取到儲存格E53,就可以將下面的資料都計算出來。 3.然後我們點選F2單元格,然後我們輸入公式就可以計算出,同樣向下拖曳都可以計算出我們要的數值。 4.我們選取G2儲存格點選資料標籤點選資料驗證,進行選擇然後確定。 5.我們再使用相同方式進行下拉自動填入下面需要計算的儲存格。 6.接下來我們計算實發工資,選取H2儲存格進行輸入公式。 7.然後我們點選數值下拉選單進行點選其他數