首頁 常見問題 大數據的核心就是什麼

大數據的核心就是什麼

Mar 26, 2021 pm 02:54 PM
大數據

大數據的核心就是預測。大數據的本質是解決問題,大數據的核心價值就在於預測;大數據是把數學演算法運用到海量的數據上來預測事情發生的可能性;大數據預測是基於大數據和預測模型去預測未來某件事情的機率。

大數據的核心就是什麼

本教學操作環境:windows7系統、Dell G3電腦。

大數據的核心就是預測。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。但是這種定義是有誤導性的。大數據不是要教機器像人一樣思考。

相反,它是把數學演算法運用到海量的資料上來預測事情發生的可能性。一封郵件被當作垃圾郵件過濾掉的可能性,輸入的「teh」應該是「the」的可能性,從一個人亂穿馬路時行進的軌跡和速度來看他能及時穿過馬路的可能性,都是大數據可以預測的範圍。當然,如果一個人能及時穿過馬路,那麼他亂穿馬路時,車子就只需要稍微減速就好。這些預測系統之所以能夠成功,關鍵在於它們是建立在海量資料的基礎上的。此外,隨著系統接收到的資料越來越多,它們可以聰明到自動搜尋最好的訊號和模式,並自己改善自己。

大數據預測(大數據核心應用)

#大數據預測是大數據最核心的應用,它將傳統意義的預測拓展到「現測」。大數據預測的優勢體現在,它把一個非常困難的預測問題,轉化為一個相對簡單的描述問題,而這是傳統小數據集根本無法企及的。從預測的角度來看,大數據預測所得出的結果不僅是用來處理現實業務的簡單、客觀的結論,更是能用來幫助企業經營的決策。

1. 預測是大數據的核心價值

大數據的本質是解決問題,大數據的核心價值就在於預測,而企業經營的核心也是基於預測而做出正確判斷。在談論大數據應用時,最常見的應用案例就是「預測股市」「預測流感」「預測消費者行為」等。

大數據預測則是基於大數據和預測模型去預測未來某件事情的機率。讓分析從「面向已經發生的過去」轉向「面向即將發生的未來」是大數據與傳統數據分析的最大差異。

大數據預測的邏輯基礎是,每一種非常規的變化事前一定有徵兆,每一件事情都有跡可循,如果找到了徵兆與變化之間的規律,就可以進行預測。大數據預測無法確定某件事情必然會發生,它比較是給予一個事件會發生的機率。

實驗的不斷反覆、大數據的日漸累積讓人類不斷發現各種規律,從而能夠預測未來。利用大數據預測可能的災難,利用大數據分析癌症可能的引發原因並找出治療方法,都是未來能夠惠及人類的事業。

例如,大數據曾被洛杉磯警察局和加州大學合作用於預測犯罪的發生;Google 流感趨勢利用搜尋關鍵字預測禽流感的散佈;麻省理工學院利用手機定位數據和交通數據進行都市規劃;氣象局透過整理近期的氣象狀況和衛星雲圖,更精確地判斷未來的天氣狀況。

2. 大數據預測的思維改變

在過去,人們的決策主要是依賴20% 的結構化數據,而大數據預測則可以利用另外80% 的非結構化資料來做決策。大數據預測具有更多的資料維度,更快的資料頻度和更廣的資料寬度。與小數據時代相比,大數據預測的思考有 3 大改變:實樣而非抽樣;預測效率而非精確;相關關係而非因果關係。

1)實樣而非抽樣

在小數據時代,由於缺乏獲取全體樣本的手段,人們發明了「隨機研究資料」的方法。理論上,抽取樣本越隨機,就越能代表整體樣本。但問題是取得一個隨機樣本的代價極高,而且很費時。人口調查就是一個典型例子,一個國家很難做到每年都完成一次人口調查,因為隨機調查實在是太耗時耗力,然而雲端運算和大數據技術的出現,使得獲取足夠大的樣本數據乃至全體數據成為可能。

2)效率而非精確

小數據時代由於使用抽樣的方法,所以需要在資料樣本的具體運算上非常精確,否則就會「差之毫釐,失之千里」。例如,在一個總樣本為 1 億的人口中隨機抽取 1000 人進行人口調查,如果在 1000 人上的運算出現錯誤,那麼放大到 1 億中時,偏差將會很大。但在全樣本的情況下,有多少偏差就是多少偏差,而不會被放大。

在大數據時代,快速獲得一個大概的輪廓和發展脈絡,比嚴格的精確性重要得多。有時候,當掌握了大量新型數據時,精確性就不那麼重要了,因為我們仍然可以掌握事情的發展趨勢。大數據基礎上的簡單演算法比小數據基礎上的複雜演算法更有效。資料分析的目的並非就是資料分析,而是用於決策,故而時效性也非常重要。

3)相關性而非因果關係

大數據研究不同於傳統的邏輯推理研究,它需要對數量龐大的資料做統計性的搜尋、比較、聚類、分類等分析歸納,並關注資料的相關性或稱關聯性。相關性是指兩個或兩個以上變數的取值之間存在某種規律性。相關性沒有絕對,只有可能性。但是,如果相關性強,則一個相關性成功的機率是很高的。

相關性可以幫助我們捕捉現在和預測未來。如果 A 和 B 經常一起發生,則我們只需要注意到 B 發生了,就可以預測 A 也發生了。

根據相關性,我們理解世界不再需要建立在假設的基礎上,這個假設是指針對現象建立的有關其產生機制和內在機理的假設。因此,我們也不需要建立這樣的假設,即哪些檢索詞條可以表示流感在何時何地傳播;航空公司怎樣給機票定價;沃爾瑪的顧客的烹飪喜好是什麼。取而代之的是,我們可以對大數據進行相關性分析,從而知道哪些檢索詞條是最能顯示流感的傳播的,飛機票的價格是否會飛漲,哪些食物是颶風期間待在家裡的人最想吃的。

數據驅動的關於大數據的相關性分析法,取代了基於假想的易出錯的方法。大數據的相關性分析法更準確、更快,而且不易受偏見的影響。建立在相關性分析法基礎上的預測是大數據的核心。

相關性分析本身的意義重大,同時它也為研究因果關係奠定了基礎。透過找出可能相關的事物,我們可以在此基礎上進行進一步的因果關係分析。如果存在因果關係,則再進一步找出原因。這種便捷的機制透過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯繫中找到一些重要的變量,這些變量可以用到驗證因果關係的實驗中去。

3. 大數據預測的典型應用領域

互聯網為大數據預測應用的普及帶來了便利條件,結合國內外案例來看,以下11個領域是最有機會的大數據預測應用領域。

1)天氣預報

天氣預報是典型的大數據預測應用領域。天氣預報粒度已經從天縮短到小時,有嚴苛的時效要求。如果基於海量資料以傳統方式進行計算,則得出結論時明天早已到來,預測並無價值,而大數據技術的發展則提供了高速運算能力,大大提高了天氣預報的實效性和準確性。

2)體育賽事預測

2014 年世界盃期間,Google、百度、微軟和高盛等公司都推出了比賽結果預測平台。百度的預測結果最為亮眼,全程 64 場比賽的預測準確率為 67%,進入淘汰賽後準確率為 94%。這意味著未來的體育賽事會被大數據預測所掌控。

Google 世界盃預測是基於 Opta Sports 的海量賽事資料來建立最終的預測模型的。百度則是透過搜尋過去5 年內全世界987 支球隊(含國家隊和俱樂部隊)的3.7 萬場比賽數據,

同時與中國彩票網站樂彩網、歐洲必發指數數據供應商SPdex 進行數據合作,導入博彩市場的預測數據,建立了一個囊括199 972 名球員和1.12 億條數據的預測模型,並在此基礎上進行結果預測。

從網路公司的成功經驗來看,只要有體育賽事歷史數據,並且與指數公司進行合作,便可以進行其他賽事的預測,如歐冠、NBA 等賽事。

3)股票市場預測

去年,英國華威商學院和美國波士頓大學物理系的研究發現,用戶透過Google 搜尋的金融關鍵字或許可以預測金融市場的走向,相應的投資策略收益高達326%。此前有專家嘗試透過 Twitter 博文情緒來預測股市波動。

4)市場物價預測

CPI 用來表徵已經發生的物價浮動情況,但統計局的數據並不權威。大數據則可能幫助人們了解未來物價的走向,提前預測通貨膨脹或經濟危機。最典型的案例莫過於馬雲透過阿里 B2B 大數據提前得知亞洲金融危機。

單一商品的價格預測更容易,尤其是機票這樣的標準化產品,「去哪裡」提供的「機票日曆」就是價格預測,它能告知你幾個月後機票的大概價位。

由於商品的生產、通路成本和大概毛利在充分競爭的市場中是相對穩定的,與價格相關的變數是相對固定的,商品的供需關係在電子商務平台上可即時監控,因此價格可以預測。基於預測結果可提供購買時間建議,或指導商家進行動態價格調整和行銷活動以實現利益最大化。

5)使用者行為預測

基於使用者搜尋行為、瀏覽行為、評論歷史和個人資料等數據,網路業務可以洞察消費者的整體需求,進而進行針對性的產品生產、改進和行銷。 《紙牌屋》選擇演員和劇情,百度基於用戶喜好進行精準廣告行銷,阿里根據天貓用戶特徵包下生產線定制產品,Amazon 預測用戶點擊行為提前發貨均受益於互聯網用戶行為預測。如圖 1 所示。

大數據的核心就是什麼
圖 1  使用者行為預測

受益於感測器技術和物聯網的發展,線下的使用者行為洞察正在醞釀。免費商用 Wi-Fi,iBeacon 技術、攝影機影像監控、室內定位技術、NFC 感測器網路、排隊叫號系統,可以探知用戶線下的移動、停留、出行規律等數據,從而進行精準行銷或產品客製化。

6)人體健康預測

中醫可以透過望聞問切的手段發現一些人體內隱藏的慢性病,​​甚至透過看體質便可知曉一個人將來可能會出現什麼症狀。人體徵兆變化有一定規律,而慢性病發生前人體已經會有一些持續性異常。理論上來說,如果大數據掌握了這樣的異常情況,便可以進行慢性病預測。

Nature 新聞與觀點報導 Zeevi 等人的研究,即一個人的血糖濃度如何受特定的食物影響的複雜問題。該研究根據腸道中的微生物和其他方面的生理狀況,提岀了一種可以提供個人化的食物建議的預測模型,比目前的標準能更準確地預測血糖反應。如圖 2 所示。

大數據的核心就是什麼
圖 2  血糖濃度預測模型

智慧硬體使慢性病的大數據預測變成可能。穿戴式裝置和智慧型健康設備可協助網路收集人體健康數據,如心率、體重、血脂、血糖、運動量、睡眠量等狀況。如果這些數據夠精準、全面,並且有可以形成演算法的慢性病預測模式,或許未來這些穿戴裝置就會提醒用戶身體罹患某種慢性病的風險。

7)疾病疫情預測

疾病疫情預測是指基於人們的搜尋狀況、購物行為預測大面積疫情爆發的可能性,最經典的「流感預測」便屬於此類。如果來自某個區域的「流感」「板藍根」搜尋需求越來越多,自然可以推測該處有流感趨勢。

百度已經推出了疾病預測產品,目前可以就流感、肝炎、肺結核、性病這四種疾病,對全國每一個省份以及大多數地級市和區縣的活躍度、趨勢圖等情況,進行全面的監控。未來,百度疾病預測監控的疾病種類將從目前的 4 種擴展到 30 多種,涵蓋更多常見的疾病和流行病。使用者可以根據當地的預測結果進行針對性的預防。

8)災害災難預測

氣象預測是最典型的災難災害預測。地震、洪澇、高溫、暴雨這些天災如果可以利用大數據的能力進行更提前的預測和告知,便有助於減災、防災、救災、趙災。與過往不同的是,過去的數據收集方式存在著有死角、成本高等問題,而在物聯網時代,人們可以藉助廉價的傳感器攝像頭和無線通信網絡,進行實時的數據監控收集,再利用大數據預測分析,做到更精準的自然災害預測。

9)環境變遷預測

除了進行短時間微觀的天氣、災害預測之外,還可以進行更長期且宏觀的環境和生態變遷預測。森林和農田面積縮小,野生動物植物瀕危,海岸線上升,溫室效應這些問題是地球面臨的「慢性問題」。人類知道越多地球生態系統以及天氣形態變化的數據,就越容易模型化未來環境的變遷,進而阻止不好的轉變發生。大數據可幫助人類收集、儲存和挖掘更多的地球數據,同時也提供了預測的工具。

10)交通行為預測

交通行為預測是指基於使用者和車輛的 LBS 定位數據,分析人車出行的個體和群體特徵,進行交通行為的預測。交通部門可透過預測不同時點、不同道路的車流量,來進行智慧的車輛調度,或應用潮汐車道;使用者則可根據預測結果選擇壅塞機率更低的道路。

百度基於地圖應用的 LBS 預測涵蓋範圍更廣。它在春運期間可預測人們的遷徙趨勢來指導火車線路和航線的設置,在假日可預測景點的人流量來指導人們的景區選擇,平時還有百度熱力學圖來告訴用戶城市商圈、動物園等地點的人流情況,從而指導用戶出行選擇和商家的選點選址。

11)能源消耗預測

力口州電網系統營運中心管理加州超過80% 的電網,向3,500 萬用戶每年輸送2.89 億兆瓦電力,電力線長度超過40 000千米。該中心採用了Space-Time Insight 的軟體進行智慧管理,綜合分析來自天氣、感測器、計量設備等各種數據來源的大量數據,預測各地的能源需求變化,進行智慧電能調度,平衡全網的電力供應和需求,並對潛在危機做出快速反應。中國智慧電網產業已在嘗試類似的大數據預測應用。

除了上面列舉的11 個領域之外,大數據預測還可被應用在房地產預測、就業狀況預測、高考分數線預測、選舉結果預測、奧斯卡大獎預測、保險投保者風險評估、金融借貸者還款能力評估等領域,讓人類具備可量化、有說服力、可驗證的洞察未來的能力,大數據預測的魅力正在釋放出來。

更多相關知識,請造訪常見問題欄位!

以上是大數據的核心就是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP 的大數據結構處理技巧 PHP 的大數據結構處理技巧 May 08, 2024 am 10:24 AM

大數據結構處理技巧:分塊:分解資料集並分塊處理,減少記憶體消耗。生成器:逐一產生資料項,無需載入整個資料集,適用於無限資料集。流:逐行讀取檔案或查詢結果,適用於大檔案或遠端資料。外部儲存:對於超大資料集,將資料儲存在資料庫或NoSQL中。

2024年AEC/O產業五大發展趨勢 2024年AEC/O產業五大發展趨勢 Apr 19, 2024 pm 02:50 PM

AEC/O(Architecture,Engineering&Construction/Operation)指在建築業中提供建築設計、工程設計、施工及營運的綜合服務。 2024年,AEC/O產業在技術進步中面臨不斷變化的挑戰。今年預計將整合先進技術,預示著設計、建造和營運的典範轉移。為了因應這些變化,業界正在重新定義工作流程,調整優先級,增強合作,以適應快速變化世界的需求。 AEC/O產業以下五大趨勢將成為2024年的關鍵主題,推薦其邁向更整合、反應迅速且永續的未來:一體化供應鏈、智慧工

C++開發經驗分享:C++大數據程式設計的實務經驗 C++開發經驗分享:C++大數據程式設計的實務經驗 Nov 22, 2023 am 09:14 AM

在網路時代,大數據成為了一種新的資源,伴隨著大數據分析技術的不斷提升,大數據程式設計需求也愈發迫切。而C++作為一種廣泛應用的程式語言,其在大數據程式設計上的獨特優勢也日益凸顯。以下將分享我在C++大數據程式設計的實作經驗。一、選擇合適的資料結構選擇合適的資料結構是編寫高效大數據程式的重要環節。 C++中有多種資料結構可以供我們使用,如陣列、鍊錶、樹、雜湊表等

演算法在 58 畫像平台建置中的應用 演算法在 58 畫像平台建置中的應用 May 09, 2024 am 09:01 AM

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

Go語言大數據框架缺失原因及解決方案探討 Go語言大數據框架缺失原因及解決方案探討 Mar 29, 2024 pm 12:24 PM

在當今大數據時代,數據處理和分析已成為各行業發展的重要支持。而Go語言作為一種開發效率高、效能優越的程式語言,也逐漸被大數據領域所關注。然而,相較於其他語言如Java、Python等,Go語言在大數據框架上的支援相對不足,這給一些開發者帶來了困擾。本文將探討Go語言大數據框架缺失的主要原因,並提出對應的解決方案,同時結合具體的程式碼範例進行說明。一、Go語

入門指南:使用Go語言處理大數據 入門指南:使用Go語言處理大數據 Feb 25, 2024 pm 09:51 PM

Go語言作為一種開源程式語言,在近年來逐漸受到了廣泛的關注和使用。它以其簡潔、高效的特性,以及強大的並發處理能力而備受程式設計師青睞。在大數據處理領域中,Go語言也具有很強的潛力,可以用來處理大量資料、最佳化效能,並且可以很好地與各種大數據處理工具和框架進行整合。在本文中,我們將介紹一些Go語言大數據處理的基本概念和技巧,並透過具體的程式碼範例來展示如何利用Go語言

AI、數位孿生、視覺化…2023易知微秋季產品發表會亮點集結! AI、數位孿生、視覺化…2023易知微秋季產品發表會亮點集結! Nov 14, 2023 pm 05:29 PM

易知微2023年秋季產品發表會已經圓滿結束了!讓我們一起回顧一下發表會的精彩亮點吧!一、智能普惠開放,讓數位孿生成為生產力袋鼠雲端聯合創辦人、易知微CEO寧海元開場致詞提出:在今年公司的戰略會上,我們把產品研發的主要方向定位成「智能普惠開放「三大核心能力,圍繞著「智慧普惠開放」這三大核心關鍵字,我們進一步提出「讓數位孿生成為生產力」的發展目標。二、EasyTwin:探索更易用的數位孿生新引擎1、從0.1到1.0,持續探索數位孿生融合渲染引擎有更優解以成熟的3D編輯模式、便捷的交互藍圖、海量的模型資產

Golang與大數據:完美搭配還是相反? Golang與大數據:完美搭配還是相反? Mar 05, 2024 pm 01:57 PM

Golang與大數據:完美搭配還是相反?隨著大數據技術的快速發展,越來越多的企業開始透過數據分析來優化業務和決策。對於大數據處理來說,高效率的程式語言是至關重要的。而在眾多程式語言中,Golang(Go語言)因其並發、高效、簡潔等特點,成為了大數據處理的熱門選擇之一。那麼,Golang與大數據究竟是完美搭配還是相悖呢?本文將從Golang在大數據處理上的應用、