大數據指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高成長率和多樣化的資訊資產。大數據的特徵:1、資料體量龐大;2、資料形式多樣,廣泛的資料來源,決定了大數據形式的多樣性;3、高速性,即資料成長快速,處理快速;4、價值密度低;5、商業價值高。
本教學操作環境:windows7系統、Dell G3電腦。
什麼是大數據
大數據(big data),IT行業術語,是指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高成長率和多樣化的資訊資產。
在維克多·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特性(IBM提出):Volume(容量)、Velocity(高速)、Variety(多元)、Value(低價值密度)、Veracity(真實性)。
特徵
容量(Volume):資料的大小決定所考慮的資料的價值和潛在的資訊;
類型(Variety):資料類型的多樣性;
#(Velocity):指獲得資料的速度;
可變性(Variability):妨礙了處理和有效管理資料的過程。
真實性(Veracity):資料的品質。
複雜度(Complexity):資料量龐大,來源多通道。
價值(value):合理運用大數據,以低成本創造高價值。
大數據有什麼特點
#1.資料量龐大
隨著互聯網產業的發展,許多日常營運中產生、累積的使用者網路行為的數據。例如社交電商平台每天的產生訂單,各個短視頻、論壇、社區發布的帖子、評論及小視頻,每天發送的電子郵件,以及上傳的圖片、視頻與音樂等等,這些無數個體產生的數據規模很龐大,資料量體早已達到PB等級以上了。如此大規模的數據想要被處理,被分析,被統計,就需要有足夠大的容量,所以大數據的一大特點就是體量龐大。
2.資料形式多元
廣泛的資料來源,決定了大資料形式的多樣性。任何形式的數據都可以產生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易雲音樂、今日頭條等,這些平台都會透過對用戶的日誌數據進行分析,從而進一步推薦用戶喜歡的東西。日誌資料是結構化明顯的數據,還有一些資料結構化不明顯,例如圖片、音訊、視訊等,這些資料因果關係較弱,就需要人工對其進行標註。
3.高速性
大數據的高速性是指資料成長快速,處理快速。每一天,各行各業的數據都在呈現指數性爆炸性成長。在許多場景下,資料都具有時效性,例如搜尋引擎要在幾秒鐘內呈現出使用者所需資料。企業或系統在面對快速成長的大量資料時,必須要高速處理,快速回應。
4.價值密度低
大數據的低價值密度性是指在海量的資料來源中,真正有價值的資料少之又少,許多資料可能是錯誤的,是不完整的,是無法利用的。整體而言,有價值的數據佔據數據總量的密度極低,提煉數據好比浪里淘沙。
5.商業價值高
相比於傳統的小數據,大數據最大的價值在於透過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,並透過機器學習方法、人工智慧方法或資料探勘方法深度分析,發現新規律和新知識,並運用於農業、金融、醫療等各個領域,最終達到改善社會治理、提高生產效率、推動科學研究的效果,實現其商業價值。
推薦:《程式設計影片》
以上是什麼是大數據,大數據有什麼特點的詳細內容。更多資訊請關注PHP中文網其他相關文章!