大數據入門的四個必備常識
大數據工程師一個很重要的工作,就是透過分析資料來找出過去事件的特徵。例如,騰訊的資料團隊正在搭建一個資料倉儲,把公司所有網路平台上數量龐大、不規則的資料資訊進行梳理,總結出可供查詢的特徵,來支援公司各類業務對資料的需求,包括廣告投放、遊戲開發、社群網路等。
一、大數據分析的五個基本面向
1、視覺化分析
大數據分析的使用者有大數據分析專家,同時還有一般用戶,但是他們二者對於大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
2、資料探勘演算法
大數據分析的理論核心就是資料探勘演算法,各種資料探勘的演算法則是基於不同的資料類型和格式才能更科學的呈現出資料本身俱備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入資料內部,挖掘出公認的價值。另外一個面向也是因為有這些資料探勘的演算法才能更快速的處理大數據,如果一個演算法得花好幾年才能得出結論,那大數據的價值就無從說起了。
3、預測性分析能力
大數據分析最終要的應用領域之一就是預測性分析,從大數據中挖掘出特點,透過科學的建立模型,之後便可以透過模型帶入新的數據,從而預測未來的數據。
4、語意引擎
大數據分析廣泛應用於網路資料探勘,可從使用者的搜尋關鍵字、標籤關鍵字、或其他輸入語意,分析,判斷使用者需求,從而實現更好的使用者體驗和廣告配對。
5、數據品質和數據管理
大數據分析離不開數據品質和數據管理,高品質的數據和有效的數據管理,無論是在學術研究還是商業應用領域,都能夠保證分析結果的真實和有價值。大數據分析的基礎就是以上五個面向,當然更深入大數據分析的話,還有很多很多更有特色的、更深入的、更專業的大數據分析方法。
二、如何選擇適合的數據分析工具
要明白分析什麼數據,大數據要分析的數據類型主要有四大類:
交易數據(TRANSACTION DATA)
大數據平台能夠獲取時間跨度更大、更海量的結構化交易數據,這樣就可以對更廣泛的交易數據類型進行分析,不僅僅包括POS或電子商務購物數據,還包括行為交易數據,例如Web伺服器記錄的網路點擊流數據日誌。
人為數據(HUMAN-GENERATED DATA)
非結構數據廣泛存在於電子郵件、文件、圖片、音頻、視頻,以及透過部落格、維基,尤其是社交媒體產生的數據流。這些數據為使用文字分析功能進行分析提供了豐富的資料來源。
行動資料(MOBILE DATA)
能夠上網的智慧型手機和平板越來越普遍。這些行動裝置上的App都能夠追蹤和溝通無數事件,從App內的交易資料(如搜尋產品的記錄事件)到個人資訊資料或狀態報告事件(如地點變更即報告一個新的地理編碼)。
機器和感測器數據(MACHINE AND SENSOR DATA)
這包括功能設備創建或產生的數據,例如智慧電錶、智慧溫度控制器、工廠機器和連接互聯網的家用電器。這些設備可以配置為與互聯網絡中的其他節點通信,還可以自動向中央伺服器傳輸數據,這樣就可以對數據進行分析。機器和感測器資料是來自新興的物聯網(IoT)所產生的主要例子。來自物聯網的資料可以用來建構分析模型,連續監測預測性行為(如當感測器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)。
相關推薦:《常見問題》
三、如何區分三個大數據熱門職業-資料科學家、資料工程師、資料分析師
隨著大數據的愈演愈熱,相關大數據的職業也成為熱門,為人才發展帶來了許多機會。資料科學家、資料工程師、資料分析師已成為大數據產業最熱門的職位。它們是如何定義的?具體是做什麼工作的?需要哪些技能?讓我們一起來看看吧。
這3個職業是如何定位的?
資料科學家是個什麼樣的存在
資料科學家是指能採用科學方法、運用資料探勘工具對複雜多量的數位、符號、文字、網址、音訊或視訊等資訊進行數位化重現與認識,並能尋找新的資料洞察的工程師或專家(不同於統計學家或分析師)。
資料工程師是如何定義的
資料工程師一般被定義成「深刻理解統計學科的明星軟體工程師」。如果你正為一個商業問題煩惱,那麼你需要一個資料工程師。他們的核心價值在於他們藉由清晰資料創建資料管道的能力。充分了解檔案系統,分散式運算與資料庫是成為優秀資料工程師的必要技能。
資料工程師對演算法有相當好的理解。因此,資料工程師理應能運行基本資料模型。商業需求的高端化催生了演算高度複雜化的需求。很多時候,這些需求超過了資料工程師掌握知識範圍,而這個時候你就需要打電話尋求資料科學家的協助。
資料分析師該如何理解
資料分析師指的是不同產業中,專門從事產業資料蒐集、整理、分析,並依據資料做出產業研究、評估和預測的專業人員。他們知道如何提出正確的問題,非常善於數據分析,數據視覺化和數據呈現。
這3個職業具體有什麼職責
資料科學家的工作職責
資料科學家傾向於用探索資料的方式來看待周圍的世界。把大量散亂的數據變成結構化的可供分析的數據,還要找出豐富的數據源,整合其他可能不完整的數據源,並清理成結果數據集。在新的競爭環境中,挑戰不斷變化,新數據不斷流入,數據科學家需要幫助決策者穿梭於各種分析,從臨時數據分析到持續的數據交互分析。當他們有所發現,便交流他們的發現,建議新的業務方向。他們很有創造力的展現視覺化的訊息,也讓找到的模式清晰而有說服力。把蘊含在資料中的規律建議給Boss,進而影響產品,流程與決策。
資料工程師的工作職責
分析歷史、預測未來、最佳化選擇,這是大資料工程師在「玩資料」時最重要的三大任務。透過這三個工作方向,他們幫助企業做出更好的商業決策。
大資料工程師一個很重要的工作,就是透過分析資料來找出過去事件的特徵。例如,騰訊的資料團隊正在搭建一個資料倉儲,把公司所有網路平台上數量龐大、不規則的資料資訊進行梳理,總結出可供查詢的特徵,來支援公司各類業務對資料的需求,包括廣告投放、遊戲開發、社群網路等。
找出過去事件的特徵,最大的功能是可以幫助企業更認識消費者。透過分析使用者過去的行為軌跡,就能夠了解這個人,並預測他的行為。
透過引入關鍵因素,大數據工程師可以預測未來的消費趨勢。在阿里媽媽的行銷平台上,工程師正試圖透過引入氣象資料來幫助淘寶賣家做生意。例如今年夏天不熱,很可能某些產品就沒有去年暢銷,除了冷氣、電扇,背心、泳裝等都可能會受其影響。那我們就會建立氣象資料和銷售資料之間的關係,找到與之相關的品類,提前警示賣家週轉庫存。
根據不同企業的業務性質,大數據工程師可以透過數據分析來達到不同的目的。以騰訊來說,能反映大數據工程師工作的最簡單直接的例子就是選項測試(AB Test),也就是幫助產品經理在A、B兩個備選方案中做出選擇。在過去,決策者只能依據經驗進行判斷,但如今大數據工程師可以透過大規模地即時測試—比如,在社群網路產品的例子中,讓一半使用者看到A介面,另一半使用B介面,觀察統計一段時間內的點擊率和轉換率,以幫助行銷部做出最終選擇。
資料分析師的工作職責
網路本身俱有數位化和互動性的特徵,這種屬性特徵為資料蒐集、整理、研究帶來了革命性的突破。以往「原子世界」中數據分析師要花較高的成本(資金、資源和時間)獲取支撐研究、分析的數據,數據的豐富性、全面性、連續性和及時性都比互聯網時代差很多。
與傳統的資料分析師相比,網路時代的資料分析師面臨的不是資料匱乏,而是資料過剩。因此,網路時代的資料分析師必須學會借助技術手段進行高效率的資料處理。更重要的是,網路時代的資料分析師必須不斷在資料研究的方法論上進行創新與突破。
就產業而言,資料分析師的價值與此類似。就新聞出版業而言,無論在任何時代,媒體業者能否準確、詳細和及時地了解受眾狀況和變化趨勢,都是媒體成敗的關鍵。
此外,對於新聞出版等內容產業來說,更為關鍵的是,數據分析師可以發揮內容消費者數據分析的職能,這是支撐新聞出版機構改善客戶服務的關鍵職能。
想要從事這3個職業需要掌握什麼技能?
A. 資料科學家需要掌握的技能
1,電腦科學
一般來說,資料科學家大多要求具備程式設計、電腦科學相關的專業背景。簡單來說,就是對處理大數據所必需的hadoop、Mahout等大規模平行處理技術與機器學習相關的技能。
2,數學、統計、資料探勘等
除了數學、統計方面的素養之外,還需要具備使用SPSS、SAS等主流統計分析軟體的技能。其中,面向統計分析的開源程式語言及其運行環境「R」最近備受矚目。 R的強項不僅在於其包含了豐富的統計分析庫,而且具備將結果進行可視化的高品質圖表生成功能,並且可以通過簡單的命令來運行。此外,它還具備稱為CRAN(The Comprehensive R Archive Network)的套件擴充機制,透過匯入擴充包就可以使用標準狀態下所不支援的函數和資料集。
3,資料視覺化(Visualization)
訊息的品質很大程度上依賴其表達方式。將數位羅列所組成的資料所包含的意義進行分析,開發Web原型,使用外部API將圖表、地圖、Dashboard等其他服務統一起來,從而使分析結果視覺化,這是對於資料科學家來說十分重要的技能之一。
B. 資料工程師需要掌握的技能
1,數學及統計相關的背景
對於大數據工程師的要求都是希望是統計學和數學背景的碩士或博士學歷。缺乏理論背景的資料工作者,更容易進入一個技能上的危險區域(Danger Zone)—一堆數字,按照不同的資料模型和演算法總是能捯飭出一些結果來,但如果你不知道那代表什麼,就並不是真正有意義的結果,那樣的結果還容易誤導你。具備一定的理論知識,才能理解模型、復用模式甚至創新模型,來解決實際問題。
2,電腦編碼能力
實際開發能力和大規模的資料處理能力是作為大數據工程師的一些必備要素。因為許多數據的價值來自於挖掘的過程,你必須親自動手才能發現金子的價值。舉例來說,現在人們在社群網路上所產生的許多記錄都是非結構化的數據,如何從這些毫無頭緒的文字、語音、圖像甚至影片中攫取有意義的資訊就需要大數據工程師親自挖掘。即使在某些團隊中,大數據工程師的職責以商業分析為主,但也要熟悉電腦處理大數據的方式。
3,對特定應用領域或產業的知識
大數據工程師這個角色很重要的一點是,不能脫離市場,因為大數據只有和特定領域的應用結合才能產生價值。所以,在某個或多個垂直產業的經驗能為應徵者累積對產業的認知,對於之後成為大數據工程師有很大幫助,因此這也是應徵這個職位時較有說服力的加分項。
C. 資料分析師需要掌握的技能
1、懂業務。從事數據分析工作的前提就會需要懂業務,即熟悉行業知識、公司業務及流程,最好有自己獨到的見解,若脫離行業認知和公司業務背景,分析的結果只會是脫了線的風箏,沒有太大的使用價值。
2、懂管理。一方面是建構資料分析框架的要求,例如確定分析思路就需要用到行銷、管理等理論知識來指導,如果不熟悉管理理論,就很難建構資料分析的框架,後續的資料分析也很難進行。另一方面的作用是針對數據分析結論提出有指導意義的分析建議。
3、懂分析。指掌握資料分析基本原理與一些有效的資料分析方法,並能靈活運用到實務工作中,以便有效的進行資料分析。基本的分析方法有:比較分析法、分組分析法、交叉分析法、結構分析法、漏斗圖分析法、綜合評估分析法、因素分析法、矩陣關聯分析法等。高階的分析方法有:相關分析法、迴歸分析法、聚類分析法、判別分析法、主成分分析法、因素分析法、對應分析法、時間序列等。
4、懂工具。指掌握與資料分析相關的常用工具。數據分析方法是理論,而數據分析工具就是實現數據分析方法理論的工具,面對越來越龐大的數據,我們無法依靠計算器進行分析,必須依靠強大的數據分析工具幫我們完成數據分析工作。
5、懂設計。懂設計是指運用圖表有效表達資料分析師的分析觀點,使分析結果一目了然。圖表的設計是門大學問,如圖形的選擇、版面的設計、顏色的搭配等等,都需要掌握一定的設計原則。
四、從菜鳥成為資料科學家的9步驟養成方案
#首先,各家公司對資料科學家的定義各不相同,目前還沒有統一的定義。但在一般情況下,一個資料科學家結合了軟體工程師與統計學家的技能,並且在他或她希望工作的領域投入了大量行業知識。
大約90%的資料科學家至少有大學教育經歷,甚至到博士以及獲得博士學位,當然,他們獲得的學位的領域非常廣泛。有些招募者甚至發現人文專業的人有所需的創造力,他們能教導別人一些關鍵技能。
因此,排除一個數據科學的學位計劃(世界各地的著名大學雨後春筍般的出現著),你需要採取什麼措施,成為一個數據科學家?
複習你的數學和統計技能
一個好的資料科學家必須能夠理解資料告訴你的內容,做到這一點,你必須有紮實的基本線性代數,對演算法和統計技能的理解。在某些特定場合可能需要高等數學,但這是一個很好的開始場合。
了解機器學習的概念
機器學習是下一個新興詞,卻和大數據有著千絲萬縷的聯繫。機器學習使用人工智慧演算法將數據轉化為價值,並且無需明確編程。
學習程式碼
資料科學家必須知道如何調整程式碼,以便告訴電腦如何分析資料。從一個開放原始碼的語言如Python那裡開始吧。
了解資料庫、資料池及分散式儲存
資料儲存在資料庫、資料池或整個分散式網路中。以及如何建立這些資料的儲存庫取決於你如何存取、使用、並分析這些資料。如果當你建造你的資料儲存時沒有整體架構或超前規劃,那麼後續對你的影響將十分深遠。
學習資料修改和資料清洗技術
資料修改是將原始資料到另一種更容易存取和分析的格式。資料清理有助於消除重複和「壞」資料。兩者都是資料科學家工具箱中的必備工具。
了解良好的數據視覺化和報告的基本知識
你不必成為平面設計師,但你確實需要深諳如何創建數據報告,便於外行的人例如你的經理或CEO可以理解。
添加更多的工具到您的工具箱
一旦你掌握了以上技巧,是時候擴大你的資料科學工具箱了,包括Hadoop、R語言和Spark。這些工具的使用經驗和知識將讓你處於大量資料科學求職者之上。
練習
在你在新的領域有工作之前,你如何練習成為資料科學家?使用開源程式碼開發一個你喜歡的專案、參加比賽、成為網路工作資料科學家、參加訓練營、志工或實習生。最好的數據科學家在數據領域將擁有經驗和直覺,能夠展示自己的作品,以成為應徵者。
成為社區的一員
跟著同行業中的思想領袖,閱讀行業博客和網站,參與,提出問題,並隨時了解時事新聞和理論。
以上是大數據入門的四個必備常識是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!