如果企業需要採用處理其大數據的高效能運算,在內部部署營運可能效果最佳。以下是企業需要了解的內容,其中包括高效能運算和Hadoop的不同之處。
在大數據領域,並非每家公司都需要高效能運算(HPC),但幾乎所有使用大數據的企業都採用了Hadoop式分析運算。
HPC和Hadoop之間的差異很難區分,因為可以在高效能運算(HPC)裝置上執行Hadoop分析作業,但反之亦然。 HPC和Hadoop分析都使用平行資料處理,但在Hadoop 和分析環境中,資料儲存在硬體上,並分佈在該硬體的多個節點上。在高效能運算(HPC)中,資料檔案的大小要大得多,資料儲存集中。高效能運算(HPC)由於其檔案體積龐大,還需要更昂貴的網路通訊(如InfiniBand),因此需要高吞吐量和低延遲。
企業資訊長的目的很明確:如果企業可以避免使用HPC並且只將Hadoop用於分析,可以執行此操作。這種方式成本更低,更容易員工操作,甚至可以在雲端運行,其他公司(如第三方供應商)可以運行它。
不幸的是,對於需要高效能運算(HPC)進行處理的生命科學、氣象、製藥、採礦、醫療、政府、學術的企業和機構來說,全部採用Hadoop是不可能的。由於文件規模較大,處理需求極為嚴格,採用資料中心或與採用雲端運算都不是很好的方案。
簡而言之,高效能運算(HPC)是一個在資料中心內部運作的大數據平台的完美範例。正因為如此,企業如何確保其投資巨大的硬體完成所需的工作成為了一個挑戰。
大數據Hadoop和HPC平台供應商PSCC Labs首席策略長Alex Lesser表示:「這是必須使用HPC來處理其大數據的許多公司面臨的挑戰。大多數這些公司都有支援傳統IT基礎設施,他們自然地採用了這種思路,自己構建Hadoop分析計算環境,因為這使用了他們已經熟悉的商用硬件,但是對於高性能計算(HPC)來說,其響應通常是讓供應商來處理。 ##企業的高階主管和董事會成員不一定要求是高效能運算領域的專家,但絕不能沒有他們的理解和支持。這些管理人員都應該對高效能運算(HPC)有足夠的了解,以及可以為企業明確支援可能製定的大規模硬體、軟體和培訓投資。這意味著他們必須在兩個方面受到教育:(1)HPC是什麼,為什麼它與普通分析不同,需要採用特殊的硬體和軟體。 (2)為什麼企業需要使用HPC而不是原有的分析來實現其業務目標。這兩項教育工作都應由首席資訊長(CIO)或首席開發官(CDO)負責。
Lesser表示:「採用HPC的最積極的公司是那些相信他們真正的科技公司,他們指的是亞馬遜AWS雲端服務,最初只是亞馬遜公司的零售業務,現在已成為一個龐大的利潤中心。 「我們有一個基於HPC最佳實踐的基本軟體包,可以與客戶一起根據客戶的計算需求定制這個基礎軟體包。」Lesser說,他指出幾乎每個數據中心都必須進行一些定制。
3.了解回報
與任何IT投資一樣,HPC必須符合成本效益,並且企業應該能夠獲得投資回報(ROI),這一點在管理層和董事會的頭腦中已經闡明。 「一個很好的例子是飛機設計。」Lesser說。 「高效能運算(HPC)的投資規模很大,但是當公司發現它可以使用HPC進行設計模擬並獲得5個9的準確性,並且不再需要租用物理風洞時,就會很快收回了HPC投資。定位以實現自給自足。
最初,企業可能需要聘請外部顧問人員才能開始工作。但諮詢任務的目標應始終是雙重目標:(1)讓HPC應用程式繼續運行,(2)將知識傳授給員工,以便他們能夠接管操作。企業不應該滿足於此。
HPC團隊的核心是需要一名資料科學家,他能夠開發高效能運算所需的高度複雜的演算法來回答企業的問題。它還需要一名精通C +或Fortran技能,並能夠在並行處理環境中工作的強大系統的程式設計師,或是網路通訊專家。
「最重要的是,如果企業每兩週要運行一次或兩次工作,就應該到雲端來承載其HPC。」Lesser說,「但是如果企業正在使用HPC資源和運行作業,如製藥公司或生物學公司可能每天多次運行,那麼在雲端運行就會浪費資金,應該考慮運行自己的內部操作。