人工智慧學科起源於1956年,之後在接下來的半個世紀中幾乎沒有取得進展,算力和數據的發展遠遠落後於演算法。然而,隨著2000年進入網路時代,算力的限制被打破,人工智慧逐漸滲透到各行各業,並迎來了大規模模型時代的開啟。然而,高品質的數據似乎成為了人工智慧發展的最後的「瓶頸」
華為OceanStor Pacific在最近舉行的全國高效能運算學術年會(CCF HPC China 2需要重寫的是:023)上榮獲了「AI 存力底座最佳創新獎」
AI存力的概念的出現其實從側面體現了資料對於AI價值的不斷提升
要重寫的內容是:01
資料決定人工智慧的智慧程度
人工智慧的發展是一個不斷收集和分析資料的過程。數據作為資訊的載體,是人工智慧學習和理解世界的基礎。通用智能是人工智慧發展的最終目標,它能夠自主地學習、理解、推理和解決問題,而數據是推動其發展的最大動力
那麼,數據越多,AI就越聰明嗎?只要有大量的數據,AI就能夠超越專家的角色嗎?
以醫學領域的人工智慧系統為例,許多診斷案例其實沒有唯一正確的答案。在醫學診斷中,每組症狀都有一系列不同機率的可能原因,因此人工智慧的輔助決策可以幫助臨床醫生縮小可能的病因範圍,直到找到解決方案。在這種情況下,醫學人工智慧依賴的不是大量數據,而是準確且高品質的數據,只有這樣才能確保在「篩檢」時不會錯過真正可能的病因
資料品質對於AI智能的重要性在這個典型示範中得到了體現
在人工智慧產業中,一直存在著共識,即「垃圾進,垃圾出」。這意味著,如果沒有高品質的資料輸入,無論演算法有多先進,運算能力有多強大,都無法產生高品質的結果
在當今時代,我們正處於大模型的風口之上。人工智慧的大模型如雨後春筍般不斷湧現。華為的盤古、訊飛的星火、紫東的太初等中國的一批大模型正在快速發展,致力於建構跨產業通用的人工智慧能力平台,為各行各業的數位轉型提供動力
根據中國科技部新一代人工智慧發展研究中心於五月底發布的《中國人工智慧大模型地圖研究報告》,已有79個擁有十億參數規模以上的大模型在中國發布。雖然「百模大戰」的格局已經形成,但這也引發了對大模型發展的深入思考
基於小規模資料建立的模型,其表達能力受限於資料規模,只能進行粗粒度的模擬與預測,在精度要求比較高的情況就不再適用。如果想要進一步提升模型精確度就需要利用海量資料產生相關模型
重寫後的內容是:這意味著資料的數量決定了AI智能的程度。無論數據的品質如何,數據的數量都是建立「AI存力」所需重點關注的領域
要重寫的是:02
在大數據時代,數據所面臨的挑戰
隨著人工智慧朝向大型模型和多模態發展,企業在開發或實施大型模型應用時面臨許多挑戰
首先,資料預處理的周期很長。由於資料分佈在不同的資料中心、不同的應用和不同的系統中,因此存在歸集速度慢等問題,導致預處理百TB資料需要大約10天的時間,系統的利用率從一開始就需要提高效率
其次,訓練集載入效率低的問題需要解決。現在大型模型的規模越來越龐大,參數等級達到千億甚至萬億,訓練過程需要大量的運算資源和儲存空間。例如,多模態大型模型以海量文字和圖片作為訓練集,但是目前海量小檔案的載入速度較慢,導致訓練集載入效率不高
此外,還面臨大型模型參數頻繁調優、訓練平台不穩定的挑戰,平均每兩天就會出現一次訓練中斷。為了恢復訓練,需要使用檢查點機制,而故障復原的時間則超過一天,為業務連續性帶來了許多挑戰
為了在AI大模型時代取得成功,我們需要同時專注於資料的品質和數量,並建立大容量、高效能的儲存基礎架構。這已經成為了取得勝利的關鍵要素
需要重新寫作的內容是:03
AI時代的關鍵在於存力底座
隨著大數據、人工智慧等技術與高效能運算的結合,高效能資料分析(HPDA)成為實現資料價值的新形式。透過利用更多歷史資料、多元異構算力和分析方法,HPDA得以提高分析精確度。這標誌著科學研究邁向智慧化的新階段,人工智慧技術將加速前沿成果的應用
如今,科學研究領域正在出現一種基於"資料密集型科學"的新範式。這種範式更加重視將大數據知識挖掘和人工智慧訓練推理技術結合,透過計算和分析來獲取新的知識和發現。這也意味著對於底層資料基礎設施的需求將會發生根本性的改變。無論是高效能運算還是人工智慧的未來發展,都需要建立先進的儲存基礎設施來應對資料的挑戰
解決資料挑戰需要從資料儲存創新入手,這正如諺語所說的解鈴還須繫鈴人
AI存力底座是基於OceanStor Pacific分散式儲存開發的,並秉承AI Native設計理念,以滿足AI各個環節的儲存需求。 AI系統對儲存提出了全面的挑戰,包括資料運算加速、資料儲存管理以及資料儲存和運算之間的高效流通等等。透過採用「大容量儲存 高效能儲存」的組合,可以確保儲存資源的調度和協調一致,使每個環節都能高效運轉,從而充分釋放AI系統的價值
OceanStor Pacific分散式儲存如何展現其核心能力呢?
首先,技術架構在業界是獨創的。這套儲存系統支援無限橫向擴展,並且能夠處理混合負載,既能高效處理小檔案的IOPS,也能高速讀寫大檔案的頻寬。它具備智慧的效能層和容量層資料分級流轉功能,能夠實現對海量資料的歸集、預處理、訓練和推理等全流程的AI資料管理。此外,它還具備與HPC和大數據相同的資料分析能力
重寫後的內容為:其次,業界效率最佳的提升方法是透過儲存的創新。首先是資料編織,即透過GFS全局文件系統將分散在不同地區的原始資料接入,實現跨系統、跨地區、跨多雲的全局統一資料視圖和調度,簡化資料收集過程。其次是近存運算,透過儲存內嵌的算力實現對近資料的預處理,減少無效資料傳輸,同時降低預處理伺服器的等待時間,從而顯著提高預處理效率
實際上,"百模大戰"並不是AI大模型發展的"標誌"。未來,各行各業都將透過AI大模型的能力來推動數位轉型的深入發展,同時資料基礎設施的建置也將加速推進。 OceanStor Pacific分散式儲存在技術架構的創新和高效率的表現,已經證明自己是業界的首選
我們明白,數據已成為與土地、勞動、資本、技術並列的新型生產要素。過去數位化市場中的許多傳統定義和運作模式都將被重新書寫。只有先存力,才能確保數據驅動的人工智慧大模型時代穩步向前
以上是AI大模型時代的發展需要先進的儲存技術來實現穩定的進展的詳細內容。更多資訊請關注PHP中文網其他相關文章!