目錄
數據與算力的關係演變與衍生挑戰
分散式儲存統一融合資料基座的突圍路徑
大模型時代HPDA AI的未來圖像
首頁 科技週邊 人工智慧 AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

Jul 21, 2023 pm 09:53 PM
ai大模型 資料儲存 教育學研究所數學

生成式AI(AIGC)開啟了人工智慧通用化的新紀元,圍繞大模型的百舸爭流蔚為壯觀,算力基礎設施是首要的競逐焦點,而存力覺醒也日益成為業界共識。

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

在新的時代,大模型從單模態走向多模態,參數和訓練資料集的規模呈幾何級數增長,海量的非結構化資料需要高性能混合負載能力的支撐;同時,資料密集型範式大行其道,超算、高效能運算(HPC)等應用場景邁向縱深,既有的資料儲存基座已難以滿足不斷升級的需求。

如果說算力、演算法、數據是驅動人工智慧發展的“三駕馬車”,那麼在外部環境發生巨大變化的背景下,三者亟需重新達成動態的平衡。演算法模型完善帶來的「軟實力」提升,算力供給優化引發的「硬實力」增強,需要進一步的加持-資料傳輸的「運力」和資料儲存的「存力」即是尚待改進的動力來源,新型的資料儲存基座將在應對諸多挑戰的過程中破繭成蝶。

需求複雜且持續進化的應用場景,是資料儲存新基座最好的試金石。從這個意義上講,教科研產業就是其中的典型代表:算力與資料是該領域數位轉型的關鍵要素,學科融合的科學研究運算與基於資料的決策支援同等重要。從HPC邁向HPDA(高效能資料分析)是改善教學及科研效率的一大步,而AI的賦能則有助於解決過往算不了、算不準、算不動的難題。

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

在近日舉辦的2023世界人工智慧大會上,華為OceanStor Pacific分散式儲存輔助上海交通大學建構的HPC AI存力底座正式上線,「交我算」統一資料基座將在今年再擴充25PB,其可望成為教科研數位化、智慧轉型的新標桿,也為資料儲存新基座的探索之旅樹立了里程碑。

數據與算力的關係演變與衍生挑戰

伴隨千行百業的數位轉型進入深水區,以及人工智慧、大數據等新興技術的協同爆發,數據與算力的關係正在發生微妙的變化。

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

教科研領域身處數位經濟的風口浪尖,對此變化頗為敏感。過去,數據必須跟著算力跑。為了應對複雜科學和工程問題的快速數值求解,教科研界在很長一段時間裡更專注於如何打造最強大的算力,而數據僅作為算力的配套設施來考慮。

如今,「算力圍著資料轉」逐漸成為新的趨勢。新興應用的湧現、資料量體的膨脹、資料安全問題的凸顯,讓資料本身的價值備受重視。基於AI、大數據等技術的突破,傳統超算正向資料密集型超算演變,多元異質算力需要圍繞同一個資料儲存基座進行建構。

上海交通大學網路資訊中心副主任林新華認為,數據與算力的主導權發生逆轉,既是建設數據密集型超算平台的契機,也為統一數據存儲基座的構建帶來不少新的挑戰。

首先是資料爆發式成長,對儲存容量的需求顯著提高。根據統計,「交我算」平台的資料規模成長幅度達到每年7PB,氣像海洋、能源探勘、衛星遙感、基因定序、冷凍電鏡、AI自動駕駛、製造CAE、動畫渲染等應用情境的資料量都達到PB級,用一套資料基礎設施容納如此龐大的資料量殊為不易。

其次是新業務不斷湧現,對儲存效能要求更高。 AI通用化進程的提速,特別是大模型、多模態的批量輸出,對IO性能構成嚴峻挑戰。在百TB級資料集成為常態的情況下,自然語言處理、多模態應用加劇了資料量的增速,小檔案訓練資料集的高效存取更要求儲存效能再上新台階。

再次,跨校區多叢集儲存共用,資料在異質叢集間的流動可能造成資料遺失、運作緩慢等問題。 「交我算」平台提供多種異質算力,擁有ARM叢集、X86叢集以及AI叢集等。在眾多集群中,只有做到全數據流動和數據融合,才能釋放算力和數據的最大價值。

最後,傳統AI本地盤訓練,伴隨高並發資料分析,打破IO牆迫在眉睫。資料多次搬遷過程中的IO瓶頸非常突出-傳統的讀寫流程冗長,載入資料涉及三次資料搬遷,checkpoint也有兩次資料搬遷,其間產生的效率損失不容忽視。

分散式儲存統一融合資料基座的突圍路徑

為了因應上述挑戰,自2019年起,上海交通大學與華為儲存展開深度合作,共同打造「交我算」資料密集型超算平台。依託在技術與應用創新上的深厚積累,華為OceanStor Pacific分散式儲存產品協助「交我算」建構統一資料基座,支撐起全校多種異質算力平台。

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷

建構分散式統一融合資料基座,是「交我算」擁抱新興資料應用的必經之路。基於橫向擴展分散式儲存架構,「交我算」平台的儲存容量和頻寬可按需擴充。一是性能容量線性成長,單集群可達EB級容量;二是藉助高密大容量硬件,節省機櫃空間;三是採用大比例EC,以場景化壓縮提升磁碟利用率。

據了解,「交我算」平台從初始的2PB容量、6GB/s頻寬,到2020年增至20PB容量、60GB/s頻寬,2022年又擴容至40PB容量、120GB/s頻寬,預計2023年容量將再擴充25PB。同時,華為OceanStor Pacific分散式儲存擁有5U 120碟位的超高密設計,結合超大比例EC資料冗餘保護演算法,在滿足高可靠性的基礎上將硬碟空間利用率提升至91.6%。

分散式全閃硬體加持是「交我算」應對儲存效能難題的基石。在華為OceanStor Pacific的助力下,「交我算」平台採用全閃硬體加速,大幅提升頻寬與IOPS效能,每節點80萬IOPS、頻寬20GB/S能夠滿足混合負載條件下的高效能需求。

全域分散式儲存跨校區統一管理是「交我算」解決多叢集儲存共用難題的良方。透過採用全域檔案系統跨域多套儲存管理的方式,「交我算」平台建構起跨校區的統一資料基座,在華為OceanStor Pacific分散式儲存產品的支撐下,達成全域檔案視圖、資料管理與調度、全域資料流動、統一串流元資料等多重目標。

資料分析加速、多種協定存取無損互通、免搬遷高效用是「交我算」打破IO牆的利器。基於華為面向AI的儲存方案,以及華為OceanStor Pacific分散式儲存「一份數據,多種協議存取」的能力,「交我算」平台實現外部儲存減少數據搬遷,並大幅提升分析效率、節省存儲空間。

大模型時代HPDA AI的未來圖像

透過「交我算」平台攜手華為儲存打造分散式統一融合資料新基座的演進軌跡,不難看出資料密集場景正在加速進化。

從早期的HPC到後來的HPDA,再到HPDA AI的比翼齊飛,教科研產業的應用場景不斷豐富,對儲存產品和資料基座的需求也持續躍遷。事實上,教科研只是千行百業數位化進程的冰山一角,資料儲存的大時代已呼嘯而來。

大模型時代的到來,將進一步重塑包括存力在內的IT基礎設施,帶有嶄新AI基因的儲存產品有望成為產業數位化升級的新寵。 7月14日,主題為「資料新典範 釋放AI新動能」的大模型時代華為AI儲存新品發表會將在線上舉行。無論您正在企業內部署AI,或是讓開發的應用具備AI能力,此次發表的方案都將提供更優的技術架構與產品,幫助您踏準時代的節拍。

人工智慧通用化的大幕已經開啟,儲存產業的領頭羊率先吹響了衝鋒的號角,後面的每一個樂章都值得期待。

以上是AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

以AI為導向的資料治理體系如何建構? 以AI為導向的資料治理體系如何建構? Apr 12, 2024 pm 02:31 PM

近年來,隨著新技術模式的出現,各產業應用場景價值打磨與大量資料累積下的產品效果提升,人工智慧應用已從消費、網路等領域,向製造業、能源、電力等傳統產業輻射。各產業企業在設計、採購、生產、管理、銷售等經濟生產活動主要環節的人工智慧技術和應用成熟度不斷提升,加速人工智慧在各環節的落地覆蓋,逐漸將其與主要業務相結合,以實現產業地位提高或經營效益優化,進一步擴大自身優勢。人工智慧技術創新應用的大規模落地,推動了大數據智慧市場的蓬勃發展,同樣也為底層的資料治理服務注入了市場活力。伴隨著大數據、雲端運算以及算

為什麼localstorage無法成功保存資料? 為什麼localstorage無法成功保存資料? Jan 03, 2024 pm 01:41 PM

儲存資料到localstorage為何總是失敗?需要具體程式碼範例在前端開發中,我們經常需要將資料儲存在瀏覽器端,以便提高使用者體驗和方便之後的資料存取。 Localstorage是HTML5提供的一項用於客戶端儲存資料的技術,它提供了一種簡單的方法來儲存數據,並且可以在頁面刷新或關閉後保持資料的持久化。然而,當我們使用localstorage進行資料儲存時,有時

如何在MongoDB中實現資料的影像儲存和處理功能 如何在MongoDB中實現資料的影像儲存和處理功能 Sep 22, 2023 am 10:30 AM

如何在MongoDB中實現資料的影像儲存和處理功能概述:在現代資料應用程式的開發中,影像處理和儲存是一個常見的需求。 MongoDB作為一種流行的NoSQL資料庫,提供了一些功能和工具使開發人員能夠在其平台上實現映像儲存和處理。本文將介紹如何在MongoDB中實作資料的影像儲存和處理功能,並提供具體的程式碼範例。影像儲存:在MongoDB中,可以使用GridFS

MySQL中如何實作資料的多態儲存與多維查詢? MySQL中如何實作資料的多態儲存與多維查詢? Jul 31, 2023 pm 09:12 PM

MySQL中如何實作資料的多態儲存與多維查詢?在實際應用開發中,資料的多態儲存和多維查詢是一個非常常見的需求。 MySQL作為常用的關聯式資料庫管理系統,提供了多種實作多態儲存和多維查詢的方式。本文將介紹使用MySQL實作資料的多態儲存和多維查詢的方法,並提供對應的程式碼範例,幫助讀者快速了解和使用。一、多態儲存多態儲存是指將不同類型的資料儲存在同一個欄位中的技

Redis與Golang的互動:如何實現快速的資料儲存和檢索 Redis與Golang的互動:如何實現快速的資料儲存和檢索 Jul 30, 2023 pm 05:18 PM

Redis與Golang的互動:如何實現快速的資料儲存和檢索引言:隨著網路的快速發展,資料的儲存和檢索成為了各個應用領域中重要的需求。在這樣的背景下,Redis成為了重要的資料儲存中間件,而Golang則因其高效效能和簡單易用的特點,成為了越來越多開發者的選擇。本文將向讀者介紹如何透過Redis與Golang進行交互,實現快速的資料儲存和檢索。一、Re

Yii框架中間件:為應用程式提供多重資料儲存支持 Yii框架中間件:為應用程式提供多重資料儲存支持 Jul 28, 2023 pm 12:43 PM

Yii框架中間件:為應用程式提供多重資料儲存支援介紹中間件(middleware)是Yii框架中的重要概念,它為應用程式提供了多重資料儲存支援。中間件的作用類似於一個過濾器,它能夠在應用程式的請求和回應之間插入自訂程式碼。透過中間件,我們可以對請求進行處理、驗證、過濾,然後將處理後的結果傳遞給下一個中間件或最終的處理程序。 Yii框架中的中間件使用起來非常

如何利用C++進行高效率的資料壓縮與資料儲存? 如何利用C++進行高效率的資料壓縮與資料儲存? Aug 25, 2023 am 10:24 AM

如何利用C++進行高效率的資料壓縮與資料儲存?導言:隨著資料量的增加,資料壓縮和資料儲存變得越來越重要。在C++中,有許多方法可以實現高效率的資料壓縮和儲存。本文將介紹一些常見的資料壓縮演算法和C++中的資料儲存技術,並提供對應的程式碼範例。一、資料壓縮演算法1.1基於哈夫曼編碼的壓縮演算法哈夫曼編碼是一種基於變長編碼的資料壓縮演算法。它通過對頻率較高的字符

AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷 AI大模型時代,資料儲存新基座助推教科學研究數智化躍遷 Jul 21, 2023 pm 09:53 PM

生成式AI(AIGC)開啟了人工智慧通用化的新紀元,圍繞大模型的百舸爭流蔚為壯觀,算力基礎設施是首要的競逐焦點,而存力覺醒也日益成為業界共識。在新的時代,大模型從單模態走向多模態,參數和訓練資料集的規模呈幾何級數增長,海量的非結構化資料需要高性能混合負載能力的支撐;同時,資料密集型範式大行其道,超算、高效能運算(HPC)等應用場景邁向縱深,既有的資料儲存基座難以滿足不斷升級的需求。如果說算力、演算法、數據是驅動人工智慧發展的“三駕馬車”,那麼在外部環境發生巨大變化的背景下,三者亟需重新達成動

See all articles