AI大模型駛向產業之海,需要高數據「河道」引航
在某次產業高峰會上,一位來自清華大學的院士科學家透露,我們的AI大模型是在萬卡集群上進行訓練的,每三小時就會出現一次錯誤。雖然聽起來有點可笑,但這已經達到了世界先進水平
風靡全球的AI大模型,是今年毋庸置疑的風口,數量不斷增長,達到了驚人的水平。 「百舸爭流」之下,大家卻常常會忽略一個關鍵問題:AI大模型帶來的資料激流,也比想像中更加洶湧。
“三小時出錯一次”,聽起來不可思議的故障率,卻是大模型從業者要面對的常態,甚至是“優等生”。目前業界的普遍做法,是寫容錯檢查點checkpoint。既然三小時就報錯,那就2.5小時停一次,寫好檢查點,把資料存起來,再開始訓練。一旦故障,可以從寫好的檢查點恢復,避免「從頭開始」、全部白乾。而檢查點需要儲存的資料多,會耗費大量的時間。該院士團隊基於llama 2架構研發的大模型,資料存一次硬件,就需要十個小時,儲存效率直接影響了開發進度。
如果說大規模的異質數據,是肆意奔湧的激流,儲存系統就是承載著數據流量的河道,其寬闊堅固程度直接決定了數據是否會淤塞甚至停滯,從而卡住AI大模型的生命線。可以說,整個大模型產業的生產力和效率,都被儲存規定了「上限」。
這也是為什麼,儲存作為AI資料基礎設施,受到越來越多關注。
11月29日,「數智創新 AI未來」2023中國數據與儲存高峰會在北京舉辦。曙光儲存發布了以AI大模型為導向的儲存解決方案。
藉此機會,我們一起了解一下,AI大模型浪潮來襲,給存儲帶來的承載挑戰,以及曙光存儲是如何為智能產業引航,助推AI大模型百舸揚帆。
AI大模型正在進入產業的深水區,傳統儲存方式面臨著數據的挑戰
#最近我去了一趟雲南,發現不僅北上廣等科技重地的大模型建設如火如荼,在昆明、大理等二三線城市,甚至邊疆地區,都在積極地探索大模型行業應用。
各行各業走向智慧化,幾乎都點燃了對大模型的熾熱興趣。這時候,一個關鍵問題也顯露了出來:AI大模型的產業化風潮,需要升級儲存基礎架構。
模型開發者的每一次訓練,資料都在向儲存系統發起多種挑戰:
- 資料洪潮的衝擊。 隨著大模型的產業落地,許多行業都開始訓練專屬模型,大量行業數據、專有數據、新的標註數據被輸送給大模型,澎湃的數據數量對存儲系統提出了挑戰。雲南某資料科技公司提到,產業大模型要用高品質的資料集、文件、客戶私有資料訓練,每個專案都是單獨成立標註組,資料規模持續增大,儲存訴求和成本也隨之增加。
2.資料淤塞的桎梏。 超大規模資料預處理的速度慢、耗時長,採集、歸類、搬遷等過程費時費力,一旦儲存效能跟不上,海量檔案吞吐慢、多讀少寫,檢查點Checkpoint等待耗時久,會延緩開發進度,增加開發成本。
3.資料複雜的暗湧。 此外,AI大模型要用到大量異質數據,文件格式複雜、數據集類型多樣,數據數量激增,傳統存儲難以應對數據複雜性的挑戰,容易產生消化不良的問題,造成數據訪問效率低,因而造成模型運作效率下降,訓練算力消耗增多,無法充分「壓榨」昂貴的GPU算力資源。例如雲南當地的太陽觀測站,透過讓AI科學運算模型學習海量圖片,呈現太陽真實的樣子,每天產生2TB的圖片數據,目前儲存的吞吐效率低,會導致訓練集載入慢、數據處理週期長,拖慢研究進程。
4. 資料安全的隱憂。 目前,AI大模型已經深度滲透各行業之中,在訓練開發及應用落地過程中需要海量的數據支撐,其中包含行業或個人敏感信息的數據,如果沒有合理的數據脫敏和數據託管機制,則可能造成資料洩露,對行業和個人造成損失。同時,模型安全風險也需重視,例如,外掛程式可能被植入有害內容,成為不法分子詐欺和「投毒」的工具,危及社會和產業安全。
AI大模型駛向產業深水區,令人欣喜的是,這項技術創新正在深度融入各行各業,滿足智慧化需求,生機勃勃。然而,也存在一些擔憂,資料工程在大模型的整個生命週期中起著重要作用,包括資料收集、清理、訓練、推理部署和回饋調優等各個階段,都需要大量的資料。然而,儲存問題成為一個瓶頸,這意味著AI大模型在各個階段都可能面臨資料堵塞、故障和效率低下的情況,這將導致大模型的開發週期和綜合成本非常高,超出產業的承受能力
為了避免資料淤塞,支持和培養大型模式的產業發展,我們需要對儲存「河道」進行疏浚。曙光儲存提供了一種新的解決方案,這為我們發現了有價值的參考案例
高品質資料“航道”,曙光儲存給大模型產業一個答案
經過與AI大模型開發者的交流,我得出了一個明確的結論:建立一個適配AI大模型的全新儲存體系,已經不再需要討論,關鍵是誰能先完成方案升級、提供實用的解決方案
洞察產業的存力需求,曙光儲存打造了以ParaStor大模型專用儲存為底座的AI大模型儲存解決方案,寫下了自己的答案。
曙光儲存AI大模型儲存集群,擁有異質融合、極致效能與原生安全三大領先能力。
首先,我們可以提供千億級的檔案儲存服務,它的擴充規模接近無限。我們也特別解決了資料存取協議多樣性的問題,同時支援文件、物件等多種儲存協議,以避免在不同儲存系統之間複製資料的情況
其次,針對AI大模型開發過程中對資料處理效率的高需求,曙光儲存AI大模型儲存叢集可提供多層快取加速、XDS資料加速及智慧高速選路等多種資料IO效能最佳化能力。
為了確保全流程資料的安全,曙光儲存節點提供了晶片級安全能力,並支援國密指令集。透過多層可靠性,它可以保證儲存叢集在訓練和開發的整個週期內穩定運行,符合政策和未來的安全趨勢
有人可能會問了,市面上的儲存方案這麼多,有的也宣傳為模型開發提供專業支援。曙光儲存的方案有哪些差異化價值?
如果對各家的技術名詞和產品細節雲裡霧裡,大家不妨用幾個詞,記住曙光存儲AI大模型存儲集群的差異化價值:
1.先進。 異構融合,極致性能,晶片級原生安全,展現了曙光存儲的技術先進性,也針對性地解決了大模型開發的數據量大、數據形態複雜多樣、吞吐效率低、存算時間長等實實在在的痛點。
2.可靠。 高效能AI資料基礎設施基於曙光儲存的自研創新,更加可靠安全,符合信創政策和未來安全趨勢,可以幫助國內大模型服務商規避海外供應鏈風險,從供應鏈安全、資料安全、模型安全等多個角度,為大模型產業的發展護航。
3.全面。 曙光儲存打造了涵蓋從網路、運算到平台的全維度AI解決方案,支援訓練開發全週期內穩定運行,可以降低綜合成本,讓大模型開發者和產業客戶無憂前行。
總結一下,在曙光儲存建構的高品質「航道」上,大規模資料高效吞吐,AI大模型加速開發,因此,產業和企業可以快人一步,將大模型與垂直場景和業務深度融合,率先獲得通往智慧時代的船票。
第五範式的新起點,觀察著眾多企業競相前進、蓬勃發展的景象
#圖靈獎得主吉姆·格雷(Jim Gray),曾提出第四範式,核心是數據驅動。而隨著大語言模型“智能湧現”,“智能驅動”的第五範式,更側重於數據和智能的有機結合,成為支撐科學革命、產業革命的新底層邏輯。
一切過去的事情都是序章。人工智慧如此,儲存也如此
此次大會上,憑藉20年業界深耕,與在AI儲存技術突破、液冷儲存研發等領域的領先實踐,曙光儲存公司總裁惠潤海獲評「儲存先鋒」。在其領導下,多年來曙光分散式文件儲存在市場中持續領先,市場份額名列前茅。以AI大模型為導向的資料儲存解決方案,讓曙光儲存又一次站到了時代前沿。
曙光儲存的AI大模型儲存集群,正在積極實踐範式轉換,以適應新的數據範式,透過數據基礎設施的突破,推動大模型產業化的蓬勃發展
接下來,在儲存產業的新典範、新起點,在曙光儲存的高品質資料「河道」上,我們會看到,產業大模型百舸爭流,AI應用千帆競渡,加速駛向智能中國。
以上是AI大模型駛向產業之海,需要高數據「河道」引航的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本文比較了諸如Chatgpt,Gemini和Claude之類的頂級AI聊天機器人,重點介紹了其獨特功能,自定義選項以及自然語言處理和可靠性的性能。

文章討論了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的寫作助手,重點介紹了其獨特的內容創建功能。它認為Jasper在SEO優化方面表現出色,而AI工具有助於保持音調的組成

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

2024年見證了從簡單地使用LLM進行內容生成的轉變,轉變為了解其內部工作。 這種探索導致了AI代理的發現 - 自主系統處理任務和最少人工干預的決策。 Buildin

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

本文評論了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高級AI語音生成器,重點介紹其功能,語音質量和滿足不同需求的適用性。
