首頁 科技週邊 人工智慧 AI大模型駛向產業之海,需要高數據「河道」引航

AI大模型駛向產業之海,需要高數據「河道」引航

Dec 02, 2023 am 08:45 AM
數據導航 產業佈局 模型驅動

在某次產業高峰會上,一位來自清華大學的院士科學家透露,我們的AI大模型是在萬卡集群上進行訓練的,每三小時就會出現一次錯誤。雖然聽起來有點可笑,但這已經達到了世界先進水平

風靡全球的AI大模型,是今年毋庸置疑的風口,數量不斷增長,達到了驚人的水平。 「百舸爭流」之下,大家卻常常會忽略一個關鍵問題:AI大模型帶來的資料激流,也比想像中更加洶湧。

“三小時出錯一次”,聽起來不可思議的故障率,卻是大模型從業者要面對的常態,甚至是“優等生”。目前業界的普遍做法,是寫容錯檢查點checkpoint。既然三小時就報錯,那就2.5小時停一次,寫好檢查點,把資料存起來,再開始訓練。一旦故障,可以從寫好的檢查點恢復,避免「從頭開始」、全部白乾。而檢查點需要儲存的資料多,會耗費大量的時間。該院士團隊基於llama 2架構研發的大模型,資料存一次硬件,就需要十個小時,儲存效率直接影響了開發進度。

如果說大規模的異質數據,是肆意奔湧的激流,儲存系統就是承載著數據流量的河道,其寬闊堅固程度直接決定了數據是否會淤塞甚至停滯,從而卡住AI大模型的生命線。可以說,整個大模型產業的生產力和效率,都被儲存規定了「上限」。

這也是為什麼,儲存作為AI資料基礎設施,受到越來越多關注。

AI大模型駛向產業之海,需要高數據「河道」引航

11月29日,「數智創新 AI未來」2023中國數據與儲存高峰會在北京舉辦。曙光儲存發布了以AI大模型為導向的儲存解決方案。

藉此機會,我們一起了解一下,AI大模型浪潮來襲,給存儲帶來的承載挑戰,以及曙光存儲是如何為智能產業引航,助推AI大模型百舸揚帆。

AI大模型正在進入產業的深水區,傳統儲存方式面臨著數據的挑戰

#最近我去了一趟雲南,發現不僅北上廣等科技重地的大模型建設如火如荼,在昆明、大理等二三線城市,甚至邊疆地區,都在積極地探索大模型行業應用。

各行各業走向智慧化,幾乎都點燃了對大模型的熾熱興趣。這時候,一個關鍵問題也顯露了出來:AI大模型的產業化風潮,需要升級儲存基礎架構。

模型開發者的每一次訓練,資料都在向儲存系統發起多種挑戰:

  1. 資料洪潮的衝擊。 隨著大模型的產業落地,許多行業都開始訓練專屬模型,大量行業數據、專有數據、新的標註數據被輸送給大模型,澎湃的數據數量對存儲系統提出了挑戰。雲南某資料科技公司提到,產業大模型要用高品質的資料集、文件、客戶私有資料訓練,每個專案都是單獨成立標註組,資料規模持續增大,儲存訴求和成本也隨之增加。

AI大模型駛向產業之海,需要高數據「河道」引航

2.資料淤塞的桎梏。 超大規模資料預處理的速度慢、耗時長,採集、歸類、搬遷等過程費時費力,一旦儲存效能跟不上,海量檔案吞吐慢、多讀少寫,檢查點Checkpoint等待耗時久,會延緩開發進度,增加開發成本。

3.資料複雜的暗湧。 此外,AI大模型要用到大量異質數據,文件格式複雜、數據集類型多樣,數據數量激增,傳統存儲難以應對數據複雜性的挑戰,容易產生消化不良的問題,造成數據訪問效率低,因而造成模型運作效率下降,訓練算力消耗增多,無法充分「壓榨」昂貴的GPU算力資源。例如雲南當地的太陽觀測站,透過讓AI科學運算模型學習海量圖片,呈現太陽真實的樣子,每天產生2TB的圖片數據,目前儲存的吞吐效率低,會導致訓練集載入慢、數據處理週期長,拖慢研究進程。

4. 資料安全的隱憂。 目前,AI大模型已經深度滲透各行業之中,在訓練開發及應用落地過程中需要海量的數據支撐,其中包含行業或個人敏感信息的數據,如果沒有合理的數據脫敏和數據託管機制,則可能造成資料洩露,對行業和個人造成損失。同時,模型安全風險也需重視,例如,外掛程式可能被植入有害內容,成為不法分子詐欺和「投毒」的工具,危及社會和產業安全。

AI大模型駛向產業之海,需要高數據「河道」引航

AI大模型駛向產業深水區,令人欣喜的是,這項技術創新正在深度融入各行各業,滿足智慧化需求,生機勃勃。然而,也存在一些擔憂,資料工程在大模型的整個生命週期中起著重要作用,包括資料收集、清理、訓練、推理部署和回饋調優等各個階段,都需要大量的資料。然而,儲存問題成為一個瓶頸,這意味著AI大模型在各個階段都可能面臨資料堵塞、故障和效率低下的情況,這將導致大模型的開發週期和綜合成本非常高,超出產業的承受能力

為了避免資料淤塞,支持和培養大型模式的產業發展,我們需要對儲存「河道」進行疏浚。曙光儲存提供了一種新的解決方案,這為我們發現了有價值的參考案例

高品質資料“航道”,曙光儲存給大模型產業一個答案

經過與AI大模型開發者的交流,我得出了一個明確的結論:建立一個適配AI大模型的全新儲存體系,已經不再需要討論,關鍵是誰能先完成方案升級、提供實用的解決方案

洞察產業的存力需求,曙光儲存打造了以ParaStor大模型專用儲存為底座的AI大模型儲存解決方案,寫下了自己的答案。

AI大模型駛向產業之海,需要高數據「河道」引航

曙光儲存AI大模型儲存集群,擁有異質融合、極致效能與原生安全三大領先能力。

首先,我們可以提供千億級的檔案儲存服務,它的擴充規模接近無限。我們也特別解決了資料存取協議多樣性的問題,同時支援文件、物件等多種儲存協議,以避免在不同儲存系統之間複製資料的情況

其次,針對AI大模型開發過程中對資料處理效率的高需求,曙光儲存AI大模型儲存叢集可提供多層快取加速、XDS資料加速及智慧高速選路等多種資料IO效能最佳化能力。

為了確保全流程資料的安全,曙光儲存節點提供了晶片級安全能力,並支援國密指令集。透過多層可靠性,它可以保證儲存叢集在訓練和開發的整個週期內穩定運行,符合政策和未來的安全趨勢

有人可能會問了,市面上的儲存方案這麼多,有的也宣傳為模型開發提供專業支援。曙光儲存的方案有哪些差異化價值?

AI大模型駛向產業之海,需要高數據「河道」引航

如果對各家的技術名詞和產品細節雲裡霧裡,大家不妨用幾個詞,記住曙光存儲AI大模型存儲集群的差異化價值:

1.先進。 異構融合,極致性能,晶片級原生安全,展現了曙光存儲的技術先進性,也針對性地解決了大模型開發的數據量大、數據形態複雜多樣、吞吐效率低、存算時間長等實實在在的痛點。

2.可靠。 高效能AI資料基礎設施基於曙光儲存的自研創新,更加可靠安全,符合信創政策和未來安全趨勢,可以幫助國內大模型服務商規避海外供應鏈風險,從供應鏈安全、資料安全、模型安全等多個角度,為大模型產業的發展護航。

3.全面。 曙光儲存打造了涵蓋從網路、運算到平台的全維度AI解決方案,支援訓練開發全週期內穩定運行,可以降低綜合成本,讓大模型開發者和產業客戶無憂前行。

總結一下,在曙光儲存建構的高品質「航道」上,大規模資料高效吞吐,AI大模型加速開發,因此,產業和企業可以快人一步,將大模型與垂直場景和業務深度融合,率先獲得通往智慧時代的船票。

第五範式的新起點,觀察著眾多企業競相前進、蓬勃發展的景象

#圖靈獎得主吉姆·格雷(Jim Gray),曾提出第四範式,核心是數據驅動。而隨著大語言模型“智能湧現”,“智能驅動”的第五範式,更側重於數據和智能的有機結合,成為支撐科學革命、產業革命的新底層邏輯。

一切過去的事情都是序章。人工智慧如此,儲存也如此

AI大模型駛向產業之海,需要高數據「河道」引航

此次大會上,憑藉20年業界深耕,與在AI儲存技術突破、液冷儲存研發等領域的領先實踐,曙光儲存公司總裁惠潤海獲評「儲存先鋒」。在其領導下,多年來曙光分散式文件儲存在市場中持續領先,市場份額名列前茅。以AI大模型為導向的資料儲存解決方案,讓曙光儲存又一次站到了時代前沿。

曙光儲存的AI大模型儲存集群,正在積極實踐範式轉換,以適應新的數據範式,透過數據基礎設施的突破,推動大模型產業化的蓬勃發展

接下來,在儲存產業的新典範、新起點,在曙光儲存的高品質資料「河道」上,我們會看到,產業大模型百舸爭流,AI應用千帆競渡,加速駛向智能中國。

以上是AI大模型駛向產業之海,需要高數據「河道」引航的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

最佳AI藝術生成器(免費付款)創意項目 最佳AI藝術生成器(免費付款)創意項目 Apr 02, 2025 pm 06:10 PM

本文回顧了AI最高的藝術生成器,討論了他們的功能,對創意項目的適用性和價值。它重點介紹了Midjourney是專業人士的最佳價值,並建議使用Dall-E 2進行高質量的可定製藝術。

開始使用Meta Llama 3.2 -Analytics Vidhya 開始使用Meta Llama 3.2 -Analytics Vidhya Apr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) 最佳AI聊天機器人比較(Chatgpt,Gemini,Claude&更多) Apr 02, 2025 pm 06:09 PM

本文比較了諸如Chatgpt,Gemini和Claude之類的頂級AI聊天機器人,重點介紹了其獨特功能,自定義選項以及自然語言處理和可靠性的性能。

頂級AI寫作助理來增強您的內容創建 頂級AI寫作助理來增強您的內容創建 Apr 02, 2025 pm 06:11 PM

文章討論了Grammarly,Jasper,Copy.ai,Writesonic和Rytr等AI最高的寫作助手,重點介紹了其獨特的內容創建功能。它認為Jasper在SEO優化方面表現出色,而AI工具有助於保持音調的組成

AV字節:Meta' llama 3.2,Google的雙子座1.5等 AV字節:Meta' llama 3.2,Google的雙子座1.5等 Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

構建AI代理的前7個代理抹布系統 構建AI代理的前7個代理抹布系統 Mar 31, 2025 pm 04:25 PM

2024年見證了從簡單地使用LLM進行內容生成的轉變,轉變為了解其內部工作。 這種探索導致了AI代理的發現 - 自主系統處理任務和最少人工干預的決策。 Buildin

向員工出售AI策略:Shopify首席執行官的宣言 向員工出售AI策略:Shopify首席執行官的宣言 Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

選擇最佳的AI語音生成器:評論的頂級選項 選擇最佳的AI語音生成器:評論的頂級選項 Apr 02, 2025 pm 06:12 PM

本文評論了Google Cloud,Amazon Polly,Microsoft Azure,IBM Watson和Discript等高級AI語音生成器,重點介紹其功能,語音質量和滿足不同需求的適用性。

See all articles