AI大模型時代的發展需要先進的儲存技術來實現穩定的進展
人工智慧學科起源於1956年,之後在接下來的半個世紀中幾乎沒有取得進展,算力和數據的發展遠遠落後於演算法。然而,隨著2000年進入網路時代,算力的限制被打破,人工智慧逐漸滲透到各行各業,並迎來了大規模模型時代的開啟。然而,高品質的數據似乎成為了人工智慧發展的最後的「瓶頸」
華為OceanStor Pacific在最近舉行的全國高效能運算學術年會(CCF HPC China 2需要重寫的是:023)上榮獲了「AI 存力底座最佳創新獎」
AI存力的概念的出現其實從側面體現了資料對於AI價值的不斷提升
要重寫的內容是:01
資料決定人工智慧的智慧程度
人工智慧的發展是一個不斷收集和分析資料的過程。數據作為資訊的載體,是人工智慧學習和理解世界的基礎。通用智能是人工智慧發展的最終目標,它能夠自主地學習、理解、推理和解決問題,而數據是推動其發展的最大動力
那麼,數據越多,AI就越聰明嗎?只要有大量的數據,AI就能夠超越專家的角色嗎?
以醫學領域的人工智慧系統為例,許多診斷案例其實沒有唯一正確的答案。在醫學診斷中,每組症狀都有一系列不同機率的可能原因,因此人工智慧的輔助決策可以幫助臨床醫生縮小可能的病因範圍,直到找到解決方案。在這種情況下,醫學人工智慧依賴的不是大量數據,而是準確且高品質的數據,只有這樣才能確保在「篩檢」時不會錯過真正可能的病因
資料品質對於AI智能的重要性在這個典型示範中得到了體現
在人工智慧產業中,一直存在著共識,即「垃圾進,垃圾出」。這意味著,如果沒有高品質的資料輸入,無論演算法有多先進,運算能力有多強大,都無法產生高品質的結果
在當今時代,我們正處於大模型的風口之上。人工智慧的大模型如雨後春筍般不斷湧現。華為的盤古、訊飛的星火、紫東的太初等中國的一批大模型正在快速發展,致力於建構跨產業通用的人工智慧能力平台,為各行各業的數位轉型提供動力
根據中國科技部新一代人工智慧發展研究中心於五月底發布的《中國人工智慧大模型地圖研究報告》,已有79個擁有十億參數規模以上的大模型在中國發布。雖然「百模大戰」的格局已經形成,但這也引發了對大模型發展的深入思考
基於小規模資料建立的模型,其表達能力受限於資料規模,只能進行粗粒度的模擬與預測,在精度要求比較高的情況就不再適用。如果想要進一步提升模型精確度就需要利用海量資料產生相關模型
重寫後的內容是:這意味著資料的數量決定了AI智能的程度。無論數據的品質如何,數據的數量都是建立「AI存力」所需重點關注的領域
要重寫的是:02
在大數據時代,數據所面臨的挑戰
隨著人工智慧朝向大型模型和多模態發展,企業在開發或實施大型模型應用時面臨許多挑戰
首先,資料預處理的周期很長。由於資料分佈在不同的資料中心、不同的應用和不同的系統中,因此存在歸集速度慢等問題,導致預處理百TB資料需要大約10天的時間,系統的利用率從一開始就需要提高效率
其次,訓練集載入效率低的問題需要解決。現在大型模型的規模越來越龐大,參數等級達到千億甚至萬億,訓練過程需要大量的運算資源和儲存空間。例如,多模態大型模型以海量文字和圖片作為訓練集,但是目前海量小檔案的載入速度較慢,導致訓練集載入效率不高
此外,還面臨大型模型參數頻繁調優、訓練平台不穩定的挑戰,平均每兩天就會出現一次訓練中斷。為了恢復訓練,需要使用檢查點機制,而故障復原的時間則超過一天,為業務連續性帶來了許多挑戰
為了在AI大模型時代取得成功,我們需要同時專注於資料的品質和數量,並建立大容量、高效能的儲存基礎架構。這已經成為了取得勝利的關鍵要素
需要重新寫作的內容是:03
AI時代的關鍵在於存力底座
隨著大數據、人工智慧等技術與高效能運算的結合,高效能資料分析(HPDA)成為實現資料價值的新形式。透過利用更多歷史資料、多元異構算力和分析方法,HPDA得以提高分析精確度。這標誌著科學研究邁向智慧化的新階段,人工智慧技術將加速前沿成果的應用
如今,科學研究領域正在出現一種基於"資料密集型科學"的新範式。這種範式更加重視將大數據知識挖掘和人工智慧訓練推理技術結合,透過計算和分析來獲取新的知識和發現。這也意味著對於底層資料基礎設施的需求將會發生根本性的改變。無論是高效能運算還是人工智慧的未來發展,都需要建立先進的儲存基礎設施來應對資料的挑戰
解決資料挑戰需要從資料儲存創新入手,這正如諺語所說的解鈴還須繫鈴人
AI存力底座是基於OceanStor Pacific分散式儲存開發的,並秉承AI Native設計理念,以滿足AI各個環節的儲存需求。 AI系統對儲存提出了全面的挑戰,包括資料運算加速、資料儲存管理以及資料儲存和運算之間的高效流通等等。透過採用「大容量儲存 高效能儲存」的組合,可以確保儲存資源的調度和協調一致,使每個環節都能高效運轉,從而充分釋放AI系統的價值
OceanStor Pacific分散式儲存如何展現其核心能力呢?
首先,技術架構在業界是獨創的。這套儲存系統支援無限橫向擴展,並且能夠處理混合負載,既能高效處理小檔案的IOPS,也能高速讀寫大檔案的頻寬。它具備智慧的效能層和容量層資料分級流轉功能,能夠實現對海量資料的歸集、預處理、訓練和推理等全流程的AI資料管理。此外,它還具備與HPC和大數據相同的資料分析能力
重寫後的內容為:其次,業界效率最佳的提升方法是透過儲存的創新。首先是資料編織,即透過GFS全局文件系統將分散在不同地區的原始資料接入,實現跨系統、跨地區、跨多雲的全局統一資料視圖和調度,簡化資料收集過程。其次是近存運算,透過儲存內嵌的算力實現對近資料的預處理,減少無效資料傳輸,同時降低預處理伺服器的等待時間,從而顯著提高預處理效率
實際上,"百模大戰"並不是AI大模型發展的"標誌"。未來,各行各業都將透過AI大模型的能力來推動數位轉型的深入發展,同時資料基礎設施的建置也將加速推進。 OceanStor Pacific分散式儲存在技術架構的創新和高效率的表現,已經證明自己是業界的首選
我們明白,數據已成為與土地、勞動、資本、技術並列的新型生產要素。過去數位化市場中的許多傳統定義和運作模式都將被重新書寫。只有先存力,才能確保數據驅動的人工智慧大模型時代穩步向前
以上是AI大模型時代的發展需要先進的儲存技術來實現穩定的進展的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

ChatGPT大火帶動AI又一波熱潮,不過業界普遍認為,當AI步入大模型時代,只有大企業和超級富有的企業才玩得起AI,因為AI大模型的打造非常昂貴。首先是計算昂貴。多倫多大學行銷教授AviGoldfarb說:「如果你想創辦一家企業,自己開發大語言模型,自己計算,成本太高了。OpenAI是很貴的,要數以十億計的美元。」租賃計算當然會便宜不少,但企業仍要向AWS等企業支付昂貴費用。其次是數據昂貴。訓練模型需要大量數據,有時數據是現成的,有時不是。 CommonCrawl和LAION等資料可以免費

近年來,隨著新技術模式的出現,各產業應用場景價值打磨與大量資料累積下的產品效果提升,人工智慧應用已從消費、網路等領域,向製造業、能源、電力等傳統產業輻射。各產業企業在設計、採購、生產、管理、銷售等經濟生產活動主要環節的人工智慧技術和應用成熟度不斷提升,加速人工智慧在各環節的落地覆蓋,逐漸將其與主要業務相結合,以實現產業地位提高或經營效益優化,進一步擴大自身優勢。人工智慧技術創新應用的大規模落地,推動了大數據智慧市場的蓬勃發展,同樣也為底層的資料治理服務注入了市場活力。伴隨著大數據、雲端運算以及算

AI大模型是指使用大規模資料和強大的運算能力訓練出來的人工智慧模型。這些模型通常具有高度的準確性和泛化能力,可以應用於各種領域,如自然語言處理、影像辨識、語音辨識等。 AI大模型的訓練需要大量的資料和運算資源,通常需要使用分散式運算框架來加速訓練過程。這些模型的訓練過程非常複雜,需要對資料的分佈、特徵的選擇、模型的結構等面向進行深入的研究與最佳化。 AI大模型的應用範圍非常廣泛,可用於各種場景,如智慧客服、智慧家庭、自動駕駛等。在這些應用中,AI大模型可以幫助人們更快速、更準確地完成各種任務,提高工

生成式AI(AIGC)開啟了人工智慧通用化的新紀元,圍繞大模型的百舸爭流蔚為壯觀,算力基礎設施是首要的競逐焦點,而存力覺醒也日益成為業界共識。在新的時代,大模型從單模態走向多模態,參數和訓練資料集的規模呈幾何級數增長,海量的非結構化資料需要高性能混合負載能力的支撐;同時,資料密集型範式大行其道,超算、高效能運算(HPC)等應用場景邁向縱深,既有的資料儲存基座難以滿足不斷升級的需求。如果說算力、演算法、數據是驅動人工智慧發展的“三駕馬車”,那麼在外部環境發生巨大變化的背景下,三者亟需重新達成動

vivo於11月1日在2023年的開發者大會上發布了自主研發的通用人工智慧大模型矩陣-藍心大模型vivo宣布,藍心大模型將推出5款不同參數量級的模型,分別包含十億、百億、千億三個等級的參數,涵蓋核心場景,模型能力在產業中處於領先地位。 vivo認為,一個好的自研大模型需要滿足以下5點要求:規模大,功能全面,演算法強勁,安全可靠,自主進化,並且要廣泛開源重寫後的內容如下:其中,首先是藍心大模型7B,這是一個70億級別的模型,旨在為手機端和雲端提供雙重服務。 vivo表示,該模型在語言理解、文字創作等場

最近,一支電腦科學家團隊研發了更靈活、更具彈性的機器學習模型,它們具有周期性遺忘已知資訊的能力,這是現有大型語言模型所不具備的特徵。實測顯示,在許多情況下,「忘卻法」的訓練效率很高,忘卻型模型表現也會更好。韓國基礎科學研究院(InstituteforBasicScience)的AI工程師JeaKwon說,新研究意味著AI領域有明顯進展。 「忘卻法」訓練效率很高目前主流的AI語言引擎大多採用人工神經網路技術。這種網路結構中的每個「神經元」實際上是一個數學函數,它們之間相互連接,接收和傳遞訊息

最近一段時間,人工智慧再次成為人類創新的焦點,圍繞AI的軍備競爭比以往任何時候都更加激烈。不只科技巨頭紛紛札堆加入大模型之戰,生怕錯過了新風口,就連包括北京、上海、深圳等地也紛紛出台政策舉措,致力於開展大模型創新演算法及關鍵技術研究,打造人工智慧創新高地。 AI大模型蓬勃發展,各大科技巨頭紛紛加入近日,在2023中關村論壇上發布的《中國人工智慧大模型地圖研究報告》顯示,中國人工智慧大模型正呈現蓬勃發展態勢,出現了多個在產業有影響力的大模型。百度創辦人、董事長兼CEO李彥宏更是直言,我們正處於全新起點

1978年,來自加州大學的StuartMarson等人,成立了世界上第一家CADD商業公司,開創性地研發了一套化學反應及資料庫的檢索系統。自此開始,電腦輔助藥物設計(CADD)進入快速發展的時代,成為藥廠進行藥物研發的重要手段之一,為這一領域帶來了革命性的升級。 1981年10月5日,《財星》雜誌發表了題為《下一次工業革命:默克公司透過電腦設計藥物》的封面文章,正式宣告了CADD技術的問世。 1996年,第一款基於SBDD(結構為基礎的藥物設計)所研發的藥物碳酸酐酶抑制劑成功上市,CADD在藥物研究
