AI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要
人工知能の分野は 1956 年に始まり、その後半世紀にわたってほとんど進歩せず、コンピューティング能力とデータの開発はアルゴリズムに大きく遅れをとっていました。しかし、2000 年のインターネット時代の到来により、コンピューティング能力の限界は打ち破られ、人工知能は徐々にあらゆる階層に浸透し、大規模モデルの時代が到来しました。しかし、高品質のデータが人工知能の開発における最後の「ボトルネック」になっているようです
ファーウェイ OceanStor Pacific は、最近開催された全国ハイパフォーマンス コンピューティング学術年次会議で「AI ストレージ ベースのベスト イノベーション賞」を受賞しました (CCF HPC China 2 は、023 に書き換える必要があります)
AI 保持という概念の出現は、実際には AI のデータ価値の継続的な向上を反映しています
書き換える必要がある内容は: 01
データは人工知能の知能レベルを決定します
人工知能の開発は、継続的なデータ収集と分析のプロセスです。情報の伝達手段としてのデータは、人工知能が世界を学習し理解するための基盤です。一般知能は人工知能開発の最終目標です。自律的に学習し、理解し、推論し、問題を解決することができ、データはその開発の最大の原動力です
つまり、データが増えれば増えるほど、AIはより賢くなるのでしょうか?大量のデータがある限り、AIは専門家の役割を超えることができるのでしょうか?
医療分野の人工知能システムを例にとると、実際には、多くの診断ケースには単一の正解がありません。医療診断では、各症状にはさまざまな確率でさまざまな原因が考えられるため、AI 支援による意思決定は、臨床医が解決策が見つかるまで考えられる原因を絞り込むのに役立ちます。この場合、医療用人工知能は大量のデータではなく、正確で高品質なデータに依存します。この方法によってのみ、「スクリーニング」中に実際に考えられる原因を見逃さないようにすることができます
AI インテリジェンスにおけるデータ品質の重要性は、この典型的なデモンストレーションに反映されています
人工知能業界では、「ゴミが入ったらゴミが出てくる」というコンセンサスが常にありました。これは、高品質のデータ入力がなければ、アルゴリズムがどれほど高度であっても、またはコンピューティング能力がどれほど強力であっても、高品質の結果を生み出すことはできないことを意味します
今の時代、私たちは大型モデルの頂点に立っています。人工知能の大きなモデルが雨後のキノコのように湧き出ています。ファーウェイのPangu、iFlytekのSpark、ZidongのTaichuなど、多くの中国の大型モデルは急速に開発を進めており、あらゆる分野のデジタル変革に力を提供する、業界を超えた汎用人工知能機能プラットフォームの構築に取り組んでいる。
##中国科学技術省新世代人工知能開発研究センターが5月末に発表した「中国人工知能大型モデルマップ研究報告書」によると、10億以上のパラメータを持つ79の大型モデルが存在するという。中国で発売されました。 「100モデルの戦い」のパターンが形成されましたが、それは同時に大型モデルの開発について深く考えるきっかけにもなりました。小規模データに基づくモデルの表現能力はデータ規模によって制限され、粗粒度のシミュレーションと予測しか実行できません。これは、精度の要件が比較的高い状況では適用できなくなります。モデルの精度をさらに向上させたい場合は、大量のデータを使用して関連するモデルを生成する必要があります
書き換えられた内容は次のとおりです: これは、データの量が AI の知能の程度を決定することを意味します。データの質に関係なく、データの量は「AI ストレージ容量」の構築に重点を置く必要がある分野です
書き換える必要があるのは、02です。
ビッグデータの時代にデータが直面する課題人工知能が大規模モデルとマルチモダリティに向けて発展するにつれて、企業は大規模モデル アプリケーションを開発または実装する際に多くの課題に直面します。
まず第一に、データの前処理サイクルは非常に長いです。データが異なるデータセンター、異なるアプリケーション、異なるシステムに分散しているため、収集速度が遅いなどの課題があり、100TBのデータの前処理には10日程度を要しており、システム利用率の改善が必要です。始まり。 ###
第二に、トレーニング セットの読み込み効率が低いという問題を解決する必要があります。現在、大規模モデルの規模はますます大きくなり、パラメータレベルは数千億、さらには兆に達しており、トレーニングプロセスには大量のコンピューティングリソースとストレージスペースが必要です。たとえば、マルチモーダル大規模モデルはトレーニング セットとして大量のテキストと画像を使用しますが、現在の大量の小さなファイルの読み込み速度が遅いため、トレーニング セットの読み込みが非効率になります
さらに、大規模なモデルパラメータの頻繁な調整と、平均して 2 日ごとにトレーニングの中断が発生する不安定なトレーニング プラットフォームという課題にも直面しています。トレーニングを再開するには、チェックポイント メカニズムを使用する必要があり、障害の回復時間が 1 日を超えるため、ビジネス継続性に多くの課題が生じます。
AIラージモデル時代を勝ち抜くには、データの質と量の両方に配慮し、大容量かつ高性能なストレージインフラを構築する必要があります。これが勝利への重要な要素となった
書き換える必要がある内容は: 03
AI時代の鍵は権力基盤にある
ビッグデータ、人工知能、その他のテクノロジーとハイパフォーマンス コンピューティングを組み合わせることで、ハイパフォーマンス データ分析 (HPDA) はデータ価値を実現する新しい形式になりました。 HPDA は、より多くの履歴データ、複数の異種コンピューティング能力、分析手法を利用することで、分析精度を向上させることができます。これは科学研究におけるインテリジェント研究の新たな段階を示し、人工知能テクノロジーは最先端の結果の応用を加速します現在、科学研究の分野では、「データ集約型科学」に基づく新しいパラダイムが出現しています。このパラダイムは、計算と分析を通じて新しい知識と発見を得るために、ビッグデータのナレッジマイニングと人工知能のトレーニングと推論テクノロジーを組み合わせることに重点を置いています。これは、基盤となるデータ インフラストラクチャの要件が根本的に変わることも意味します。ハイ パフォーマンス コンピューティングであれ、人工知能の将来の発展であれ、データの課題に対処するための高度なストレージ インフラストラクチャを確立する必要があります。
データの課題を解決するには、データ ストレージの革新から始める必要があります。ことわざにあるように、鐘を解く人は鐘を結ばなければなりません
AI ストレージ ベースは、OceanStor Pacific 分散ストレージに基づいて開発されており、AI のあらゆる側面のストレージ ニーズを満たすために AI ネイティブ設計コンセプトに準拠しています。 AI システムは、データ コンピューティングの高速化、データ ストレージ管理、データ ストレージとコンピューティング間の効率的な循環など、ストレージに対して包括的な課題を引き起こします。 「大容量ストレージと高性能ストレージ」を組み合わせて使用することで、ストレージ リソースの一貫したスケジューリングと調整が保証され、すべてのリンクが効率的に動作し、AI システムの価値を最大限に発揮できます
OceanStor Pacific 分散ストレージは、そのコア機能をどのように実証しますか?
まず第一に、技術アーキテクチャは業界でユニークです。このストレージ システムは、無制限の水平拡張をサポートし、混合負荷を処理でき、小さなファイルの IOPS と大きなファイルの高速読み取りおよび書き込みの帯域幅を効率的に処理できます。パフォーマンス層とキャパシティ層でのインテリジェントな階層型データフロー機能を備えており、大量データの収集、前処理、学習、推論などのフルプロセスのAIデータ管理を実現できます。さらに、HPC やビッグデータと同様のデータ分析機能を備えています
書き直された内容は次のとおりです: 第二に、業界の効率を向上させる最善の方法はストレージの革新です。 1 つ目はデータ ウィービングです。これは、GFS グローバル ファイル システムを通じて、さまざまなリージョンに散在する生データにアクセスし、システム、リージョン、複数のクラウドにわたるグローバルな統一データ ビューとスケジューリングを実現し、データ収集プロセスを簡素化することを意味します。 2 つ目は、ニアメモリ コンピューティングです。これは、組み込みのコンピューティング能力を蓄積することでニアデータの前処理を実現し、無効なデータ送信を削減し、前処理サーバーの待ち時間を短縮することで、前処理効率を大幅に向上させます。
実際には、「数百のモデルの戦い」は大規模な AI モデルの開発の「兆候」ではありません。今後、各界がAI大型モデルの機能を活用してデジタルトランスフォーメーションの深化した開発を推進し、データインフラの構築も加速するだろう。 OceanStor Pacific 分散ストレージの革新的な技術アーキテクチャと高効率は、業界の最初の選択肢であることが証明されています私たちは、データが土地、労働力、資本、テクノロジーと並んで新たな生産要素になったことを理解しています。過去のデジタル市場における伝統的な定義や運用モデルの多くは書き換えられるでしょう。既存の機能を使用してのみ、データ駆動型人工知能の大規模モデルの時代を確実に前進させることができます。
以上がAI大型モデル時代の発展が安定的に進展するには高度なストレージ技術が必要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









ChatGPT の炎上により、AI ブームの新たな波が起きていますが、業界では一般に、AI が大規模モデルの時代に入ると、大規模な AI モデルの作成には非常に費用がかかるため、AI を導入できるのは大企業と超富裕層だけであると考えられています。 。 1 つ目は、計算コストが高いということです。トロント大学のマーケティング教授であるアヴィ・ゴールドファーブ氏は、「会社を立ち上げ、大規模な言語モデルを自分で開発し、自分で計算したいと思ったら、コストが高すぎる。OpenAIは非常に高価で、数十億ドルかかる」と述べた。レンタルコンピューティングは確かにそうなります。はるかに安価ですが、企業は依然として AWS やその他の企業に高額な料金を支払わなければなりません。第二に、データは高価です。モデルのトレーニングには大量のデータが必要ですが、データがすぐに利用できる場合もあれば、そうでない場合もあります。 CommonCrawl や LAION などのデータは無料で利用可能

近年、新たな技術モデルの登場や、さまざまな産業における応用シナリオの価値の磨き上げ、膨大なデータの蓄積による製品効果の向上などにより、消費やインターネットなどの分野から人工知能の応用が広がりを見せています。製造、エネルギー、電力などの伝統的な産業まで。人工知能技術の成熟度と、設計、調達、生産、管理、販売などの経済生産活動の主要なリンクにおけるさまざまな業界の企業の応用は継続的に向上しており、すべてのリンクでの人工知能の実装と範囲が加速しています。産業上の地位の向上や経営効率の最適化を図るため、徐々に本業と融合させ、自社の優位性をさらに拡大していきます。人工知能テクノロジーの革新的なアプリケーションの大規模な実装は、ビッグデータインテリジェンス市場の精力的な発展を促進し、基盤となるデータガバナンスサービスに市場の活力を注入しました。ビッグデータ、クラウドコンピューティング、コンピューティング

AI ラージ モデルとは、大規模なデータと強力なコンピューティング能力を使用してトレーニングされた人工知能モデルを指します。これらのモデルは通常、高度な精度と一般化機能を備えており、自然言語処理、画像認識、音声認識などのさまざまな分野に適用できます。大規模な AI モデルのトレーニングには大量のデータとコンピューティング リソースが必要であり、通常、トレーニング プロセスを高速化するには分散コンピューティング フレームワークを使用する必要があります。これらのモデルのトレーニング プロセスは非常に複雑で、データ分布、特徴の選択、モデル構造などについての綿密な調査と最適化が必要です。 AI 大型モデルは幅広い用途があり、スマート カスタマー サービス、スマート ホーム、自動運転などのさまざまなシナリオで使用できます。これらのアプリケーションでは、AI 大型モデルは、人々がさまざまなタスクをより迅速かつ正確に完了し、作業効率を向上させるのに役立ちます。

生成 AI (AIGC) は、人工知能の一般化の新たな時代を切り開きました。大規模モデルをめぐる競争は壮絶なものになっています。コンピューティング インフラストラクチャが競争の主な焦点であり、権力の覚醒が業界のコンセンサスになりつつあります。新しい時代では、大規模なモデルは単一モダリティからマルチモダリティに移行しており、パラメータとトレーニング データセットのサイズは指数関数的に増大しており、大規模な非構造化データには高性能の混合負荷機能のサポートが必要です。データ集約型 新しいパラダイムが人気を博しており、スーパーコンピューティングやハイ パフォーマンス コンピューティング (HPC) などのアプリケーション シナリオが深化しており、既存のデータ ストレージ ベースでは、アップグレードされ続けるニーズを満たすことができなくなりました。コンピューティング能力、アルゴリズム、データが人工知能の開発を推進する「トロイカ」である場合、外部環境の大きな変化の中で、この 3 つは早急にダイナミックな状態を取り戻す必要があります。

Vivoは、11月1日に開催された2023年開発者カンファレンスで、自社開発の汎用人工知能大型モデルマトリックスであるBlue Heart Modelを発表しましたが、Vivoは、Blue Heart Modelは、それぞれ異なるパラメータレベルを持つ5つのモデルを発売すると発表しました。 : 数十億、数百億、数千億でコアシナリオをカバーしており、そのモデル機能は業界をリードする地位にあります。 Vivo は、優れた自社開発大型モデルには、大規模、包括的な機能、強力なアルゴリズム、安全で信頼できる、独自の進化、広くオープンソースという 5 つの要件を満たす必要があると考えており、リライトされた内容は次のとおりです。 1 つ目は Lanxin Big Model 7B です。これは、携帯電話とクラウドの二重サービスを提供するように設計された 70 億レベルのモデルです。 Vivoは、このモデルは言語理解やテキスト作成などの分野で使用できると述べた。

最近、コンピューター科学者のチームは、既知の情報を定期的に忘れる機能を備えた、より柔軟で回復力のある機械学習モデルを開発しました。これは、既存の大規模言語モデルには見られない機能です。実際の測定によると、多くの場合、「忘却法」は学習において非常に効率的であり、忘却モデルのパフォーマンスが向上します。韓国基礎科学研究所のAIエンジニア、Jea Kwon氏は、新たな研究はAI分野における大きな進歩を意味すると述べた。 「忘却法」の学習効率は非常に高く、現在主流のAI言語エンジンのほとんどは人工ニューラルネットワーク技術を使用しています。このネットワーク構造の各「ニューロン」は実際には数学関数であり、互いに接続されて情報を送受信します。

近年、人工知能が人類のイノベーションの焦点として再び注目されており、AIを巡る兵器競争はこれまで以上に激化しています。新しいトレンドに乗り遅れることを恐れて、大手テクノロジー企業が大型モデルの戦いに参加するために集まっているだけでなく、北京、上海、深センなどでも、大型モデルの革新アルゴリズムと主要な研究を実施するための政策や措置を導入しています。人工知能イノベーションの高地を生み出す技術。 AI大型モデルがブームとなっており、大手テクノロジー企業も参入している。最近、2023年中関村フォーラムで発表された「中国人工知能大型モデル地図研究報告書」によると、中国の人工知能大型モデルは活況な開発傾向を示しており、業界内で多くの企業が参加しており、影響力のある大型モデル。 Baidu の創設者、会長兼 CEO である Robin Li 氏は、私たちは新たな出発点に立っていると率直に述べました。

1978 年、カリフォルニア大学のスチュアート マーソンらは世界初の CADD 営利会社を設立し、化学反応およびデータベース検索システムの開発の先駆者となりました。それ以来、コンピューター支援医薬品設計 (CADD) は急速な発展の時代に入り、製薬会社が医薬品の研究開発を行うための重要な手段の 1 つとなり、この分野に革命的な進歩をもたらしました。 1981 年 10 月 5 日、フォーチュン誌は「次の産業革命: メルクがコンピューターを通じて医薬品を設計」というタイトルの表紙記事を掲載し、CADD テクノロジーの出現を正式に発表しました。 1996年にはSBDD(構造に基づいたドラッグデザイン)に基づいて開発された最初の炭酸脱水酵素阻害剤の発売に成功し、CADDは医薬品の研究開発に広く使用されるようになりました。
