Tan Zhongyi: モデル中心からデータ中心の MLOps により、AI をより迅速かつコスト効率よく実装できるようになります
ゲスト: Tan Zhongyi
編集者: Qianshan
Ng Enda は、AI がモデル中心の研究パラダイムからデータ中心の研究パラダイムに変化したと何度も表明しています。データは AI の実装における最大の課題です。高品質のデータ供給をどのように確保するかが重要な問題であり、この問題を解決するには、MLOps のプラクティスとツールを使用して、AI を迅速、効率的、コスト効率よく実装できるようにする必要があります。
最近、51CTO が主催する AISummit グローバル人工知能テクノロジー カンファレンスで、Open Atomic Foundation の TOC 副会長 Tan Zhongyi が基調講演「モデル中心からデータ中心へ - MLOps は AI を支援します」と述べました。これは、MLOps の定義、MLOps で解決できる問題、一般的な MLOps プロジェクト、MLOps の機能と AI チームのレベルを評価する方法を参加者と共有することに重点を置いています。 皆さんにインスピレーションを与えていただければと思い、スピーチの内容を以下のように整理しました。
モデル中心からデータ中心へ
現在、AI業界には「モデル中心からデータ中心へ」というトレンドがあります。正確にはどういう意味ですか?科学と産業からの分析から始めましょう。
AI 科学者の Andrew NG は、現在の AI 実装の鍵はデータ品質をいかに向上させるかであると分析しました。- 業界のエンジニアやアナリストは、AI プロジェクトは失敗することが多いと報告しています。失敗の理由はさらに調査する価値があります。
- Andrew Ng はかつて「MLOps: モデル中心からデータ中心へ」というスピーチを共有し、シリコンバレーで大きな反響を呼びました。同氏は講演の中で、「AI = コードデータ」(コードにはモデルやアルゴリズムが含まれる)と考えており、コードではなくデータを改善することでAIシステムを改善すると述べた。
具体的には、モデル中心の手法が採用されています。これは、データを変更せずに、より多くのネットワーク層の使用やより多くのハイパーパラメータの調整など、モデルのアルゴリズムを継続的に調整することを意味し、データ中心の手法を使用することを意味します。つまり、モデルを変更せずに、データラベルの改善やデータ注釈の品質の向上など、データの品質を向上させます。
同じ AI の問題でも、コードを改善するのとデータを改善するのでは効果が全く異なります。
経験的証拠は、データ中心のアプローチによって精度を効果的に向上できることを示していますが、モデルの改善またはモデルの置き換えによって精度を向上できる範囲は非常に限られています。例えば、以下の鋼板の欠陥検出タスクでは、ベースラインの精度が76.2%でしたが、モデルの変更やパラメータの調整などを行っても精度はほとんど向上しませんでした。ただし、データセットの最適化により精度は 16.9% 向上しました。他のプロジェクトの経験もこれを証明しています。
# その理由は、データが想像以上に重要だからです。 「データは AI の食料である」ことは誰もが知っています。実際の AI アプリケーションでは、時間の約 80% がデータ関連コンテンツの処理に費やされ、残りの 20% がアルゴリズムの調整に使用されます。この工程は料理に似ていて、材料を準備し、さまざまな材料を加工し調整することに時間の80%が費やされますが、実際に調理するのはシェフが鍋に入れるまでの数分だけです。料理の美味しさを決める鍵は、素材とその加工にあると言えます。
- スケール: 大量のデータを読み取るのは課題です;
- 低レイテンシ: サービス提供中に高 QPS と低レイテンシの要件を満たす方法;
- データ変更はモデルの減衰を引き起こします :現実世界は常に変化しており、モデル効果の減衰にどう対処するか;
- タイムトラベル: 時系列特徴データの処理は問題を起こしやすい;
- トレーニング/サービングのスキュー: 使用されるデータトレーニングと予測が矛盾しています。
上記は、機械学習のデータに関連するいくつかの課題です。さらに、実生活では、リアルタイム データはさらに大きな課題を引き起こします。
では、企業の場合、AI を大規模に実装するにはどうすればよいでしょうか?大企業を例にとると、1,000 を超えるアプリケーション シナリオと 1,500 を超えるモデルが同時にオンラインで実行されている可能性があります。これほど多くのモデルをサポートするにはどうすればよいでしょうか? AI の「より多く、より速く、より優れた、より安価な」実装を技術的に実現するにはどうすればよいでしょうか?
多数: 主要なビジネス プロセスに関して複数のシナリオを実装する必要があり、その数は 1,000、大企業の場合は数万にも及ぶ場合があります。
高速: 各シーンの実装時間は短く、反復速度は速い必要があります。たとえば、推奨されるシナリオでは、フル トレーニングを 1 日に 1 回実行し、増分トレーニングを 15 分ごと、場合によっては 5 分ごとに実行する必要があることがよくあります。
良い点: 各シーンの着地効果は期待に応え、少なくとも実装前よりは改善されている必要があります。
節約: 各シナリオの実装コストは、予想どおり比較的経済的です。
「より多く、より速く、より良く、そしてより安く」を真に実現するには、MLOps が必要です。
従来のソフトウェア開発分野では、展開の遅さや品質の不安定などの同様の問題を DevOps を使用して解決しています。 DevOps により、ソフトウェアの開発と立ち上げの効率が大幅に向上し、最新のソフトウェアの迅速な反復と開発が促進されました。 AI システムの問題に直面した場合、DevOps 分野の成熟した経験から学び、MLOps を開発できます。したがって、図に示すように、「機械学習開発最新のソフトウェア開発」は MLOps になります。
MLOps とは正確には何ですか
現在、業界には MLOps についての標準定義はありません。
- ウィキペディアからの定義: MLOps は、本番環境で機械学習モデルを信頼性高く効率的にデプロイし、
維持することを目的とした一連のプラクティスです。 - Google Cloud からの定義: MLOps は、機械学習システムの開発と運用を統合するために設計された機械学習エンジニアリングの文化と実践です。
- Microsoft Azure の定義: MLOps は、データ サイエンティストやアプリケーション エンジニアが実稼働環境で機械学習モデルをより効果的にするのに役立ちます。
上記の記述は非常に複雑ですが、これについての私の個人的な理解は比較的単純です: MLOps は、「コード モデル データ」の継続的インテグレーション、継続的デプロイメント、継続的トレーニング、継続的モニタリングです。
(3) メッセージ キュー: リアルタイム データの受信に使用されます
(4) スケジューリング ツール: さまざまなリソース (コンピューティング/ストレージ) のスケジューリング
(5) フィーチャー ストア: 登録, さまざまな機能の発見と共有
(6) モデル ストア: モデルの機能
(7) 評価ストア: モデルのモニタリング/AB テスト
フィーチャー ストア,モデル ストアと評価ストアは、機械学習の分野における新しいアプリケーションとプラットフォームです。複数のモデルがオンラインで同時に実行されることがあるためです。迅速な反復を実現するには、反復をより効率的に行うために、この情報を保持する優れたインフラストラクチャが必要です。時代の要求に応じて、新しいアプリケーションや新しいプラットフォームが登場します。
MLOps のユニークなプロジェクト - Feature Store
次に、機能プラットフォームである Feature Store について簡単に説明します。機械学習の分野におけるユニークなプラットフォームとして、Feature Store には多くの機能があります。
まず、モデルのトレーニングと予測の要件を同時に満たす必要があります。フィーチャ データ ストレージ エンジンには、シナリオごとにまったく異なるアプリケーション要件があります。モデルのトレーニングには優れたスケーラビリティと大規模なストレージ スペースが必要で、リアルタイム予測には高性能と低遅延の要件を満たす必要があります。
第 2 に、トレーニング段階と予測段階での特徴処理間の不一致の問題を解決する必要があります。通常、AI サイエンティストはモデルのトレーニング中に Python スクリプトを使用し、その後 Spark または SparkSQL を使用して特徴処理を完了します。この種のトレーニングは遅延の影響を受けにくく、オンライン ビジネスを扱う場合には効率が低いため、エンジニアはより高性能な言語を使用して機能処理プロセスを翻訳します。ただし、翻訳プロセスは非常に面倒で、エンジニアはロジックが期待どおりかどうかを科学者に繰り返し確認する必要があります。少しでも期待と乖離がある限り、オンラインとオフラインの不一致という問題が生じます。
3 番目に、無駄を避けて効率的に共有するには、特徴処理における再利用の問題を解決する必要があります。企業の AI アプリケーションでは、この状況がよく発生します。同じ機能が異なるビジネス部門で使用され、データ ソースが同じログ ファイルから取得され、中間で行われる抽出ロジックも似ていますが、異なる部門にあるためです。または、別のシナリオで使用すると、再利用できません。これは、同じロジックが N 回実行されることに相当し、ログ ファイルが膨大になるため、ストレージ リソースとコンピューティング リソースが膨大に浪費されます。
要約すると、Feature Store は主に、高パフォーマンスの特徴ストレージとサービス、モデルのトレーニングとモデルの予測、特徴データの一貫性、特徴の再利用、その他の問題を解決するために使用されます。データ サイエンティストは、Feature Store をデプロイメントに使用できます。共有。
現在市場に流通している主流のフィーチャープラットフォーム製品は、大きく3つのカテゴリーに分類できます。
- 各 AI 企業は独自の研究を行っています。ビジネスでリアルタイムのトレーニングが必要である限り、これらの企業は基本的に、上記 3 つの問題を解決するために同様の機能プラットフォームを開発します。しかし、この機能プラットフォームはビジネスと深く結びついています。
- SAAS 製品、またはクラウド ベンダーが提供する機械学習プラットフォームの一部。例えば、AWSが提供するSageMaker、Googleが提供するVertex、Microsoftが提供するAzure機械学習プラットフォームなどです。ユーザーがさまざまな複雑な機能を管理しやすくするために、機械学習プラットフォームに機能プラットフォームが組み込まれます。
- いくつかのオープンソース製品と商用製品。いくつかの例を挙げると、オープン ソースのフィーチャー ストア製品である Feast、完全なオープン ソースの商用フィーチャー プラットフォーム製品を提供する Tecton、オープン ソースのフィーチャー ストア製品である OpenMLDB などがあります。
MLOps 成熟度モデル
成熟度モデルは、システムの機能目標と一連のルールを測定するために使用されます。DevOps の分野では、成熟度モデルはよく使用されます。企業の能力、DevOps 能力を評価します。 MLOps の分野にも対応する成熟度モデルがありますが、まだ標準化されていません。ここでは、MLOps に関する Azure の成熟度モデルを簡単に紹介します。
機械学習プロセス全体の自動化の程度に応じて、MLOps の成熟モデルは (0、1、2、3、4) のレベルに分割されます。そのうち 0 は自動化がないことを意味します。 (1,2,3) は部分的な自動化、4 は高度に自動化されています。
成熟度レベルは 0、つまり MLOps はありません。この段階は、データの準備が手動で行われ、モデルのトレーニングも手動で、モデル トレーニングの展開も手動で行われることを意味します。すべての作業は手動で行われるため、AI に関する革新的なパイロット プロジェクトを実行する一部のビジネス部門に適しています。
成熟度レベルは 1 です。つまり、DevOps はありますが、MLOps はありません。データの準備は自動的に行われますが、モデルのトレーニングは手動で行われます。科学者はデータを取得した後、完成するまでにさまざまな調整やトレーニングを行います。モデルのデプロイも手動で行われます。
成熟度レベルは 2 で、これは自動トレーニングです。モデルのトレーニングは自動的に完了します。つまり、データが更新された後、自動トレーニング用に同様のパイプラインがすぐに開始されますが、トレーニング結果の評価と起動は依然として手動で行われます。
成熟度レベルは 3 で、これは自動展開です。モデルの自動トレーニングが完了すると、モデルの評価と起動は手動介入なしで自動的に完了します。
成熟度レベルは 4 で、これは自動的な再トレーニングと展開を意味します。オンライン モデルを継続的に監視し、Model DK のオンライン モデルの機能が低下していることが判明した場合、自動的に繰り返しトレーニングをトリガーします。プロセス全体が完全に自動化されており、最も成熟したシステムと言えます。
さらにエキサイティングなコンテンツについては、カンファレンスの公式 Web サイトをご覧ください: クリックして表示
以上がTan Zhongyi: モデル中心からデータ中心の MLOps により、AI をより迅速かつコスト効率よく実装できるようになりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









このサイトは6月27日、JianyingはByteDanceの子会社であるFaceMeng Technologyによって開発されたビデオ編集ソフトウェアであり、Douyinプラットフォームに依存しており、基本的にプラットフォームのユーザー向けに短いビデオコンテンツを作成すると報告しました。 Windows、MacOS、その他のオペレーティング システム。 Jianyingは会員システムのアップグレードを正式に発表し、インテリジェント翻訳、インテリジェントハイライト、インテリジェントパッケージング、デジタルヒューマン合成などのさまざまなAIブラックテクノロジーを含む新しいSVIPを開始しました。価格的には、クリッピングSVIPの月額料金は79元、年会費は599元(当サイト注:月額49.9元に相当)、継続月額サブスクリプションは月額59元、継続年間サブスクリプションは、年間499元(月額41.6元に相当)です。さらに、カット担当者は、ユーザーエクスペリエンスを向上させるために、オリジナルのVIPに登録している人は、

検索強化生成およびセマンティック メモリを AI コーディング アシスタントに組み込むことで、開発者の生産性、効率、精度を向上させます。 JanakiramMSV 著者の EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG から翻訳。基本的な AI プログラミング アシスタントは当然役に立ちますが、ソフトウェア言語とソフトウェア作成の最も一般的なパターンに関する一般的な理解に依存しているため、最も適切で正しいコードの提案を提供できないことがよくあります。これらのコーディング アシスタントによって生成されたコードは、彼らが解決する責任を負っている問題の解決には適していますが、多くの場合、個々のチームのコーディング標準、規約、スタイルには準拠していません。これにより、コードがアプリケーションに受け入れられるように修正または調整する必要がある提案が得られることがよくあります。

AIGC について詳しくは、51CTOAI.x コミュニティ https://www.51cto.com/aigc/Translator|Jingyan Reviewer|Chonglou を参照してください。これらの質問は、インターネット上のどこでも見られる従来の質問バンクとは異なります。既成概念にとらわれずに考える必要があります。大規模言語モデル (LLM) は、データ サイエンス、生成人工知能 (GenAI)、および人工知能の分野でますます重要になっています。これらの複雑なアルゴリズムは人間のスキルを向上させ、多くの業界で効率とイノベーションを推進し、企業が競争力を維持するための鍵となります。 LLM は、自然言語処理、テキスト生成、音声認識、推奨システムなどの分野で幅広い用途に使用できます。 LLM は大量のデータから学習することでテキストを生成できます。

大規模言語モデル (LLM) は巨大なテキスト データベースでトレーニングされ、そこで大量の現実世界の知識を取得します。この知識はパラメータに組み込まれており、必要なときに使用できます。これらのモデルの知識は、トレーニングの終了時に「具体化」されます。事前トレーニングの終了時に、モデルは実際に学習を停止します。モデルを調整または微調整して、この知識を活用し、ユーザーの質問により自然に応答する方法を学びます。ただし、モデルの知識だけでは不十分な場合があり、モデルは RAG を通じて外部コンテンツにアクセスできますが、微調整を通じてモデルを新しいドメインに適応させることが有益であると考えられます。この微調整は、ヒューマン アノテーターまたは他の LLM 作成物からの入力を使用して実行され、モデルは追加の実世界の知識に遭遇し、それを統合します。

編集者 |ScienceAI 質問応答 (QA) データセットは、自然言語処理 (NLP) 研究を促進する上で重要な役割を果たします。高品質の QA データ セットは、モデルの微調整に使用できるだけでなく、大規模言語モデル (LLM) の機能、特に科学的知識を理解し推論する能力を効果的に評価することもできます。現在、医学、化学、生物学、その他の分野をカバーする多くの科学 QA データ セットがありますが、これらのデータ セットにはまだいくつかの欠点があります。まず、データ形式は比較的単純で、そのほとんどが多肢選択式の質問であり、評価は簡単ですが、モデルの回答選択範囲が制限され、科学的な質問に回答するモデルの能力を完全にテストすることはできません。対照的に、自由回答型の Q&A

機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

編集者 | KX 医薬品の研究開発の分野では、タンパク質とリガンドの結合親和性を正確かつ効果的に予測することが、医薬品のスクリーニングと最適化にとって重要です。しかし、現在の研究では、タンパク質とリガンドの相互作用における分子表面情報の重要な役割が考慮されていません。これに基づいて、アモイ大学の研究者らは、初めてタンパク質の表面、3D 構造、配列に関する情報を組み合わせ、クロスアテンション メカニズムを使用して異なるモダリティの特徴を比較する、新しいマルチモーダル特徴抽出 (MFE) フレームワークを提案しました。アライメント。実験結果は、この方法がタンパク質-リガンド結合親和性の予測において最先端の性能を達成することを実証しています。さらに、アブレーション研究は、この枠組み内でのタンパク質表面情報と多峰性特徴の位置合わせの有効性と必要性を実証しています。 「S」で始まる関連研究

7月5日のこのウェブサイトのニュースによると、グローバルファウンドリーズは今年7月1日にプレスリリースを発行し、自動車とインターネットでの市場シェア拡大を目指してタゴール・テクノロジーのパワー窒化ガリウム(GaN)技術と知的財産ポートフォリオを買収したことを発表した。モノと人工知能データセンターのアプリケーション分野で、より高い効率とより優れたパフォーマンスを探求します。生成 AI などのテクノロジーがデジタル世界で発展を続ける中、窒化ガリウム (GaN) は、特にデータセンターにおいて、持続可能で効率的な電力管理のための重要なソリューションとなっています。このウェブサイトは、この買収中にタゴール・テクノロジーのエンジニアリングチームがGLOBALFOUNDRIESに加わり、窒化ガリウム技術をさらに開発するという公式発表を引用した。 G
