CRISP-ML(Q) の解釈: 機械学習ライフサイクル プロセス
翻訳者 | Bugatti
レビュアー | Sun Shujuan
現在、機械学習 (ML) アプリケーションを構築および管理するための標準的な実践方法はありません。機械学習プロジェクトは組織化が不十分で再現性に欠け、長期的には完全に失敗する傾向があります。したがって、機械学習のライフサイクル全体を通じて、品質、持続可能性、堅牢性、コスト管理を維持するためのプロセスが必要です。
図 1. 機械学習開発ライフサイクル プロセス
品質保証手法 (CRISP-ML(Q ) を使用して機械学習アプリケーションを開発するための業界を超えた標準プロセス) ) は、機械学習製品の品質を保証するための CRISP-DM のアップグレード バージョンです。
CRISP-ML (Q) には 6 つの個別のフェーズがあります:
1. ビジネスとデータの理解
2. データの準備
3. モデル エンジニアリング
4. モデルの評価
5. モデルの展開
6. モニタリングとメンテナンス
これらの段階では、より良いソリューションを構築するために継続的な反復と探索が必要です。フレームワークに順序がある場合でも、後のステージの出力によって、前のステージを再検討する必要があるかどうかが決まる可能性があります。
図 2. 各段階での品質保証
品質保証手法がフレームワークの各段階に導入されています。このアプローチには、パフォーマンス指標、データ品質要件、堅牢性などの要件と制約があります。これは、機械学習アプリケーションの成功に影響を与えるリスクを軽減するのに役立ちます。これは、システム全体を継続的に監視し、保守することで実現できます。
例: 電子商取引企業では、データとコンセプトのドリフトがモデルの劣化につながります。これらの変化を監視するシステムを導入しない場合、企業は損失、つまり顧客を失うことになります。
ビジネスとデータの理解
開発プロセスの開始時に、プロジェクトの範囲、成功基準、ML アプリケーションの実現可能性を決定する必要があります。その後、データ収集と品質検証のプロセスを開始しました。このプロセスは長く、困難を伴います。
対象範囲: 機械学習プロセスを使用して達成したいこと。顧客を維持するためでしょうか、それとも自動化によって運用コストを削減するためでしょうか?
成功基準: ビジネス、機械学習 (統計指標)、および経済 (KPI) の成功指標を明確で測定可能に定義する必要があります。
実現可能性: データの可用性、機械学習アプリケーションへの適合性、法的制約、堅牢性、スケーラビリティ、解釈可能性、リソース要件を確保する必要があります。
データ収集: データを収集し、再現性のためにバージョン管理し、実際のデータと生成されたデータの継続的なフローを確保します。
データ品質検証: データの説明、要件、検証を維持することで品質を確保します。
品質と再現性を確保するには、データの統計的特性とデータ生成プロセスを記録する必要があります。
データの準備
第 2 段階は非常に簡単です。モデリングフェーズに向けてデータを準備します。これには、データ選択、データ クリーニング、特徴エンジニアリング、データ拡張および正規化が含まれます。
1. 特徴の選択、データの選択、およびオーバーサンプリングまたはアンダーサンプリングによる不均衡なクラスの処理から始めます。
2. 次に、ノイズの削減と欠損値の処理に重点を置きます。品質保証の目的で、誤った値を減らすためにデータ単体テストを追加します。
3. モデルに応じて、ワンホット エンコーディングやクラスタリングなどの特徴エンジニアリングとデータ拡張を実行します。
4. データを正規化して拡張します。これにより、特徴に偏りが生じるリスクが軽減されます。
再現性を確保するために、データ モデリング、変換、および特徴量エンジニアリングのパイプラインを作成しました。
モデル エンジニアリング
ビジネスおよびデータ理解フェーズの制約と要件によって、モデリング フェーズが決まります。私たちはビジネス上の問題と、それを解決するための機械学習モデルをどのように開発するかを理解する必要があります。私たちはモデルの選択、最適化、トレーニングに重点を置き、モデルのパフォーマンス指標、堅牢性、スケーラビリティ、解釈可能性を確保し、ストレージとコンピューティング リソースを最適化します。
1. モデル アーキテクチャおよび同様のビジネス上の問題に関する調査。
2. モデルのパフォーマンス指標を定義します。
3. モデルの選択。
4. 専門家を統合することでドメインの知識を理解します。
5. モデルのトレーニング。
6. モデルの圧縮と統合。
品質と再現性を確保するために、モデル アーキテクチャ、トレーニングおよび検証データ、ハイパーパラメーター、環境記述などのモデル メタデータを保存し、バージョン管理します。
最後に、ML 実験を追跡し、ML パイプラインを作成して、反復可能なトレーニング プロセスを作成します。
モデル評価
これは、モデルをテストして展開の準備ができていることを確認する段階です。
- テスト データ セットでモデルのパフォーマンスをテストします。
- ランダムまたは偽のデータを提供してモデルの堅牢性を評価します。
- 規制要件を満たすためにモデルの解釈可能性を強化します。
- 自動的に、またはドメインの専門家が協力して、結果を初期の成功指標と比較します。
評価フェーズのすべてのステップは、品質保証のために文書化されます。
モデルのデプロイメント
モデルのデプロイメントは、機械学習モデルを既存のシステムに統合する段階です。このモデルは、サーバー、ブラウザ、ソフトウェア、エッジ デバイスに展開できます。モデルからの予測は、BI ダッシュボード、API、Web アプリケーション、プラグインで利用できます。
モデル展開プロセス:
- ハードウェア推論を定義します。
- 実稼働環境でのモデルの評価。
- ユーザーの受け入れやすさと使いやすさを確保します。
- 損失を最小限に抑えるためのバックアップ計画を提供します。
- 導入戦略。
監視とメンテナンス
運用環境のモデルには、継続的な監視とメンテナンスが必要です。モデルの適時性、ハードウェアのパフォーマンス、ソフトウェアのパフォーマンスを監視します。
継続的なモニタリングはプロセスの最初の部分です。パフォーマンスがしきい値を下回った場合、新しいデータでモデルを再トレーニングするかどうかが自動的に決定されます。さらに、メンテナンス部分はモデルの再トレーニングに限定されません。それには、ビジネス ユースケースに基づいた意思決定メカニズム、新しいデータの取得、ソフトウェアとハードウェアの更新、ML プロセスの改善が必要です。
つまり、ML モデルの継続的な統合、トレーニング、デプロイです。
結論
モデルのトレーニングと検証は、ML アプリケーションのごく一部です。最初のアイデアを現実にするには、いくつかのプロセスが必要です。この記事では、CRISP-ML(Q) と、CRISP-ML(Q) がリスク評価と品質保証にどのように重点を置いているかを紹介します。
最初にビジネス目標を定義し、データを収集してクリーンアップし、モデルを構築し、テスト データ セットでモデルを検証してから、実稼働環境にデプロイします。
このフレームワークの主要なコンポーネントは、継続的な監視とメンテナンスです。データとソフトウェアおよびハードウェアのメトリクスを監視して、モデルを再トレーニングするかシステムをアップグレードするかを決定します。
機械学習の運用が初めてで、さらに詳しく知りたい場合は、DataTalks.Club によってレビューされた 無料の MLOps コース をお読みください。 6 つのフェーズすべてで実践的な経験を積み、CRISP-ML の実際的な実装を理解します。
元のタイトル: CRISP-ML(Q) の理解: 機械学習ライフサイクル プロセス ,著者: アビッド・アリ・アワン
以上がCRISP-ML(Q) の解釈: 機械学習ライフサイクル プロセスの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









機械学習は人工知能の重要な分野であり、明示的にプログラムしなくてもコンピューターにデータから学習して能力を向上させる機能を提供します。機械学習は、画像認識や自然言語処理から、レコメンデーションシステムや不正行為検出に至るまで、さまざまな分野で幅広く応用されており、私たちの生活様式を変えつつあります。機械学習の分野にはさまざまな手法や理論があり、その中で最も影響力のある 5 つの手法は「機械学習の 5 つの流派」と呼ばれています。 5 つの主要な学派は、象徴学派、コネクショニスト学派、進化学派、ベイジアン学派、およびアナロジー学派です。 1. 象徴主義は、象徴主義とも呼ばれ、論理的推論と知識の表現のためのシンボルの使用を強調します。この学派は、学習は既存の既存の要素を介した逆演繹のプロセスであると信じています。

先週、社内の辞任と社外からの批判が相次ぐ中、OpenAIは内外のトラブルに見舞われた。 - 未亡人姉妹への侵害が世界中で白熱した議論を巻き起こした - 「覇権条項」に署名した従業員が次々と暴露 - ネットユーザーがウルトラマンの「」をリストアップ噂の払拭: Vox が入手した漏洩情報と文書によると、アルトマンを含む OpenAI の上級幹部はこれらの株式回収条項をよく認識しており、承認しました。さらに、OpenAI には、AI セキュリティという深刻かつ緊急の課題が直面しています。最近、最も著名な従業員2名を含むセキュリティ関連従業員5名が退職し、「Super Alignment」チームが解散したことで、OpenAIのセキュリティ問題が再び注目を集めている。フォーチュン誌は OpenA を報じた。

Java フレームワークの商用サポートのコスト/パフォーマンスを評価するには、次の手順が必要です。 必要な保証レベルとサービス レベル アグリーメント (SLA) 保証を決定します。研究サポートチームの経験と専門知識。アップグレード、トラブルシューティング、パフォーマンスの最適化などの追加サービスを検討してください。ビジネス サポートのコストと、リスクの軽減と効率の向上を比較検討します。

70B モデルでは、数秒で 1,000 個のトークンを生成でき、これはほぼ 4,000 文字に相当します。研究者らは Llama3 を微調整し、高速化アルゴリズムを導入しました。ネイティブ バージョンと比較して、速度は 13 倍高速になりました。速いだけでなく、コード書き換えタスクのパフォーマンスは GPT-4o をも上回ります。この成果は、人気の AI プログラミング成果物 Cursor を開発したチーム、anysphere によるもので、OpenAI も投資に参加しました。有名な高速推論アクセラレーション フレームワークである Groq では、70BLlama3 の推論速度は 1 秒あたり 300 トークンを超える程度であることを知っておく必要があります。 Cursor の速度により、ほぼ瞬時に完全なコード ファイル編集を実現すると言えます。カースと言うと良い奴だと言う人もいる

PHP フレームワークの学習曲線は、言語熟練度、フレームワークの複雑さ、ドキュメントの品質、コミュニティのサポートによって異なります。 PHP フレームワークの学習曲線は、Python フレームワークと比較すると高く、Ruby フレームワークと比較すると低くなります。 Java フレームワークと比較すると、PHP フレームワークの学習曲線は中程度ですが、開始までの時間は短くなります。

軽量の PHP フレームワークは、サイズが小さくリソース消費が少ないため、アプリケーションのパフォーマンスが向上します。その特徴には、小型、高速起動、低メモリ使用量、改善された応答速度とスループット、および削減されたリソース消費が含まれます。 実際のケース: SlimFramework は、わずか 500 KB、高い応答性と高スループットの REST API を作成します。

人工知能と機械学習の分野における Go コルーチンのアプリケーションには、リアルタイムのトレーニングと予測、パフォーマンスを向上させるためのタスクの並列処理が含まれます。並列ハイパーパラメータ最適化: さまざまな設定を同時に探索して、トレーニングを高速化します。分散コンピューティング: タスクを簡単に分散し、クラウドまたはクラスターを活用します。

6月26日のニュースによると、2024年世界移動通信会議上海(MWC上海)の開会式で、チャイナモバイル会長の楊潔氏がスピーチを行った。現在、人類社会は情報が支配し、情報とエネルギーが深く融合する第4次産業革命、すなわち「デジタルインテリジェンス革命」を迎えており、新たな生産力の形成が加速していると述べた。楊潔氏は、蒸気機関による「機械化革命」から、電気や内燃機関による「電化革命」、コンピューターやインターネットによる「情報革命」に至るまで、各段階の産業革命は、 「情報」と「エネルギー」が生産性向上をもたらす幹線
