翻訳者|Zhang Yi
改訂|Liang Ce Sun Shujuan
IDO(洞察駆動型組織)とは、洞察駆動型(情報指向)の組織を指します。 IDO になるには、まずデータと、データを操作および分析するためのツールが必要です。次に、適切な経験を持つデータ アナリストまたはデータ サイエンティストが必要です。最後に、洞察に基づく意思決定を実装するためのテクノロジーまたは方法を見つける必要があります。会社全体のプロセスです。
機械学習は、データの利点を最大限に活用できる技術です。 ML プロセスでは、まずデータを使用して予測モデルをトレーニングし、トレーニングが成功した後にデータ関連の問題を解決します。その中で、人工ニューラル ネットワークは最も効果的なテクノロジーであり、その設計は人間の脳がどのように機能するかについての現在の理解に基づいています。現在、人々が自由に使える膨大なコンピューティング リソースを考慮すると、大量のデータでトレーニングされた信じられないほどのモデルを生成できます。
企業は、人的エラーを避けるために、さまざまなセルフサービス ソフトウェアやスクリプトを使用してさまざまなタスクを完了できます。同様に、人的エラーを避けるためにデータに基づいて意思決定を行うことができます。
データ処理に人工知能または機械学習を使用している企業は少数です。米国勢調査局は、2020年の時点で機械学習を導入している米国企業は10%未満(ほとんどが大企業)だと発表した。
ML 導入の障壁は次のとおりです。
自動 ML プラットフォームには明るい未来がありますが、現在その対象範囲はかなり限られています。自動化された ML が近いうちにデータ サイエンティストに取って代わるかどうかについても議論があります。
セルフサービス機械学習を社内にうまく導入したい場合、AutoML ツールは確かに重要ですが、プロセス、方法、戦略にも注意を払う必要があります。 AutoML プラットフォームは単なるツールであり、ほとんどの ML 専門家は、これでは十分ではないと考えています。
あらゆる ML プロセスはデータから始まります。データの準備が ML プロセスの最も重要な側面であり、モデリング部分はデータ パイプライン全体の一部にすぎず、AutoML ツールによって簡素化されることが一般的に受け入れられています。完全なワークフローでは、データを変換してモデルにフィードするために、依然として多くの作業が必要です。データの準備とデータ変換は、仕事の中で最も時間がかかり、不快な部分になる可能性があります。
さらに、ML モデルのトレーニングに使用されるビジネス データも定期的に更新されます。したがって、企業は複雑なツールやプロセスを使いこなすことができる複雑な ETL パイプラインを構築する必要があるため、ML プロセスの継続性とリアルタイム性を確保することも困難な作業となります。
ML モデルを構築し、それをデプロイする必要があると仮定します。従来のデプロイメント アプローチでは、以下に示すように、これをアプリケーション層コンポーネントとして扱います。
その入力はデータであり、その出力は取得した予測です。これらのアプリケーションの API を統合することで、ML モデルの出力を利用します。開発者の観点から見るとこれはすべて簡単に思えますが、プロセスを考えるとそうではありません。大規模な組織では、ビジネス アプリケーションとの統合とメンテナンスが非常に面倒になることがあります。企業がテクノロジーに精通している場合でも、コード変更のリクエストは複数のレベルの部門にわたる特定のレビューとテストのプロセスを通過する必要があります。これは柔軟性に悪影響を及ぼし、ワークフロー全体の複雑さを増大させます。
さまざまな概念やアイデアをテストする際に十分な柔軟性があれば、ML ベースの意思決定がはるかに容易になるため、人々はセルフサービス機能を備えた製品を好むようになるでしょう。
上で見たように、データは ML プロセスの中核であり、既存の ML ツールはデータを取得して予測を返し、これらの予測はそれはデータの形式でもあります。
ここで疑問が生じます:
上記の問題とその課題を分析してみましょう。 ML ソリューションを見つけます。
ML モデルとデータベース間の複雑なデータ統合と ETL パイプラインを維持することは、ML プロセスが直面する最大の課題の 1 つです。
SQL は優れたデータ操作ツールであるため、ML モデルをデータ層に導入することでこの問題を解決できます。つまり、ML モデルはデータベースで学習し、予測を返します。
API を介して ML モデルとビジネス アプリケーションを統合することも、直面している課題です。
ビジネス アプリケーションと BI ツールはデータベースと密接に結合されています。したがって、AutoML ツールがデータベースの一部になれば、標準 SQL 構文を使用して予測を行うことができます。次に、モデルはデータベース内に存在するため、ML モデルとビジネス アプリケーション間の API 統合は不要になります。
AutoML ツールをデータベースに埋め込むと、次のような多くのメリットが得られます。
このようにして、上記の比較的複雑な統合図は次のように変更されます。
見た目がよりシンプルになり、ML プロセスがよりスムーズかつ効率的になります。 . .
ソリューションを見つけるための次のステップは、それを実装することです。
これを行うには、AI テーブルと呼ばれる構造を使用します。これは、仮想テーブルの形式でデータ プラットフォームに機械学習をもたらします。他のデータベース テーブルと同様に作成し、アプリケーション、BI ツール、DB クライアントに公開できます。データをクエリするだけで予測を行います。
AI Tables はもともと MindsDB によって開発され、オープンソースまたはマネージド クラウド サービスとして利用できます。これらは、Kafka や Redis などの従来の SQL データベースと NoSQL データベースを統合します。
AI テーブルの概念により、データベース内で ML プロセスを実行できるようになり、ML プロセスのすべてのステップ (つまり、データの準備、モデルのトレーニング、予測) を実行できるようになります。データベースにすることができます。
まず、ユーザーは独自のニーズに従って AI テーブルを作成する必要があります。これは機械学習モデルに似ており、ソース テーブルの列が含まれています。などの機能を追加し、残りのモデリング タスクを AutoML エンジンを通じて単独で完了します。例は後で示します。
AI テーブルが作成されると、それ以上の展開を行わなくても使用できるようになります。予測を行うには、AI テーブルに対して標準 SQL クエリを実行するだけです。
予測は 1 つずつまたはバッチで行うことができます。 AI テーブルは、多変量時系列、異常の検出など、多くの複雑な機械学習タスクを処理できます。
小売業者にとって、適切なタイミングで製品の在庫を確保することは複雑な作業です。需要が増えると供給も増えます。このデータと機械学習に基づいて、特定の商品が特定の日にどのくらいの在庫を持つべきかを予測することができ、その結果、小売業者の収益が増加します。
最初に、次の情報を追跡し、AI テーブルを作成する必要があります:
以下に示すように:
AI テーブルを作成してトレーニングするには、まず MindsDB がデータにアクセスできるようにする必要があります。詳細な手順については、MindsDB のドキュメントを参照してください。
AI テーブルは ML モデルのようなもので、トレーニングするには履歴データが必要です。
次の例では、単純な SQL コマンドを使用して AITable をトレーニングしています:
このクエリを分析してみましょう:
同時に、各予測の全体的な精度と信頼性を確認し、結果にとってどの列 (特徴) がより重要であるかを推定することができます。
データベースでは、カーディナリティの高い多変量時系列データを含むタスクを処理する必要があることがよくあります。従来の方法を使用してこのような ML モデルを作成するには、かなりの労力が必要です。データをグループ化し、特定の時刻、日付、またはタイムスタンプ データ フィールドに基づいて並べ替える必要があります。
たとえば、金物店で販売されるハンマーの数を予測します。データは店舗と製品ごとにグループ化されており、さまざまな店舗と製品の組み合わせごとに予測が行われます。これにより、各グループの時系列モデルを作成するという問題が生じます。
これは大規模なプロジェクトのように聞こえますが、MindsDB は、GROUP BY ステートメントを使用して単一の ML モデルを作成し、多変量時系列データを一度にトレーニングする方法を提供します。たった 1 つの SQL コマンドを使用してそれがどのように行われるかを見てみましょう:
stock_forecaster 予測子は、特定の店舗が将来販売するアイテムの数を予測するために作成されます。データは発売日順に並べ替えられ、店舗ごとにグループ化されています。したがって、各店舗の売上高を予測することができます。
次のクエリを使用して売上データ テーブルを予測子に接続すると、JOIN 操作によって予測数量がレコードに追加されるため、一度に多数の数量を取得できます。バッチ予測を記録しました。
BI ツールでの予測の分析と視覚化について詳しくは、この記事をご覧ください。
従来のアプローチでは、ML モデルを独立したアプリケーションとして扱い、データベースへの ETL パイプラインとビジネス アプリケーションへの API 統合のメンテナンスが必要です。 AutoML ツールを使用すると、モデリング部分が簡単かつ簡単になりますが、完全な ML ワークフローを管理するには、依然として経験豊富な専門家が必要です。実際、データベースはすでにデータ準備に好まれているツールであるため、ML にデータを導入するよりも、データベースに ML を導入する方が合理的です。 AutoML ツールはデータベース内に存在するため、MindsDB から構築された AI Tables はデータ実務者にセルフサービス AutoML を提供し、機械学習ワークフローを合理化します。
元のリンク: https://dzone.com/articles/self-service-machine-learning-with-intelligent-dat
Zhang Yi、51CTO コミュニティ編集者、中級エンジニア。主に人工知能アルゴリズムとシナリオアプリケーションの実装を研究し、機械学習アルゴリズムと自動制御アルゴリズムを理解して熟知しており、国内外の人工知能技術の開発動向、特に人工知能の応用に引き続き注目していきます。インテリジェント コネクテッド カーやスマート ホームにおけるインテリジェンス テクノロジー、他の分野での具体的な実装と応用。
以上がスマートデータベースに基づくセルフサービス機械学習の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。