人工知能と機械学習のブレークスルーは、過去 20 年間で最もエキサイティングなトピックの 2 つです。機械学習およびデータ サイエンスのエンジニアは、モデルを効果的に理解して実行するには、広範な調査と多大な労力を必要とします。
個人によって異なる場合がありますが、従来の機械学習のステップには次のものが含まれます:
機械学習モデルを構築する場合、8 つのステップはそれほど多くないように思えるかもしれませんが、上記のステップから始めて完成させるにはかなりの時間がかかります。
機械学習の専門家ではない専門家がこれらのステップを初めて実行する場合、問題はさらに悪化します。プロセスが完了するまでにより多くの時間とリソースがかかることが多く、それでも最終結果が期待と一致しない可能性があります。
AutoML は、専門家にも非専門家にもモデル作成プロセスの多くを自動化するので便利です。
自動機械学習 (AutoML とも呼ばれます) を使用すると、機械学習が簡単になります。 AutoML は、特定のフレームワークによって実行される自動処理を使用して、機械学習の専門家でなくても機械学習にアクセスしやすくします。
人工知能の研究を加速し、機械学習モデルの効率を向上させることに重点を置いています。
従来の機械学習プロセスは、前述の 8 つのステップすべてに焦点を当てていますが、AutoML は次の 2 つのステップをカバーします:
データ探索、データ準備、特徴量エンジニアリング、モデル選択、モデル トレーニング、最終モデル調整のフレームワークは、他の 6 つのステップをカバーします。
AutoML とは何かについて説明し、その利点のいくつかを理解したところで、次は上位 10 個の AutoML フレームワークと、それらがどこで見つけられ、どのような機能を提供するかを説明します。
Google AutoML は利用可能な最も有名なフレームワークの 1 つであり、リストの 1 位にランクされています。 Google は、Google AutoML ビジョン、Google AutoML Natural Language など、多くの AutoML フレームワークを発表しました。
これまでに機械学習に触れたことのあるユーザーは、SKlearn という名前に精通しているかもしれません。人気の sci-kit-learn ライブラリ へのアドオンとして、Auto SKLearn は、機械学習タスクの自動化を処理するオープンソースの機械学習フレームワークです。
Auto Sklearn フレームワークのユニークな機能は、モデルの選択、ハイパーパラメーターの調整、および特性評価を実行できることです。
モデル選択を実行すると、Auto SKlearn はユーザーが指定した問題を処理できる最適なアルゴリズムを自動的に検索します。
Auto SKlearn の 2 番目の機能に進むと、ハイパーパラメーターの調整があります。機械または深層学習モデルの最終ステップの 1 つとして、ユーザーは結果を最適化するための最適なモデル パラメーターを見つける必要があります。このタスクには多くの時間がかかりますが、このようなフレームワークを通じて簡単に自動化できます。
Auto SKlearn を使用することのユニークかつ最大の利点は、自動特性評価を実行できることです。 特性化は、生データを使用可能な情報に変換するプロセスです。
TPOT (ツリー パイプライン最適化ツールとも呼ばれる) は、最も初期の Python オープン ソース autoML ソフトウェア パッケージの 1 つです。遺伝的プログラミングを使用した機械学習パイプラインの最適化に焦点を当てています。
TPOT の主な目標は、パイプラインの柔軟な式ツリー表現と遺伝的プログラミングなどの確率的検索アルゴリズムを組み合わせて、ML パイプラインを自動的に構築することです。
TPOT は sci-kit-learn ライブラリ 上で動作するため、最初にインストールする必要があることに注意してください。
AutoKeras は、AutoML および深層学習モデル用に構築されたオープン ソース ライブラリで、もともと DATA Labs によって開発されました。
Auto Keras は、機械学習や深層学習の専門家ではないユーザーが最小限の労力でモデルを実行およびトレーニングできるように支援します。 Auto Keras は、機械学習を誰でも利用できるようにすることを目指しており、初心者にとって優れたツールです
Ludwig は、シンプルな構成ファイル システムを使用した深層学習モデルの組み立てとトレーニングに重点を置いたオープンソースの autoML フレームワークです。
特定のモデルの入力と出力、およびそれぞれのデータ型を定義する構成ファイルをユーザーが提供できるようにすることで、Ludwig フレームワークはこのデータを活用して、前述のプロパティに基づいて深層学習モデルを構築します。
MLBOX は人気が上昇しており、急速にトップの自動機械学習フレームワーク ツールの 1 つになりつつあります。
MLBOX 公式ドキュメントによると、次の利点があります:
AutoGloun自動化スタックの統合、深層学習、画像、テキスト、およびデータ全体にわたる自動化に焦点を当てた、機械学習の専門家および非専門家向け表形式データの実世界のアプリケーション。
AutoGloun オンライン ドキュメントによると、AutoGLoun を使用するとユーザーは次のことが可能になります。
わずか数行のコードで、生データ用のディープ ラーニングおよびクラシック ML ソリューションを迅速に構築できます。コードのプロトタイプ。(NNI とも呼ばれる) は、深層学習用に設計されたツールキットであり、特徴量エンジニアリングを自動化します。 、ニューラル アーキテクチャの検索、ハイパーパラメーターの調整、モデルの圧縮。 NNI ツールは、PyTorch、TensorFlow、Scikit-learn、XGBoost、LightGBM およびその他のフレームワークをサポートしています。 Microsoft Neural Network を使用する主な利点は、ニューラル アーキテクチャの検索です。NNI ツールは、マルチトレイル (グリッド検索、正規化進化、ポリシーベースの IRL など) およびワンショット (DARTS、ENAS FBNet など) のニューラル アーキテクチャ検索をサポートします。 。
このツールは、ベイジアン最適化、網羅的検索、ヒューリスティック検索など、さまざまなハイパーパラメーター調整アルゴリズムを提供します。このツールが提供するその他の機能の詳細については、Github にある NNI の
Readmeファイルを確認してください。 9. Transmogrif
TransmogrifAIは、開発者が機械学習の生産性を向上できるように設計されています。 TransmogrifAI は Apache Spark 上で実行されます。 Transmogrif の Github Readme で簡単に説明されているように、
「自動化を使用すると、モデルを手動で調整する場合に近い精度を達成でき、時間はほぼ 100 分の 1 に短縮されます。」前述の他の autoML フレームワークと同様、TransmogrifAI ツールは、ユーザーが選択したデータセットに最適なアルゴリズムを選択できます。
10. H2O 自動機械学習
H2O autoMLは、H2O によって作成されたオープン ソース フレームワーク ツールで、R と Python プログラミングの両方をサポートします。 また、勾配ブースティング マシン、一般化線形モデル、深層学習など、最も広く使用されている統計および機械学習アルゴリズムもサポートしています。
H2O autoML インターフェイスは、必要なパラメータをできる限り少なくすることで、新しい機械学習ユーザーに対応します。 H2O ツールを使用する場合のユーザーの主なタスクは、データセットを提供することです。
その他の便利な AutoML ツール
は、モデルの指定されたハイパーパラメーターを使用して軽量パッケージを使用して最適化されるように設計された軽量ツールです。これらはモジュール式でシンプルかつ拡張可能で、シームレスなスケジューリングの実装が可能です。 Hypertunity は、GPyOpt を使用したベイジアン最適化、Slurm 互換スケジューラー、および Tensorboard (HParams プラグイン経由) を使用したリアルタイム視覚化をサポートします。
2. Dragonfly
Dragonflyは、スケーラブルなベイジアン最適化のために設計されたオープンソースの autoML ツールです。 ベイジアン最適化は、通常の最適化を超えて非常に高価なブラックボックス関数を評価するために使用されます。
Dragonfly を使用すると、新規ユーザーは最小限の知識でスケーラブルなベイジアン最適化エラーを解決できます。
3. Ray Tune
は、AI および Python アプリケーションをスケーリングするための統合フレームワークです。 分散データ処理、分散トレーニング、スケーラブルなハイパーパラメータ調整、スケーラブルな強化学習、およびスケーラブルなプログラマブル サービスを通じて、シンプルな AI ワークロードのスケーリングを可能にします。
Auto Graph Learning は、グラフ データセットの機械学習に焦点を当てた、非常に簡単かつシンプルな独自の autoML フレームワークです。
彼らは、データセットを使用して、Pytorch ジオメトリックまたはディープ グラフ ライブラリのデータセットに基づくグラフベースの機械学習用のデータセットを維持します。
機械学習と深層学習の分野が進歩するにつれて、機械学習の専門家のニーズは大幅に増加していますが、依然として満たされていません。
ここで機械学習ツールと技術の自動化が登場し、新しいユーザーが完全に機能し、高度に最適化されたモデルをこれまでより簡単に構築できるようになります。
つまり、完璧な自動機械学習ツールを探すときは、特定のモデルで何を達成しようとしているのか、そして機械学習プロセスのうち自動化したい正確な部分に焦点を当てる必要があります。上記の autoML ツールのいくつかを自分で試して、効率的で使いやすいと思うものだけを使用することをお勧めします。
以上がAutoML 用の 10 個の GitHub リポジトリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。