一般的に使用される機械学習ライブラリを Python で分析する-Python チュートリアル-php.cn

Python は、コンピュータービジョン、人工知能、数学、天文学などの科学コンピューティングで広く使用されています。それが機械学習にも当てはまるのも不思議ではありません。

この記事では、Python の最も便利な機械学習ツールとライブラリをリストして説明します。このリストでは、Pythonインターフェースを備えている限り、これらのライブラリを Python で記述する必要はありません。

私たちの目的は、Python のすべての機械学習ライブラリをリストすることではなく (Python パッケージ index(PyPI) を使用した場合、searching「machine learning」で 139 件の結果が返されました)、むしろ有用であるとわかっているものをリストすることです。そしてよく維持されているもの。

また、一部のモジュールはさまざまな機械学習タスクに使用できますが、ここでは機械学習に主な焦点を当てたライブラリのみをリストします。たとえば、Scipy1 にはいくつかのクラスタリングアルゴリズムが含まれていますが、主な焦点は機械学習ではなく、包括的な科学計算ツールセットです。したがって、Scipy は除外します (ただし、Scipy も使用しています!)。

もう 1 つ言及しておきたいのは、機械学習 (教師ありまたは教師なし) もデータ処理システムの一部であるため、これらのライブラリを他の科学計算ライブラリとの統合に基づいて評価することです。使用するライブラリがデータ処理システムの残りの部分と一致しない場合、異なるライブラリ間の中間層の作成に多くの時間を費やすことになります。ツールセットに優れたライブラリを含めることは重要ですが、ライブラリが他のライブラリと適切に統合されることも同様に重要です。

他の言語は得意だが、Python パッケージも使用したい場合は、この記事にリストされているライブラリを使用するために Python と統合する方法についても簡単に説明します。

Scikit-Learn

Scikit Learn7 は、CB Insights で使用する機械学習ツールです。これは、分類、特徴の選択、特徴の抽出、および集計に使用されます。

私たちが最も気に入っている点は、一貫性があり、使いやすい API を備えており、すぐに利用できる**たくさん**の評価、診断、相互検証メソッドを提供していることです (聞き覚えがあるでしょうか? Python には、「バッテリーの準備ができています」メソッド)。さらに素晴らしいのは、内部で Scipy データ構造を使用していることです。これは、科学計算に Scipy、Numpy、Pandas、および Matplotlib を使用する Python の残りの部分とよく適合します。

そのため、分類器のパフォーマンスを視覚化したい場合 (たとえば、適合率-再現率グラフや受信者動作特性 (ROC) 曲線を使用)、Matplotlib を使用すると、迅速な視覚化に役立ちます。

データのクリーニングと構造化に費やす時間を考慮すると、このライブラリを使用すると、他の科学計算パッケージと緊密に統合できるため、非常に便利です。

さらに、限定的な自然言語処理特徴抽出機能、バッグオブワード、tfidf (用語頻度逆変換ドキュメント頻度アルゴリズム)、前処理 (ストップワード/ストップワード、カスタム前処理、アナライザー) も含まれています。

さらに、小さなデータセット (おもちゃのデータセット) に対してさまざまなベンチマークテストをすばやく実行したい場合は、独自のデータセットモジュールが一般的で便利なデータセットを提供します。これらのデータセットに基づいて独自の小さなデータセットを作成することもでき、モデルを現実世界に適用する前に、モデルが独自の目的で期待を満たしているかどうかをテストできます。パラメータの最適化とパラメータ調整のために、グリッド検索とランダム検索も提供します。

これらの機能はどれも、強力なコミュニティのサポートがなければ、または適切に維持されていない場合には実現できません。最初の安定版リリースを楽しみにしています。

Statsmodels

Statsmodels は、主に予測分析と探索分析に使用される、統計モデルに焦点を当てたもう 1 つの強力なライブラリです。線形モデルを近似したり、統計分析や予測モデリングを実行したりする場合、Statsmodels が最適です。提供される統計テストは非常に包括的で、ほとんどの検証タスクをカバーします。

R または S ユーザーの場合は、特定の統計モデル用の R 構文も提供します。そのモデルは Numpy配列と Pandas データフレームも受け入れるため、中間データ構造は過去のものになります!

PyMC

PyMC は **ベイズ曲線**を実行するためのツールです。これには、ベイジアンモデル、統計分布、モデルの収束、およびいくつかの階層モデルの診断ツールが含まれています。ベイズ分析をしてみたい方はぜひチェックしてみてください。

Shogun

Shogun1 は、C++ で書かれたサポートベクターマシン (SVM) に焦点を当てた機械学習ツールボックスです。これは積極的に開発とメンテナンスが行われており、Python インターフェイスを提供しており、文書化された最高のインターフェイスでもあります。ただし、Scikit-learn と比較すると、その API は使いにくいことがわかりました。さらに、すぐに利用できる診断および評価アルゴリズムはそれほど多くありません。ただし、スピードは大きな利点です。

Gensim

Gensim は、「人間のためのトピックモデリング」として定義されています。ホームページで説明されているように、その焦点は潜在ディリクレ割り当て (LDA) とそのバリアントです。他のパッケージとは異なり、自然言語処理をサポートしており、NLP と他の機械学習アルゴリズムをより簡単に組み合わせることができます。

あなたの分野が NLP であり、集計と基本的な分類を実行したい場合は、見てみることができます。現在、リカレントニューラルネットワークに基づいた Google のテキスト表現 word2vec を導入しています。このライブラリは Python のみで書かれています。

Orange

Orange は、この記事にリストされているすべてのライブラリの中で、グラフィカルユーザーインターフェイス (GUI) を備えている唯一のライブラリです。これは、分類、集計、特徴選択方法、およびいくつかの相互検証方法について非常に包括的です。いくつかの点 (分類方法、一部の前処理機能) では Scikit-learn よりも優れていますが、他の科学計算システム (Numpy、Scipy、Matplotlib、Pandas) への適応性は Scikit-learn ほど良くありません。

ただし、GUI が含まれていることは非常に重要な利点です。相互検証、モデル、および機能選択方法の結果を視覚化できます (一部の機能では、Graphviz のインストールが必要です)。ほとんどのアルゴリズムでは、Orange には独自のデータ構造があるため、データを Orange 互換のデータ構造にラップする必要があり、学習曲線が急になります。

PyMVPA

PyMVPA は別の統計学習ライブラリであり、API は Scikit-learn に非常に似ています。相互検証および診断ツールが含まれていますが、Scikit-learn ほど包括的ではありません。

ディープラーニング

ディープラーニングは機械学習の一サブセクションですが、ここで別のセクションを作成した理由は、最近、Google と Facebook の人材獲得部門から大きな注目を集めているためです。

Theano

Theano は、最も成熟した深層学習ライブラリです。これは、ニューラルネットワークの層を表すための優れたデータ構造 (テンソル、テンソル) を提供し、線形代数にとって非常に効率的で、Numpy 配列に似ています。その API はあまり直感的ではない可能性があり、ユーザーの学習曲線が高くなることに注意してください。 Theano に基づいて、そのデータ構造を利用するライブラリが多数あります。また、すぐに使用できる GPU プログラミングもサポートしています。

PyLearn

Theano に

モジュール性

と構成可能性を導入する別の Theano ベースのライブラリである PyLearn2 があります。これにより、さまざまな

構成ファイルを通じてニューラルネットワークを作成できるため、さまざまなパラメーターを試すのが簡単になります。ニューラルネットワークのパラメータとプロパティが設定ファイルに分離されていれば、そのモジュール性はより強力になると言えます。 Decaf Decaf は、カリフォルニア大学バークレー校によって最近リリースされた深層学習ライブラリであり、Imagenet 分類チャレンジでテストされ、そのニューラルネットワークの実装が非常に高度 (最先端) であることが判明しました。

Nolearn

ディープラーニングで優れた Scikit-learn ライブラリ API を使用したい場合は、Nolearn で Decaf をカプセル化すると、より簡単に使用できるようになります。これは Decaf のラッパーであり、Scikit-learn と (ほぼ) 互換性があり、Decaf をさらに素晴らしいものにしています。

OverFeat

OverFeat は、Cats vs. Dogs (kaggle チャレンジ) 4 の最近の優勝者で、C++ で書かれており、Python ラッパー (Matlab および Lua とともに) も含まれています。これは、Torch ライブラリ経由で GPU を使用するため、高速です。 ImageNet 分類検出および位置特定チャレンジでも優勝しました。コンピュータービジョンが専門の場合は、検討してみるとよいでしょう。

Hebel

Hebel は、すぐに使用できる GPU サポートを備えた別のニューラルネットワークライブラリです。 YAML ファイル (Pylearn2 と同様) を通じてニューラルネットワークのプロパティを決定できるため、神レベルのネットワークをコードから分離し、モデルを迅速に実行するためのフレンドリーな方法が提供されます。開発されてから短期間しか経っていないため、ドキュメントの深さと広さの点で不足しています。ニューラルネットワークモデルに関しても、1 つのニューラルネットワークモデル (フィードフォワード) のみをサポートするため、制限があります。

しかし、これは純粋な Python で書かれており、スケジューラーやモニターなど、他のライブラリには見られない多くの実用的な

関数

が含まれているため、非常に使いやすいライブラリになります。

Neurolab

NeuroLab は、別の API フレンドリーな (Matlabapi に似た) ニューラルネットワークライブラリです。他のライブラリとは異なり、リカレントニューラルネットワーク (RNN) 実装のさまざまなバリアントが含まれています。 RNN を使用する場合、このライブラリは同様の API の中で最良の選択肢の 1 つです。

他の言語との統合

Python は分からなくても、他の言語は得意ですか? Python の強みの 1 つは、(特に) 完璧な接着言語であることです。通常の言語を使用できることです。これらのライブラリにアクセスするための Python によるプログラミング言語。さまざまなプログラミング言語用の次のパッケージを使用して、他の言語と Python を組み合わせることができます:

R -> Julia -> PyCall.jl

非アクティブなライブラリ

便利だと思われるため、これらのライブラリをリストに挙げていますが、これらのライブラリはバグ修正、特に将来的に行われる機能拡張を受ける可能性は低いです。

MDP2MlPy

FFnet

PyBrain

以上が一般的に使用される機械学習ライブラリを Python で分析するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。