難しいデータサイエンスを習得しなくても、機械学習の世界をさまようこともできることがわかりました。もちろん、この旅にはさまざまなビッグデータ、人工知能、ディープラーニング、大規模な統計および分析ツールの助けが必然的に必要になります。
今日の記事では、最も人気のある 3 つの Python 機械学習ライブラリを見ていきます。これらのライブラリは、誰もがよりスムーズなデータ サイエンス探索体験を実現できると信じています。
Theano
Theano は、約 10 年前に誕生した機械学習ソリューションで、現在、機械学習の分野で最も広く使用されている CPU および GPU 数学コンパイラーの 1 つです。
論文「Theano: 数式と計算を迅速に実装するための Python フレームワーク」の中で、著者はこのライブラリの包括的な概要を提供しています。 「Theano には、その機能を強化するためのさまざまなソフトウェア パッケージが含まれています。さまざまな特定の目標を処理するのに十分な高レベルのユーザー インターフェイスを提供できます。」と論文では説明されています。「その中の Lasagne と Keras は、深層学習モデルを効果的に簡素化できます。実際、確率的プログラミング フレームワーク PyMC3 は、Theano を使用して式を自動的に生成し、生成された C コードを迅速に実行します (Keras と Lasagne は TensorFLow と Theano 上で実行されます)。 Theano には現在、GitHub 上に 25,000 件を超える投稿と 300 人近くの寄稿者がおり、フォークの数は 2,000 近くになるでしょう。
2.TensorFlow
TensorFlow は、数値計算にデータ フロー グラフを使用するオープン ソース ライブラリのセットです。オープンソース分野では新参者にすぎませんが、Google が主導するこのプロジェクトにはすでに 15,000 近くの投稿と 600 人を超える GitHub 貢献者がおり、モデル ライブラリには 12,000 近くの星付きレビューが付いています。
第 1 回「オープンソース年鑑」では、TensorFlow が 2016 年の最も価値のあるフォーク プロジェクトに選ばれました。最新の「オープンソース年鑑」にもTensorFlowが何度も登場しました。 TensorFlow に基づく Magenta プロジェクトは、機械知能をアート分野に結び付けようとさえ試みており、それを使用して音楽や芸術的創作を実現する方法を模索し、それによってアーティスト、プログラマー、機械学習研究者の混合コミュニティを確立しています。さらに、Tensorflow は複数のフロントエンド言語をサポートしていますが、Python のサポートも 2017 年の人気プログラミング トレンドのランキングに含まれています。
TensorFlow 1.0 は今年 2 月中旬にリリースされました。 Google は開発者ブログで次のように書いています。「TensorFlow は、誕生してまだ 1 年しか経っていませんが、研究者、エンジニア、アーティスト、学生、その他のユーザーが言語翻訳から皮膚がんの早期診断に至るまで、さまざまなタスクを完了するのに効果的に役立ちました。糖尿病患者の同時失明の予防などの分野です。」
3.scikit-learn
このソリューションは NumPy、SciPy、Matplotlib に基づいており、Spotfiy エンジニアによって音楽の推奨に使用されます。 OkCupid では、マッチング システムの評価と改善を担当しています。 Birchbox では、スタッフが scikit-learn を使用して新製品の開発をサポートする方法を模索しています。