ビッグデータ学習ルート
java(Java se,javaweb)
Linux(shell 、高同時実行アーキテクチャ、lucene、solr)
Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)
機械学習 (R、mahout)
Storm(Storm、kafka、redis)
Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)
Python(python,spark Python)
クラウド コンピューティング プラットフォーム (docker、kvm、openstack)
用語の説明:
1. Linux
lucene: 全文検索エンジン アーキテクチャ
solr: lucene ベースの全文検索サーバー。構成可能でスケーラブルで、クエリ パフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。
2. Hadoop
HDFS: NameNode、DataNode を含む分散ストレージ システム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。
yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。
MapReduce: ソフトウェア フレームワーク、プログラムの作成。
Hive: データ ウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイム クエリには使用しないでください。
HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージ データを保存し、メッセージのリアルタイム分析を実行します。
ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブ スタンバイ スイッチングなどの Zookeeper によって実装されます。
Sqoop: データベースを相互に転送し、リレーショナル データベースと HDFS を相互に転送します。
Mahout: スケーラブルな機械学習およびデータ マイニング ライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。
Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープン ソースの収集システム。結果を表示、監視、分析します。
Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。
関連する推奨事項: 「FAQ」
3. Cloudera
Cloudera Manager: 管理監視診断の統合
Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は Hadoop に対応する変更を加えており、ディストリビューション バージョンは CDH と呼ばれます。
Cloudera Flume: ログ収集システムは、データを収集するためのログ システム内のさまざまなデータ送信者のカスタマイズをサポートしています。
Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。
Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェル インターフェイスを提供し、mr は hue で記述することができます。
4. 機械学習/R
R: 統計分析とグラフィックスのための言語と動作環境、現在は Hadoop-R
mahout : スケーラブルな機能を提供クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなどを含む、機械学習分野の古典的なアルゴリズムの実装であり、Hadoop を通じてクラウドに拡張できます。
5. Storm
Storm: リアルタイム分析、オンライン機械学習、情報に使用できる分散型フォールトトレラント リアルタイム ストリーミング コンピューティング システムフロー処理と継続性 分散 RPC を計算し、リアルタイムでメッセージを処理し、データベースを更新します。
Kafka: 消費者規模の Web サイトですべてのアクション ストリーミング データ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブ メッセージング システムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。
Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。
5. Spark
Scala: Java に似た完全なオブジェクト指向プログラミング言語。
jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。
Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果を保存できる点が MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データ マイニングや機械学習など、反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイル システムと並行して動作でき、Mesos を使用するサードパーティのクラスター フレームワークはこの動作をサポートできます。
Spark SQL: Apache Spark ビッグ データ フレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データ クエリを実行できます。
Spark ストリーミング: 構築されたリアルタイム ソリューションon Spark コンピューティング フレームワークは、ビッグ データ ストリーミング データを処理する Spark の機能を拡張します。
Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。
Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータ ソリューションを提供し、グラフ コンピューティングのパイプライン操作の完全なセットを完了できます。便利かつ効率的に。
Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピューター プログラミング言語。
BLAS: 基本的な線形代数サブルーチン ライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。
LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープン ソフトウェアです。
ATLAS: BLAS 線形アルゴリズム ライブラリの最適化されたバージョン。
Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。
6. Python
Python: オブジェクト指向の解釈型コンピューター プログラミング言語。
7. クラウド コンピューティング プラットフォーム
Docker: オープンソース アプリケーション コンテナ エンジン
kvm: (キーボード ビデオ マウス)
openstack : オープンソース クラウド コンピューティング管理プラットフォーム プロジェクト
以上がビッグデータ学習ルートとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。