1. Java プログラミング
Java プログラミングはビッグ データ開発の基礎です。Hadoop や Spark など、ビッグ データの多くのテクノロジは Java で書かれています。 . 、mapreduce など。そのため、ビッグデータをしっかり学びたいなら、Java プログラミングは必須のスキルです。
(推奨学習: java 入門プログラム )
2. Linux の運用とメンテナンス
エンタープライズ ビッグ データ開発は、多くの場合、 Linuxオペレーティングシステム上で完結するため、ビッグデータ関連の業務に携わる場合は、Linuxシステムの操作方法や関連コマンドを習得する必要があります。
3. Hadoop
Hadoop は、大量のデータを分散処理できるソフトウェア フレームワークです。HDFS と MapReduce はその中核設計です。HDFS は大量のデータにサービスを提供します。 MapReduce はストレージに加えて、大量のデータの計算を提供し、ビッグ データ開発に不可欠なフレームワーク スキルです。
4. Zookeeper
ZooKeeper は、分散型のオープンソースの分散アプリケーション調整サービスであり、Google の Chubby のオープンソース実装であり、Hadoop と An の統合です。 Hbase の重要なコンポーネント。分散アプリケーションに一貫したサービスを提供するソフトウェアであり、構成保守、ドメイン名サービス、分散同期、グループ サービスなどの機能が提供されます。
5. Hive
hive は、Hadoop ベースのデータ ウェアハウス ツールで、構造化データ ファイルをデータベース テーブルにマップし、単純な SQL を提供できます。 SQL ステートメントを MapReduce タスクに組み込んで実行します。これは、データ ウェアハウスの統計分析に非常に適しています。
6, Hbase
これは Hadoop エコシステムの NOSQL データベースです。そのデータはキーと値の形式で保存され、キーは一意であるため、データの重複排除に使用できます。MYSQL と比較して、はるかに大量のデータを保存できます。
7. Kafka
Kafka は、高スループットの分散型分散型です。消費者規模の Web サイトですべてのアクション フロー データを処理し、Hadoop の並列読み込みメカニズムを通じてオンラインとオフラインのメッセージ処理を統合し、クラスターを通じてリアルタイム メッセージを提供できるパブリッシュ/サブスクライブ メッセージング システムです。
8. Spark
Spark は、大規模なデータ処理用に設計された高速で汎用的なコンピューティング エンジンであり、Hadoop MapReduce の利点を備えていますが、MapReduce との違いは中間出力結果です。メモリに保存できるため、HDFS の読み書きが不要になるため、Spark は、データ マイニングや機械学習など、反復を必要とする MapReduce アルゴリズムに適しています。
以上がビッグデータから何を学ぶかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。