Hadoop は、HDFS と呼ばれる分散ファイル システム (HadoopDistributedFileSystem) を実装しています。HDFS は高いフォールト トレランスを備えています。 HDFS は、低コストのハードウェアに導入できるように設計されており、大規模なデータセットを持つアプリケーションに適した高いスループットを提供し、ストリーミング形式でファイル システム内のデータにアクセスできます。 Hadoop の フレームワークの設計は次のとおりです: HDFS と Map
Reduce ストレージなしで、MapReduce は大規模なデータのコンピューティングを提供します。Hadoop という名前は略語ではなく、架空の名前です。プロジェクトの Doug Cutting は、Hadoop の名前の由来を次のように説明しています。「これは、私の子供が黄褐色の象のおもちゃに付けた名前です。 Hadoop は、ユーザーが簡単に アーキテクチャ して使用できるようにする分散コンピューティング プラットフォームです。ユーザーは、Hadoop 上で大量のデータを処理するアプリケーションを簡単に開発して実行できます。主に以下のようなメリットがあります: 1. 高い信頼性 データをビットごとに保存し処理する Hadoop の能力は、人々の信頼に値します。
2. 高い拡張性 Hadoop は、利用可能なコンピューター クラスター間でデータを分散し、コンピューティング タスクを完了します。これらのクラスターは、数千のノードに簡単に拡張できます。
3. 効率 Hadoop はノード間でデータを動的に移動し、各ノードの動的バランスを確保できるため、処理速度が非常に高速です。 4. 耐障害性の高い Hadoop は、データの複数のコピーを自動的に保存し、失敗したタスクを自動的に再分散できます。 5. 低コスト QlikView や YonghongZ-Suite などのオールインワン コンピューター、商用データ ウェアハウス、データ マートと比較して、Hadoop はオープンソースであるため、プロジェクトのソフトウェア コストが大幅に削減されます。
Hadoop には Java 言語で書かれたフレームワークが付属しているため、
Linux
運用プラットフォームで実行するのが理想的です。 Hadoop 上のアプリケーションは、C++ などの他の言語で作成することもできます。
Hadoop ビッグ データ処理の重要性
ビッグ データ処理アプリケーションにおける Hadoop の幅広い用途は、データの抽出、変換、読み込み (ETL) における本来の利点から恩恵を受けています。 Hadoop の分散アーキテクチャでは、ビッグ データ処理エンジンをストレージのできるだけ近くに配置します。これは、ETL などのバッチ処理操作に比較的適しています。そのような操作のバッチ処理結果はストレージに直接送信できるためです。 Hadoop の MapReduce 機能は、単一のタスクを分割し、断片化されたタスク (Map) を複数のノードに送信し、単一のデータ セットの形式でデータ ウェアハウスにロード (Reduce) します。
PHP 中国語 Web サイト Hadoop 学習ルート情報: 1. HadoopCommon: Hadoop システムの下部にあるモジュールで、Hadoop サブプロジェクトに次のようなさまざまなツールを提供します: 設定ファイル
やログ操作など。
2. HDFS: 外部クライアントに高スループットのアプリケーション データ アクセスを提供する分散ファイル システム。HDFS は従来の階層ファイル システムに似ています。ファイルの作成、
削除
、移動や名前変更などが可能です。ただし、HDFS のアーキテクチャは、独自の特性によって決定される特定のノードのセットに基づいて構築されます (図 1 を参照)。これらのノードには、HDFS 内でメタデータ サービスを提供する NameNode (1 つだけ)、HDFS にストレージ ブロックを提供する DataNode が含まれます。 NameNode が 1 つしか存在しないため、これは HDFS の欠点 (単一障害点) です。 HDFSに格納されたファイルはブロックに分割され、そのブロックが複数のコンピュータ(DataNode)にコピーされます。これは従来の RAID アーキテクチャとは大きく異なります。ブロック サイズ (通常は 64MB) とコピーされるブロックの数は、ファイルの作成時にクライアントによって決定されます。 NameNode はすべてのファイル操作を制御できます。 HDFS 内のすべての通信は、標準の TCP/IP
プロトコルに基づいています。 3. MapReduce: 分散大規模データ処理コンピューティングクラスター用に設定されたソフトウェアフレームワーク。 4. Avro: dougcutting がホストする RPC プロジェクトで、主に
データのシリアル化を担当します。 Google の protobuf や Facebook の thrif
t に少し似ています。 avro は将来的に Hadoop の RPC に使用され、Hadoop の RPC モジュール通信が高速になり、データ構造がよりコンパクトになります。
5. Hive: CloudBase と同様、これもデータウェアハウスの SQL 機能を提供する Hadoop 分散コンピューティング プラットフォームに基づくソフトウェアのセットです。 Hadoop に保存されている大量のデータの概要とアドホック クエリを簡素化します。 hive は、非常に使いやすい SQL ベースの QL クエリ言語のセットを提供します。 6. HBase: HadoopDistributedFileSystem をベースとした、カラムストレージモデル
に基づくオープンソースのスケーラブルな分散データベースであり、大きなテーブルでの構造化データのストレージをサポートしています。 7. Pig: SQL に似た言語は、MapReduce モデルの Map と Reduce にコンパイルされ、並列コンピューティングのための高度なデータ フロー言語および実行フレームワークです。独自の関数を定義します。 8. ZooKeeper: Google の Chubby のオープンソース実装。大規模分散システム向けの信頼性の高い連携システムであり、構成保守、ネームサービス、分散同期、グループサービスなどの機能を提供します。 ZooKeeper の目標は、複雑でエラーが発生しやすい主要なサービスをカプセル化し、ユーザーにシンプルで使いやすいインターフェイスと、効率的なパフォーマンスと安定した機能を備えたシステムを提供することです。
9. Chukwa: yahoo が提供する大規模分散システムを管理するためのデータ収集システム。
10. Cassandra: 単一障害点のない、スケーラブルなマルチマスター データベース。 11. Mahout: スケーラブルな機械学習とデータマイニングのライブラリ。 Hadoop の当初の設計目標は、高信頼性、高スケーラビリティ、高耐障害性、効率性でした。Hadoop が登場するとすぐに多くの大企業に好まれ、研究コミュニティでも広く注目を集めたのは、これらの設計固有の利点によるものです。これまで、Hadoop テクノロジーはインターネット分野で広く使用されてきました。
上記は、Hadoop とは何か、および Hadoop の学習ルートについて詳しく説明したものです。Hadoop に関するニュースや情報をさらに知りたい場合は、プラットフォーム IT キャリア オンラインの公式 Web サイトに注目してください。学習および教育プラットフォームは、信頼できる情報を提供します。Data Hadoop トレーニング コースと
ビデオ
チュートリアル システムは、金メダル講師がオンラインで録画した最初のアダプティブ Hadoop オンライン ビデオ コース システムであり、実践的なスキルを迅速に習得できます。 Hadoop の入門からビッグ データ開発の習熟までを学びます。
以上がHadoop とは何か、そしてその学習ルートについての簡単な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。