目次
Hadoop の 3 つのコア コンポーネントは、HDFS (分散ファイル ストレージ)、MapReduce (分散コンピューティング)、YARN (リソース スケジューリング) です。
ホームページ よくある問題 HADOOP の 3 つのコア コンポーネントは何ですか?

HADOOP の 3 つのコア コンポーネントは何ですか?

Jan 04, 2024 am 10:52 AM
hadoop コアコンポーネント

HADOOP の 3 つのコア コンポーネントは、HDFS、MapReduce、YARN です。詳細な紹介: 1. HDFS: 分散ファイル システム。Hadoop クラスターに大量のデータを保存するために使用されます。高いフォールト トレランスを備え、複数のデータ ノードにまたがってデータを保存でき、高スループットのデータ アクセスを提供します; 2. MapReduce: 大規模なデータ セットの並列処理に使用されます。ビッグデータタスクを複数の小さなタスクに分解し、それらを複数のノードで並行して処理し、最終的に結果を要約します; 3. YARN: クラスターリソースの割り当てと管理を担当します。

HADOOP の 3 つのコア コンポーネントは何ですか?

Hadoop の 3 つのコア コンポーネントは、HDFS (分散ファイル ストレージ)、MapReduce (分散コンピューティング)、YARN (リソース スケジューリング) です。

1. HDFS: HADOOP 分散ファイル システム

HDFS (Hadoop 分散ファイル システム) は、Hadoop プロジェクトの中核となるサブプロジェクトであり、主にストレージを担当します。 HDFS は、マスター/スレーブ アーキテクチャを持つ分散ファイル システムです。 HDFS は従来の階層ファイル編成構造をサポートしており、ユーザーまたはアプリケーションはディレクトリを作成し、これらのディレクトリにファイルを保存できます。ファイル システムの名前空間の階層構造は、ほとんどの既存のファイル システムの階層構造と似ており、ファイル パスを通じてファイルの作成、読み取り、更新、削除を行うことができます。ただし、分散ストレージの性質上、従来のファイル システムとは明らかに異なります。

HDFS の利点:

  • 高い耐障害性。 HDFS によってアップロードされたデータは自動的に複数のコピーを保存し、コピーにデータを追加することで耐障害性を高めることができます。レプリカが失われた場合、HDFS は他のマシン上にレプリカを複製するため、その実装について心配する必要はありません。
  • ビッグデータ処理に適しています。 HDFS は、ギガバイト、テラバイト、さらにはペタバイトに至るまで、サイズが数百万に及ぶ非常に大きなデータを処理できます。 (1PB=1024TB、1TB=1014GB)
  • ストリーミング データ アクセス。 HDFS は、ストリーミング データ アクセス モデルを使用して、非常に大きなファイルを保存し、一度書き込み、何度も読み取ります。つまり、ファイルは一度書き込まれた後は変更できず、追加のみ可能です。これにより、データの一貫性が維持されます。

2. MapReduce: 大規模データ処理

MapReduce は Hadoop のコア コンピューティング フレームワークであり、大規模データに対する並列操作のプログラミングに適しています。セット (1TB を超える) モデルには、Map (マッピング) と Reduce (削減) の 2 つの部分が含まれています。

MapReduce タスクが開始されると、Map 側は HDFS 上のデータを読み取り、そのデータを必要なキーと値のペアのタイプにマップして、Reduce 側に転送します。 Reduce 側は、Map 側からキーと値のペア型のデータを受け取り、異なるキーに従ってグループ化し、同じキーでデータの各グループを処理し、新しいキーと値のペアを取得して HDFS に出力します。これがコアです。 MapReduceのアイデア。

完全な MapReduce プロセスには、データの入力とシャーディング、Map ステージのデータ処理、Reduce ステージのデータ処理、データ出力、およびその他のステージが含まれます:

  • 入力データの読み取り。 MapReduce プロセスのデータは、HDFS 分散ファイル システムから読み取られます。ファイルが HDFS にアップロードされる場合、通常は 128MB ごとに複数のデータ ブロックに分割されるため、MapReduce プログラムを実行すると、各データ ブロックごとにマップが生成されますが、ファイルのフラグメント サイズをリセットすることでマップの数を調整することもできます。 . MapReduceを実行すると、設定された分割サイズに従ってファイルが再分割(Split)され、分割サイズのデータ​​ブロックがMapに対応します。
  • マップステージ。プログラムには、デフォルトのストレージまたはシャードの数によって決定される 1 つ以上のマップがあります。 Map ステージでは、データはキーと値のペアの形式で読み取られます。キーの値は通常、各行の最初の文字とファイルの最初の位置との間のオフセット、つまりその間の文字数です。 、値はこの行のデータ レコードです。要件に従ってキーと値のペアを処理し、それらを新しいキーと値のペアにマッピングし、新しいキーと値のペアを Reduce 側に渡します。
  • シャッフル/ソートステージ: このステージは、Map 出力から開始し、Map 出力を入力として Reduce に転送するプロセスを指します。このプロセスでは、まず、同じマップ内の同じキーを持つ出力データを統合して、送信されるデータ量を削減し、統合後にキーに従ってデータをソートします。
  • Reduce ステージ: Reduce タスクは複数存在することもでき、Map ステージで設定されたデータ パーティションに従って、1 つのパーティション データが 1 つの Reduce で処理されます。 Reduce タスクごとに、Reduce はさまざまな Map タスクからデータを受け取り、各 Map からのデータは順序どおりに受信されます。 Reduceタスクの各処理は、同じキーを持つすべてのデータをリデュースし、新しいキーと値のペアとしてHDFSに出力します。

3. Yarn: リソース マネージャー

Hadoop の MapReduce アーキテクチャは YARN (Yet Another Resource Negotiator、別のリソース コーディネーター) と呼ばれ、より効率的なリソース管理コアです。

YARN は主に、リソース マネージャー (RM)、ノード マネージャー (NM)、およびアプリケーション マスター (AM) の 3 つのモジュールで構成されます。

  • リソース マネージャーは、監視と割り当てを担当します。管理;
  • アプリケーション マスターは、各特定のアプリケーションのスケジューリングと調整を担当し、
  • ノード マネージャーは各ノードのメンテナンスを担当します。

以上がHADOOP の 3 つのコア コンポーネントは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Java エラー: Hadoop エラー、処理方法と回避方法 Java エラー: Hadoop エラー、処理方法と回避方法 Jun 24, 2023 pm 01:06 PM

Java エラー: Hadoop エラー、対処方法と回避方法 Hadoop を使用してビッグ データを処理する場合、タスクの実行に影響を与え、データ処理の失敗を引き起こす可能性のある Java 例外エラーが頻繁に発生します。この記事では、一般的な Hadoop エラーをいくつか紹介し、それらに対処および回避する方法を示します。 Java.lang.OutOfMemoryErrorOutOfMemoryError は、Java 仮想マシンのメモリ不足によって発生するエラーです。 Hadoop の場合

ヤン・シュイチェン/チェン・ミンミンの新作! Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです ヤン・シュイチェン/チェン・ミンミンの新作! Sora のコアコンポーネントである DiT トレーニングは 10 倍高速化され、Masked Diffusion Transformer V2 はオープンソースです Mar 13, 2024 pm 05:58 PM

Sora の魅力的なコア技術の 1 つである DiT は、DifffusionTransformer を利用して生成モデルをより大規模に拡張し、優れた画像生成効果を実現します。ただし、モデルのサイズが大きくなると、トレーニングのコストが急増します。 SeaAILab、南開大学、崑崙万威2050研究所のYan Shuicheng氏とCheng Mingming氏の研究チームは、ICCV2023カンファレンスでMaskedDiffusionTransformerと呼ばれる新しいモデルを提案した。このモデルは、マスク モデリング技術を使用して、意味表現情報を学習することで DiffusionTransfomer のトレーニングを高速化し、画像生成の分野で SoTA の成果を達成しています。これです

Beego で Hadoop と HBase を使用してビッグ データ ストレージとクエリを実行する Beego で Hadoop と HBase を使用してビッグ データ ストレージとクエリを実行する Jun 22, 2023 am 10:21 AM

ビッグデータ時代の到来に伴い、データの処理と保存の重要性がますます高まっており、大量のデータをいかに効率的に管理、分析するかが企業にとっての課題となっています。 Apache Foundation の 2 つのプロジェクトである Hadoop と HBase は、ビッグ データのストレージと分析のためのソリューションを提供します。この記事では、ビッグデータのストレージとクエリのために Beego で Hadoop と HBase を使用する方法を紹介します。 1. Hadoop と HBase の概要 Hadoop は、オープンソースの分散ストレージおよびコンピューティング システムです。

ビッグデータ処理に PHP と Hadoop を使用する方法 ビッグデータ処理に PHP と Hadoop を使用する方法 Jun 19, 2023 pm 02:24 PM

データ量が増加し続けるにつれて、従来のデータ処理方法ではビッグデータ時代がもたらす課題に対処できなくなります。 Hadoop は、ビッグ データ処理において単一ノード サーバーによって引き起こされるパフォーマンスのボトルネック問題を、分散ストレージと大量のデータの処理を通じて解決する、オープン ソースの分散コンピューティング フレームワークです。 PHP は、Web 開発で広く使用されているスクリプト言語であり、迅速な開発と容易なメンテナンスという利点があります。この記事では、ビッグデータ処理に PHP と Hadoop を使用する方法を紹介します。 HadoopとはHadoopとは

Javaテクノロジープラットフォームのコアコンポーネントと機能の包括的な分析 Javaテクノロジープラットフォームのコアコンポーネントと機能の包括的な分析 Jan 09, 2024 pm 08:01 PM

Java テクノロジー プラットフォームのコア コンポーネントと機能の詳細な分析 Java テクノロジーは多くの分野で広く使用されており、主流のプログラミング言語および開発プラットフォームとなっています。 Java テクノロジー プラットフォームは、一連のコア コンポーネントと機能で構成されており、開発者に豊富なツールとリソースを提供し、Java 開発をより効率的かつ便利にします。この記事では、Java テクノロジー プラットフォームのコア コンポーネントと機能を詳細に分析し、ソフトウェア開発におけるその重要性とアプリケーション シナリオを探ります。まず、Java 仮想マシン (JVM) は Java です。

ビッグデータの分野での Java の応用を探る: Hadoop、Spark、Kafka、その他のテクノロジー スタックについて理解する ビッグデータの分野での Java の応用を探る: Hadoop、Spark、Kafka、その他のテクノロジー スタックについて理解する Dec 26, 2023 pm 02:57 PM

Java ビッグ データ テクノロジ スタック: Hadoop、Spark、Kafka などのビッグ データ分野における Java のアプリケーションを理解します。データ量が増加し続けるにつれて、今日のインターネット時代ではビッグ データ テクノロジが注目のトピックになっています。ビッグデータの分野では、Hadoop、Spark、Kafka などのテクノロジーの名前をよく耳にします。これらのテクノロジーは重要な役割を果たしており、広く使用されているプログラミング言語である Java もビッグデータの分野で大きな役割を果たしています。この記事では、Java のアプリケーション全般に​​焦点を当てます。

Linux に Hadoop をインストールする方法 Linux に Hadoop をインストールする方法 May 18, 2023 pm 08:19 PM

1: JDK1のインストール 以下のコマンドを実行して、JDK1.8のインストールパッケージをダウンロードします。 wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2. 次のコマンドを実行して、ダウンロードした JDK1.8 インストール パッケージを解凍します。 。 tar-zxvfjdk-8u151-linux-x64.tar.gz3. JDK パッケージを移動して名前を変更します。 mvjdk1.8.0_151//usr/java84. Java 環境変数を設定します。エコー'

PHP を使用して大規模なデータ処理を実現します: Hadoop、Spark、Flink など。 PHP を使用して大規模なデータ処理を実現します: Hadoop、Spark、Flink など。 May 11, 2023 pm 04:13 PM

データ量が増加し続けるにつれ、大規模なデータ処理が企業が直面し、解決しなければならない問題となっています。従来のリレーショナル データベースではもはやこの需要を満たすことができず、大規模データの保存と分析には、Hadoop、Spark、Flink などの分散コンピューティング プラットフォームが最適な選択肢となっています。データ処理ツールの選択プロセスでは、開発と保守が簡単な言語として、PHP が開発者の間でますます人気が高まっています。この記事では、大規模なデータ処理に PHP を活用する方法とその方法について説明します。