Hadoop とは何ですか?
(1)Hadoop は、大規模なデータを処理する分散アプリケーションを作成および実行できるオープン ソース フレームワークであり、オフラインおよび大規模向けに設計されています。この設計は、複数のレコードをランダムに読み書きするオンライン トランザクション処理モードには適していません。 (推奨学習: Web フロントエンド ビデオ チュートリアル )
Hadoop=HDFS (ファイル システム、データ ストレージ テクノロジ関連) Mapreduce (データ処理)、Hadoop データ ソースを使用できます。半構造化データや非構造化データの処理においてリレーショナルデータベースよりも優れたパフォーマンスを持ち、より柔軟な処理能力を持ち、どのような形式のデータであっても、最終的にはデータの基本単位であるキー/バリューに変換されます。
SQL の代わりに関数式を Mapreduce に使用します。SQL はクエリ ステートメントですが、Mapreduce はスクリプトとコードを使用します。リレーショナル データベースの場合、SQL に慣れている Hadoop はオープン ソース ツール ハイブに置き換えられます。
(2)Hadoop は分散コンピューティング ソリューションです。
Hadoop では何ができるのですか?
Hadoop はログ分析に優れており、Facebook はログ分析に Hive を使用しています。2009 年には、Facebook の非プログラマーの 30% がデータ分析に HiveQL を使用していました。
Taobao Hive はPig は検索のカスタム フィルタリングにも使用され、Twitter や LinkedIn で知り合いかもしれない人を発見するなどの高度なデータ処理にも使用でき、Amazon.com の協調フィルタリングと同様の推奨効果を実現できます。
タオバオのおすすめ商品も掲載中! Yahoo!ではHadoop ジョブの 40% は、スパムの識別とフィルタリング、ユーザー機能モデリングなど、pig を使用して実行されます。
Hadoop は多くの要素で構成されています。
最下位は Hadoop 分散ファイル システム (HDFS) で、Hadoop クラスター内のすべてのストレージ ノードにファイルを保存します。
HDFS の上位層は MapReduce エンジンで、JobTracker と TaskTracker で構成されます。 Hadoop 分散コンピューティング プラットフォームのコア分散ファイル システム HDFS と MapReduce 処理、さらにデータ ウェアハウス ツール Hive と分散データベース Hbase の導入を通じて、基本的に Hadoop 分散プラットフォームのすべての技術コアをカバーします。
以上がHadoop は分散コンピューティングに使用されますが、それは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。