目次
The MongoDB Connector for Hadoop
How it Works

MongoDB Connector for Hadoop

Jun 07, 2016 pm 04:31 PM
for hadoop m mongodb

by Mike O’Brien, MongoDB Kernel Tools Lead and maintainer of Mongo-Hadoop, the Hadoop Adapter for MongoDB Hadoop is a powerful, JVM-based platform for running Map/Reduce jobs on clusters of many machines, and it excels at doing analytics

by Mike O’Brien, MongoDB Kernel Tools Lead and maintainer of Mongo-Hadoop, the Hadoop Adapter for MongoDB

Hadoop is a powerful, JVM-based platform for running Map/Reduce jobs on clusters of many machines, and it excels at doing analytics and processing tasks on very large data sets.

Since MongoDB excels at storing large operational data sets for applications, it makes sense to explore using these together - MongoDB for storage and querying, and Hadoop for batch processing.

The MongoDB Connector for Hadoop

We recently released the 1.1 release of the MongoDB Connector for Hadoop. The MongoDB Connector for Hadoop makes it easy to use Mongo databases, or MongoDB backup files in .bson format, as the input source or output destination for Hadoop Map/Reduce jobs. By inspecting the data and computing input splits, Hadoop can process the data in parallel so that very large datasets can be processed quickly.

The MongoDB Connector for Hadoop also includes support for Pig and Hive, which allow very sophisticated MapReduce workflows to be executed just by writing very simple scripts.

  • Pig is a high-level scripting language for data analysis and building map/reduce workflows
  • Hive is a SQL-like language for ad-hoc queries and analysis of data sets on Hadoop-compatible file systems.

Hadoop streaming is also supported, so map/reduce functions can be written in any language besides Java. Right now the MongoDB Connector for Hadoop supports streaming in Ruby, Node.js and Python.

How it Works

How the Hadoop connector works

  • The adapter examines the MongoDB Collection and calculates a set of splits from the data
  • Each of the splits gets assigned to a node in Hadoop cluster
  • In parallel, Hadoop nodes pull data for their splits from MongoDB (or BSON) and process them locally
  • Hadoop merges results and streams output back to MongoDB or BSON

I’ll be giving an hour-long webinar on What’s New with the Mongo-Hadoop integration. The webinar will cover

  • Using Java MapReduce with the MongoDB Connector for Hadoop
  • Using Hadoop Streaming for other non-JVM languages
  • Writing Pig Scripts with the MongoDB Connector for Hadoop
  • MongoDB and Hadoop usage with Elastic MapReduce to easily kick off your Hadoop jobs

  • Overview of MongoUpdateWriteable: Using the result output from Hadoop to modify an existing output collection

The webinar will be offered twice on August 8:

  • 8 am PDT / 11 am EDT / 3pm UTC
  • 11am PDT / 2pm EDT / 6pm UTC

Register for the Webinar on August 8

Update: Watch the webinar recording

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Nodejsとvuejsの違い Nodejsとvuejsの違い Apr 21, 2024 am 04:17 AM

Node.js はサーバー側の JavaScript ランタイムであり、Vue.js は対話型ユーザー インターフェイスを作成するためのクライアント側の JavaScript フレームワークです。 Node.js はバックエンド サービス API 開発やデータ処理などのサーバー側開発に使用され、Vue.js はシングルページ アプリケーションや応答性の高いユーザー インターフェイスなどのクライアント側開発に使用されます。

navicat の有効期限が切れた場合の対処方法 navicat の有効期限が切れた場合の対処方法 Apr 23, 2024 pm 12:12 PM

Navicat の有効期限の問題を解決するには、ライセンスを更新する、自動更新を無効にする、Navicat プレミアム エッセンシャルの無料バージョンを使用する、などがあります。

フロントエンドでnodejsを学ぶのは難しいですか? フロントエンドでnodejsを学ぶのは難しいですか? Apr 21, 2024 am 04:57 AM

フロントエンド開発者にとって、Node.js の学習の難しさは、JavaScript の基礎、サーバーサイド プログラミングの経験、コマンド ラインの習熟度、および学習スタイルによって異なります。学習曲線には、基本概念、サーバー側アーキテクチャ、データベース統合、非同期プログラミングに焦点を当てた入門レベルと上級レベルのモジュールが含まれています。全体として、JavaScript の基礎がしっかりしていて、時間と労力を惜しまない開発者にとって、Node.js の学習は難しくありませんが、関連する経験が不足している開発者にとっては、克服しなければならない特定の課題がある可能性があります。

navicat を mongodb に接続する方法 navicat を mongodb に接続する方法 Apr 24, 2024 am 11:27 AM

Navicat を使用して MongoDB に接続するには、次の手順を実行する必要があります: Navicat をインストールする MongoDB 接続を作成します: a. 接続名、ホスト アドレス、およびポートを入力します b. 認証情報を入力します (必要な場合) SSL 証明書を追加します (必要な場合) 接続を確認します接続を保存する

Nodejs でよく使用されるモジュールは何ですか? Nodejs でよく使用されるモジュールは何ですか? Apr 21, 2024 am 04:34 AM

Node.js で最も一般的に使用されるモジュールは次のとおりです。 ファイル操作用のファイル システム モジュール ネットワーク通信用のネットワーク モジュール データ ストリームを処理するためのストリーム モジュール データベースと対話するためのデータベース モジュール 暗号化、クエリ文字列などのその他のユーティリティ モジュール 文字列解析、HTTP フレームワーク

どのデータベースがnodejsに適していますか? どのデータベースがnodejsに適していますか? Apr 21, 2024 am 05:06 AM

Node.js アプリケーションの場合、データベースの選択はアプリケーションの要件によって異なります。 NoSQL データベース MongoDB は柔軟性を提供し、Redis は高い同時実行性を提供し、Cassandra は時系列データを処理し、Elasticsearch は検索専用です。 SQL データベース MySQL は優れたパフォーマンスを備え、PostgreSQL は機能が豊富で、SQLite は軽量で、Oracle Database は包括的です。選択するときは、データ型、クエリ、パフォーマンス、トランザクション性、可用性、ライセンス、コストを考慮してください。

net4.0の用途は何ですか net4.0の用途は何ですか May 10, 2024 am 01:09 AM

.NET 4.0 はさまざまなアプリケーションの作成に使用され、オブジェクト指向プログラミング、柔軟性、強力なアーキテクチャ、クラウド コンピューティングの統合、パフォーマンスの最適化、広範なライブラリ、セキュリティ、スケーラビリティ、データ アクセス、モバイルなどの豊富な機能をアプリケーション開発者に提供します。開発サポート。

Nodejsをデータベースに接続する方法 Nodejsをデータベースに接続する方法 Apr 21, 2024 am 05:07 AM

Node.js でデータベースに接続する手順: MySQL、MongoDB、または PostgreSQL パッケージをインストールします。データベース接続オブジェクトを作成します。データベース接続を開き、接続エラーを処理します。

See all articles