ホームページ 運用・保守 Apache Apache Sparkとは何ですか

Apache Sparkとは何ですか

Jun 28, 2019 pm 01:52 PM
apache spark

Apache Sparkとは何ですか

Spark は、メモリ コンピューティングに基づくオープン ソースのクラスター コンピューティング システムであり、データ分析の高速化を目的としています。 Spark は非常に小さく精巧で、カリフォルニア大学バークレー校の AMP 研究所の Matei が率いる小規模チームによって開発されました。使用されている言語は Scala で、プロジェクトのコア部分のコードには 63 個の Scala ファイルしかなく、非常に短く簡潔です。

Spark は、Hadoop に似たオープン ソースのクラスター コンピューティング環境ですが、この 2 つの間にはいくつかの違いがあります。これらの有益な違いにより、Spark は特定のワークロードにおいて優れています。言い換えれば、Spark は、次のようなインメモリ分散データセットを可能にします。インタラクティブなクエリを提供できることに加えて、反復的なワークロードを最適化します。

Spark は Scala 言語で実装されており、アプリケーション フレームワークとして Scala を使用します。 Hadoop とは異なり、Spark と Scala は緊密に統合されており、Scala を使用すると、分散データ セットをローカル コレクション オブジェクトと同じくらい簡単に操作できます。

Spark は分散データ セットでの反復ジョブをサポートするために作成されましたが、実際には Hadoop を補完するものであり、Hadoop ファイル システム上で並列実行できます。この動作は、Mesos と呼ばれるサードパーティのクラスター フレームワークを通じてサポートされています。カリフォルニア大学バークレー校の AMP ラボ (アルゴリズム、マシン、およびピープル ラボ) によって開発された Spark を使用して、大規模な低遅延データ分析アプリケーションを構築できます。

Spark クラスター コンピューティング アーキテクチャ
Spark には Hadoop との類似点がありますが、有益な違いがある新しいクラスター コンピューティング フレームワークを提供します。まず、Spark は、クラスター コンピューティングにおける特定の種類のワークロード、つまり並列操作間で作業データ セット (機械学習アルゴリズムなど) を再利用するワークロード向けに設計されています。このようなタイプのワークロードを最適化するために、Spark はインメモリ クラスター コンピューティングの概念を導入しています。この概念では、データ セットがメモリ内にキャッシュされてアクセス レイテンシーが短縮されます。

Spark では、Resilient Distributed Dataset (RDD) と呼ばれる抽象化も導入しています。 RDD は、一連のノードに分散された読み取り専用オブジェクトのコレクションです。これらのコレクションは回復力があり、データ セットの一部が失われた場合でも再構築できます。部分的なデータセットを再構築するプロセスは、「リネージ」(つまり、データ導出プロセスに基づいてデータセットの部分的な再構築を可能にする情報)を維持するフォールト トレラント メカニズムに依存します。 RDD は、ファイルから作成できる Scala オブジェクト、並列化されたスライス (ノード全体に分散)、RDD の別の変換された形式、そして最終的にはキャッシュされたリクエストなどの既存の RDD の永続性への完全な変更として表されます。記憶の中で。

Spark のアプリケーションはドライバーと呼ばれ、これらのドライバーは単一ノード上で、または一連のノード上で並行して実行される操作を実装します。 Hadoop と同様に、Spark は単一ノード クラスターまたはマルチノード クラスターをサポートします。マルチノード操作の場合、Spark は Mesos クラスター マネージャーに依存します。 Mesos は、分散アプリケーションのリソース共有と分離のための効率的なプラットフォームを提供します。この設定により、Spark と Hadoop がノードの共有プール内で共存できるようになります。

Apache に関連する技術的な記事については、Apache チュートリアル 列にアクセスして学習してください。

以上がApache Sparkとは何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ApacheでCGIディレクトリを設定する方法 ApacheでCGIディレクトリを設定する方法 Apr 13, 2025 pm 01:18 PM

ApacheでCGIディレクトリを設定するには、次の手順を実行する必要があります。「CGI-Bin」などのCGIディレクトリを作成し、Apacheの書き込み許可を付与します。 Apache構成ファイルに「Scriptalias」ディレクティブブロックを追加して、CGIディレクトリを「/cgi-bin」URLにマッピングします。 Apacheを再起動します。

Apacheを始める方法 Apacheを始める方法 Apr 13, 2025 pm 01:06 PM

Apacheを開始する手順は次のとおりです。Apache(コマンド:sudo apt-get install apache2または公式Webサイトからダウンロード)をインストールします(linux:linux:sudo systemctl start apache2; windows:apache2.4 "serviceを右クリックして「開始」を右クリック) (オプション、Linux:Sudo SystemCtl

Apacheのサーバー名以上の削除方法 Apacheのサーバー名以上の削除方法 Apr 13, 2025 pm 01:09 PM

Apacheから追加のservernameディレクティブを削除するには、次の手順を実行できます。追加のservernameディレクティブを識別して削除します。 Apacheを再起動して変更を有効にします。構成ファイルを確認して、変更を確認します。サーバーをテストして、問題が解決されていることを確認します。

Debian OpenSSL構成を確認する方法 Debian OpenSSL構成を確認する方法 Apr 12, 2025 pm 11:57 PM

この記事では、DebianシステムのOpenSSL構成を確認して、システムのセキュリティステータスをすばやく把握できるように、いくつかの方法を紹介します。 1.最初にOpenSSLバージョンを確認し、OpenSSLがインストールされているかどうかを確認し、バージョン情報を確認します。端末に次のコマンドを入力します。OpenSSlversionがインストールされていない場合、システムはエラーを促します。 2。構成ファイルを表示します。 OpenSSLのメイン構成ファイルは、通常/etc/ssl/openssl.cnfにあります。テキストエディター(Nanoなど)を使用して、次のように表示できます。sudonano/etc/ssl/openssl.cnfこのファイルには、キー、証明書、暗号化アルゴリズムなどの重要な構成情報が含まれています。 3。OPEを利用します

Debian Apacheログを使用してWebサイトのパフォーマンスを向上させる方法 Debian Apacheログを使用してWebサイトのパフォーマンスを向上させる方法 Apr 12, 2025 pm 11:36 PM

この記事では、Debianシステムの下でApacheログを分析することにより、Webサイトのパフォーマンスを改善する方法について説明します。 1.ログ分析の基本Apacheログは、IPアドレス、タイムスタンプ、リクエストURL、HTTPメソッド、応答コードなど、すべてのHTTP要求の詳細情報を記録します。 Debian Systemsでは、これらのログは通常、/var/log/apache2/access.logおよび/var/log/apache2/error.logディレクトリにあります。ログ構造を理解することは、効果的な分析の最初のステップです。 2。ログ分析ツールさまざまなツールを使用してApacheログを分析できます。コマンドラインツール:GREP、AWK、SED、およびその他のコマンドラインツール。

Apacheバージョンを表示する方法 Apacheバージョンを表示する方法 Apr 13, 2025 pm 01:15 PM

Apacheサーバーでバージョンを表示するには3つの方法があります。コマンドライン(Apachectl -vまたはapache2ctl -v)を介して、サーバーステータスページ(http://< server ipまたはdomain name>/server -status)を確認します。

Apacheのデータベースに接続する方法 Apacheのデータベースに接続する方法 Apr 13, 2025 pm 01:03 PM

Apacheはデータベースに接続するには、次の手順が必要です。データベースドライバーをインストールします。 web.xmlファイルを構成して、接続プールを作成します。 JDBCデータソースを作成し、接続設定を指定します。 JDBC APIを使用して、接続の取得、ステートメントの作成、バインディングパラメーター、クエリまたは更新の実行、結果の処理など、Javaコードのデータベースにアクセスします。

Apache80ポートが占有されている場合はどうすればよいですか Apache80ポートが占有されている場合はどうすればよいですか Apr 13, 2025 pm 01:24 PM

Apache 80ポートが占有されている場合、ソリューションは次のとおりです。ポートを占有するプロセスを見つけて閉じます。ファイアウォールの設定を確認して、Apacheがブロックされていないことを確認してください。上記の方法が機能しない場合は、Apacheを再構成して別のポートを使用してください。 Apacheサービスを再起動します。

See all articles