ホームページ 見出し ビッグデータ処理のためのハイパフォーマンスコンピューティングのための 4 つのステップ

ビッグデータ処理のためのハイパフォーマンスコンピューティングのための 4 つのステップ

Mar 10, 2018 am 09:48 AM
情報処理 使用 ハイパフォーマンス

企業がビッグデータを処理するためにハイパフォーマンス コンピューティングを採用する必要がある場合、オンプレミスで運用を展開するのが最適である可能性があります。ハイ パフォーマンス コンピューティングと Hadoop の違いなど、企業が知っておくべきことを紹介します。

ビッグ データの分野では、すべての企業がハイ パフォーマンス コンピューティング (HPC) を必要とするわけではありませんが、ビッグ データを使用するほぼすべての企業が Hadoop スタイルの分析コンピューティングを採用しています。

ビッグデータ処理のためのハイパフォーマンスコンピューティングのための 4 つのステップ

Hadoop 分析ジョブはハイ パフォーマンス コンピューティング (HPC) デバイス上で実行できますが、その逆はできないため、HPC と Hadoop の違いを区別するのは困難です。 HPC 分析と Hadoop 分析はどちらも並列データ処理を使用しますが、Hadoop 環境と分析環境では、データはハードウェアに保存され、そのハードウェアの複数のノードに分散されます。ハイ パフォーマンス コンピューティング (HPC) では、データ ファイルのサイズがはるかに大きくなり、データは一元的に保存されます。ハイ パフォーマンス コンピューティング (HPC) では、ファイル サイズが大きく、InfiniBand などのより高価なネットワーク通信が必要なため、高スループットと低遅延が必要です。

企業 CIO の目的は明確です。企業が HPC を回避し、分析のみに Hadoop を使用できるのであれば、そうすることができます。このアプローチはコストが低く、従業員にとって操作が簡単で、他の企業 (サードパーティ ベンダーなど) が実行できるクラウドでも実行できます。

残念ながら、処理にハイ パフォーマンス コンピューティング (HPC) を必要とするライフ サイエンス、気象学、製薬、鉱業、医療、政府、学術界のすべての企業や機関にとって、Hadoop を採用することは不可能です。ファイルのサイズが大きく、処理要件が非常に厳しいため、データセンターやクラウド コンピューティングの使用は良い解決策ではありません。

つまり、ハイ パフォーマンス コンピューティング (HPC) は、データセンター内で実行されるビッグ データ プラットフォームの好例です。このため、企業にとっては、多額の投資を行ったハードウェアが必要な機能を確実に果たすことが困難になります。

ビッグデータ Hadoop および HPC プラットフォームのプロバイダーである PSCC Labs の最高戦略責任者、Alex Lesser 氏は次のように述べています。 IT インフラストラクチャとその企業 すでに使い慣れた汎用ハードウェアを使用するため、このアプローチを採用して自分で Hadoop 分析コンピューティング環境を構築するのは自然なことですが、ハイ パフォーマンス コンピューティング (HPC) の場合は、多くの場合、ベンダーに処理を任せるという対応になります。

ハイ パフォーマンス コンピューティング (HPC) の導入を検討している企業は、次の 4 つの手順を実行する必要があります:

1. ハイ パフォーマンス コンピューティング (HPC) に対する上級管理者のサポートを確保する

企業の経営陣と取締役会のメンバー必ずしもコンピューティングの高性能エキスパートである必要はありませんが、彼らの理解とサポートがなければ決して必要ありません。これらのマネージャーは全員、ハイ パフォーマンス コンピューティング (HPC) について十分に理解しており、企業のために行われる可能性のある大規模なハードウェア、ソフトウェア、トレーニングへの投資を明確にサポートできる必要があります。これは、次の 2 つの側面について教育する必要があることを意味します。(1) HPC とは何か、そしてなぜ HPC が通常の分析と異なり、特別なハードウェアとソフトウェアが必要なのか。 (2) 企業がビジネス目標を達成するために、従来の分析ではなく HPC を使用する必要がある理由。これらの教育への取り組みは両方とも、最高情報責任者 (CIO) または最高開発責任者 (CDO) の責任となります。

レッサー氏は、「HPCの導入に最も積極的な企業は、HPCが本物であると信じているテクノロジー企業であり、彼らはAmazon AWSクラウドサービスのことを指しているが、これは単なるAmazonの小売事業としてスタートし、今では巨大な利益センターとなっている」と述べた。 ."

2. カスタマイズ可能な事前構成済みのハードウェア プラットフォームを検討します

PSSC Labs のような企業は、事前にパッケージ化され、事前構成された HPC ハードウェアを提供しています。 「当社には HPC のベスト プラクティスに基づいた基本パッケージがあり、顧客と協力してコンピューティングのニーズに基づいてその基本パッケージをカスタマイズしています」とレッサー氏は述べ、ほぼすべてのデータセンターで何らかのカスタマイズが必要であると指摘しました。

3. 利益を理解する

他の IT 投資と同様、HPC は費用対効果が高く、ビジネスは投資収益率 (ROI) を達成できなければなりません。これは経営陣や取締役会の頭の中で明確にされています。 「良い例は航空機の設計です」とレッサー氏は言う。 「ハイパフォーマンス コンピューティング (HPC) は巨額の投資ですが、企業が HPC を使用して設計をシミュレーションし、99 の精度を実現できることを発見すると、物理的な風洞を借りる必要がなくなるので、すぐに回収できます。」

4. 独自の IT スタッフをトレーニングする

企業の IT スタッフにとって HPC コンピューティングへの移行は簡単ではありませんが、企業がオンプレミスでの運用を実行する場合は、チームが自給自足できるように配置する必要があります。

最初は、企業が始めるために外部のコンサルタントを雇う必要があるかもしれません。ただし、コンサルティング業務の目標は常に 2 つである必要があります。(1) HPC アプリケーションを実行し続けること、(2) 従業員が業務を引き継げるように知識を従業員に伝達することです。企業はこれで満足すべきではありません。

HPC チームの中核は、企業の質問に答えるためのハイ パフォーマンス コンピューティングに必要な非常に複雑なアルゴリズムを開発できるデータ サイエンティストの必要性です。また、C+ または Fortran の強力なスキルを持ち、並列処理環境で強力なシステムを操作できるプログラマ、またはネットワーク通信の専門家も必要です。

「要するに、企業が 2 週間に 1 ~ 2 回ジョブを実行している場合、HPC をホストするためにクラウドに移行する必要があるということです。」とレッサー氏は言いました。「しかし、企業が HPC リソースを使用して次のようなジョブを実行している場合は、製薬会社やバイオテクノロジー企業など、会社でこれを 1 日に複数回実行する可能性がある場合、クラウドで実行するのはお金の無駄なので、独自の社内運用を検討する必要があります。」

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Pandas は SQL データベースからデータを簡単に読み取ります Pandas は SQL データベースからデータを簡単に読み取ります Jan 09, 2024 pm 10:45 PM

データ処理ツール: Pandas は SQL データベース内のデータを読み取り、特定のコード サンプルが必要です。データ量が増加し続け、その複雑さが増すにつれて、データ処理は現代社会の重要な部分となっています。データ処理プロセスにおいて、Pandas は多くのデータ アナリストや科学者にとって好まれるツールの 1 つとなっています。この記事では、Pandas ライブラリを使用して SQL データベースからデータを読み取る方法を紹介し、いくつかの具体的なコード例を示します。 Pandas は、Python をベースにした強力なデータ処理および分析ツールです。

C++ ハイパフォーマンス プログラミングのヒント: 大規模なデータ処理のためのコードの最適化 C++ ハイパフォーマンス プログラミングのヒント: 大規模なデータ処理のためのコードの最適化 Nov 27, 2023 am 08:29 AM

C++ は、開発者に柔軟性と拡張性を提供する高性能プログラミング言語です。特に大規模なデータ処理シナリオでは、C++ の効率と高速な計算速度が非常に重要です。この記事では、大規模なデータ処理のニーズに対応するために C++ コードを最適化するためのテクニックをいくつか紹介します。従来の配列の代わりに STL コンテナを使用する C++ プログラミングでは、配列は一般的に使用されるデータ構造の 1 つです。ただし、大規模なデータ処理では、vector、deque、list、set などの STL コンテナーを使用すると、より多くの処理が実行される可能性があります。

PHP と WebSocket: 高性能のリアルタイム アプリケーションの構築 PHP と WebSocket: 高性能のリアルタイム アプリケーションの構築 Dec 17, 2023 pm 12:58 PM

PHP と WebSocket: 高性能リアルタイム アプリケーションの構築 インターネットが発展し、ユーザーのニーズが高まるにつれて、リアルタイム アプリケーションはますます一般的になってきています。従来の HTTP プロトコルには、最新のデータを取得するために頻繁なポーリングや長時間のポーリングが必要になるなど、リアルタイム データを処理する場合にいくつかの制限があります。この問題を解決するために、WebSocket が登場しました。 WebSocket は、双方向通信機能を提供する高度な通信プロトコルであり、ブラウザとサーバーの間でリアルタイムの送受信を可能にします。

地理情報科学を専攻する人はどのコンピュータを選択すべきですか? 地理情報科学を専攻する人はどのコンピュータを選択すべきですか? Jan 13, 2024 am 08:00 AM

地理情報科学を専攻する学生に適した推奨コンピュータ 1. 推奨 2. 地理情報科学を専攻する学生は、大量の地理データを処理し、複雑な地理情報分析を行う必要があるため、強力なパフォーマンスを備えたコンピュータが必要です。高度な構成を備えたコンピューターは、より高速な処理速度とより大きなストレージ容量を提供し、専門家のニーズをより適切に満たすことができます。 3. データ処理や分析の効率を向上させる、高性能プロセッサと大容量メモリを搭載したコンピュータを選択することをお勧めします。さらに、より大きなストレージ容量と高解像度ディスプレイを備えたコンピューターを選択すると、地理データと結果をより適切に表示できます。さらに、地理情報科学を専攻する学生は、地理情報システム (GIS) ソフトウェアの開発とプログラミングが必要になる可能性があることを考慮して、より優れたグラフィックス処理サポートを備えたコンピューターを選択してください。

Golang はどのようにデータ処理効率を向上させますか? Golang はどのようにデータ処理効率を向上させますか? May 08, 2024 pm 06:03 PM

Golang は、同時実行性、効率的なメモリ管理、ネイティブ データ構造、豊富なサードパーティ ライブラリを通じてデータ処理効率を向上させます。具体的な利点は次のとおりです。 並列処理: コルーチンは複数のタスクの同時実行をサポートします。効率的なメモリ管理: ガベージ コレクション メカニズムによりメモリが自動的に管理されます。効率的なデータ構造: スライス、マップ、チャネルなどのデータ構造は、データに迅速にアクセスして処理します。サードパーティ ライブラリ: fasthttp や x/text などのさまざまなデータ処理ライブラリをカバーします。

Redis を使用して Laravel アプリケーションのデータ処理効率を向上させる Redis を使用して Laravel アプリケーションのデータ処理効率を向上させる Mar 06, 2024 pm 03:45 PM

Redis を使用して Laravel アプリケーションのデータ処理効率を向上させる インターネット アプリケーションの継続的な開発に伴い、データ処理効率が開発者の焦点の 1 つになっています。 Laravel フレームワークに基づいてアプリケーションを開発する場合、Redis を使用してデータ処理効率を向上させ、データの高速アクセスとキャッシュを実現できます。この記事では、Laravel アプリケーションでのデータ処理に Redis を使用する方法を紹介し、具体的なコード例を示します。 1. Redis の概要 Redis は高性能なメモリ データです

Laravel と CodeIgniter のデータ処理機能はどのように比較されますか? Laravel と CodeIgniter のデータ処理機能はどのように比較されますか? Jun 01, 2024 pm 01:34 PM

Laravel と CodeIgniter のデータ処理機能を比較します。 ORM: Laravel はクラスとオブジェクトのリレーショナル マッピングを提供する EloquentORM を使用しますが、CodeIgniter は ActiveRecord を使用してデータベース モデルを PHP クラスのサブクラスとして表します。クエリビルダー: Laravel には柔軟なチェーンクエリ API がありますが、CodeIgniter のクエリビルダーはよりシンプルで配列ベースです。データ検証: Laravel はカスタム検証ルールをサポートする Validator クラスを提供しますが、CodeIgniter には組み込みの検証関数が少なく、カスタム ルールの手動コーディングが必要です。実践例:ユーザー登録例はLarを示しています

Golang と Python クローラーの比較: アンチクローリング、データ処理、フレームワークの選択における違いの分析 Golang と Python クローラーの比較: アンチクローリング、データ処理、フレームワークの選択における違いの分析 Jan 20, 2024 am 09:45 AM

Golang クローラーと Python クローラーの類似点と相違点の詳細な調査: クローリング対策、データ処理、フレームワークの選択 はじめに: 近年、インターネットの急速な発展に伴い、ネットワーク上のデータ量は爆発的に増加しています。成長。インターネット データを取得する技術的手段として、クローラーは開発者の注目を集めています。 Golang と Python という 2 つの主流言語には、それぞれ独自の利点と特徴があります。この記事では、クローリング防止応答やデータ処理など、Golang クローラーと Python クローラーの類似点と相違点について詳しく説明します。