ビッグデータ学習ルートとは何ですか?-よくある問題-php.cn

ホームページ

よくある問題

ビッグデータ学習ルートとは何ですか?

爱喝马黛茶的安东尼

Jul 25, 2019 pm 05:34 PM

ビッグデータ学習ルート

ビッグデータ学習ルート

java(Java se,javaweb)

Linux(shell 、高同時実行アーキテクチャ、lucene、solr)

Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)

機械学習 (R、mahout)

Storm(Storm、kafka、redis)

Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)

Python(python,spark Python)

クラウドコンピューティングプラットフォーム (docker、kvm、openstack)

用語の説明:

1. Linux

lucene: 全文検索エンジンアーキテクチャ

solr: lucene ベースの全文検索サーバー。構成可能でスケーラブルで、クエリパフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。

2. Hadoop

HDFS: NameNode、DataNode を含む分散ストレージシステム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。

yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。

MapReduce: ソフトウェアフレームワーク、プログラムの作成。

Hive: データウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイムクエリには使用しないでください。

HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージデータを保存し、メッセージのリアルタイム分析を実行します。

ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブスタンバイスイッチングなどの Zookeeper によって実装されます。

Sqoop: データベースを相互に転送し、リレーショナルデータベースと HDFS を相互に転送します。

Mahout: スケーラブルな機械学習およびデータマイニングライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。

Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープンソースの収集システム。結果を表示、監視、分析します。

Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。

関連する推奨事項: 「FAQ」

3. Cloudera

Cloudera Manager: 管理監視診断の統合

Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は Hadoop に対応する変更を加えており、ディストリビューションバージョンは CDH と呼ばれます。

Cloudera Flume: ログ収集システムは、データを収集するためのログシステム内のさまざまなデータ送信者のカスタマイズをサポートしています。

Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。

Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェルインターフェイスを提供し、mr は hue で記述することができます。

4. 機械学習/R

R: 統計分析とグラフィックスのための言語と動作環境、現在は Hadoop-R

mahout : スケーラブルな機能を提供クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなどを含む、機械学習分野の古典的なアルゴリズムの実装であり、Hadoop を通じてクラウドに拡張できます。

5. Storm

Storm: リアルタイム分析、オンライン機械学習、情報に使用できる分散型フォールトトレラントリアルタイムストリーミングコンピューティングシステムフロー処理と継続性分散 RPC を計算し、リアルタイムでメッセージを処理し、データベースを更新します。

Kafka: 消費者規模の Web サイトですべてのアクションストリーミングデータ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブメッセージングシステムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。

Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。

5. Spark

Scala: Java に似た完全なオブジェクト指向プログラミング言語。

jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。

Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果を保存できる点が MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データマイニングや機械学習など、反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイルシステムと並行して動作でき、Mesos を使用するサードパーティのクラスターフレームワークはこの動作をサポートできます。

Spark SQL: Apache Spark ビッグデータフレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データクエリを実行できます。

Spark ストリーミング: 構築されたリアルタイムソリューションon Spark コンピューティングフレームワークは、ビッグデータストリーミングデータを処理する Spark の機能を拡張します。

Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。

Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータソリューションを提供し、グラフコンピューティングのパイプライン操作の完全なセットを完了できます。便利かつ効率的に。

Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピュータープログラミング言語。

BLAS: 基本的な線形代数サブルーチンライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。

LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープンソフトウェアです。

ATLAS: BLAS 線形アルゴリズムライブラリの最適化されたバージョン。

Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。

6. Python

Python: オブジェクト指向の解釈型コンピュータープログラミング言語。

7. クラウドコンピューティングプラットフォーム

Docker: オープンソースアプリケーションコンテナエンジン

kvm: (キーボードビデオマウス)

openstack : オープンソースクラウドコンピューティング管理プラットフォームプロジェクト

以上がビッグデータ学習ルートとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7529

CakePHP チュートリアル

1378

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

PHPのビッグデータ構造処理スキル May 08, 2024 am 10:24 AM

ビッグデータ構造の処理スキル: チャンキング: データセットを分割してチャンクに処理し、メモリ消費を削減します。ジェネレーター: データセット全体をロードせずにデータ項目を 1 つずつ生成します。無制限のデータセットに適しています。ストリーミング: ファイルやクエリ結果を 1 行ずつ読み取ります。大きなファイルやリモートデータに適しています。外部ストレージ: 非常に大規模なデータセットの場合は、データをデータベースまたは NoSQL に保存します。

C++開発経験の共有：C++ビッグデータプログラミングの実践経験 Nov 22, 2023 am 09:14 AM

インターネット時代においてビッグデータは新たなリソースとなり、ビッグデータ分析技術の継続的な向上に伴い、ビッグデータプログラミングの需要がますます高まっています。広く使用されているプログラミング言語として、ビッグデータプログラミングにおける C++ の独自の利点がますます顕著になってきています。以下では、C++ ビッグデータプログラミングにおける私の実践的な経験を共有します。 1. 適切なデータ構造の選択適切なデータ構造を選択することは、効率的なビッグデータプログラムを作成する上で重要です。 C++ には、配列、リンクリスト、ツリー、ハッシュテーブルなど、使用できるさまざまなデータ構造があります。

2024 年の AEC/O 業界の 5 つの主要な開発トレンド Apr 19, 2024 pm 02:50 PM

AEC/O（Architecture, Engineering & Construction/Operation）とは、建設業界における建築設計、工学設計、建設、運営を提供する総合的なサービスを指します。 2024 年、AEC/O 業界は技術の進歩の中で変化する課題に直面しています。今年は先進技術の統合が見込まれ、設計、建設、運用におけるパラダイムシフトが到来すると予想されています。これらの変化に対応して、業界は急速に変化する世界のニーズに適応するために、作業プロセスを再定義し、優先順位を調整し、コラボレーションを強化しています。 AEC/O 業界の次の 5 つの主要なトレンドが 2024 年の主要テーマとなり、より統合され、応答性が高く、持続可能な未来に向けて進むことが推奨されます: 統合サプライチェーン、スマート製造

58 ポートレートプラットフォームの構築におけるアルゴリズムの適用 May 09, 2024 am 09:01 AM

1. 58 Portraits プラットフォーム構築の背景まず、58 Portraits プラットフォーム構築の背景についてお話ししたいと思います。 1. 従来のプロファイリングプラットフォームの従来の考え方ではもはや十分ではありません。ユーザープロファイリングプラットフォームを構築するには、複数のビジネス分野からのデータを統合して、ユーザーの行動や関心を理解するためのデータマイニングも必要です。最後に、ユーザープロファイルデータを効率的に保存、クエリ、共有し、プロファイルサービスを提供するためのデータプラットフォーム機能も必要です。自社構築のビジネスプロファイリングプラットフォームとミドルオフィスプロファイリングプラットフォームの主な違いは、自社構築のプロファイリングプラットフォームは単一のビジネスラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィスプラットフォームは複数のビジネスラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。 2.58 中間プラットフォームのポートレート構築の背景のユーザーのポートレート 58

Go言語にビッグデータフレームワークがない理由と解決策についてのディスカッション Mar 29, 2024 pm 12:24 PM

今日のビッグデータ時代において、データの処理と分析はさまざまな産業の発展を支える重要な役割を果たしています。 Go言語は、開発効率が高くパフォーマンスに優れたプログラミング言語として、ビッグデータ分野で徐々に注目を集めています。しかし、Go 言語は Java や Python などの他の言語と比較してビッグデータフレームワークのサポートが比較的不十分であり、一部の開発者に問題を引き起こしていました。この記事では、Go 言語にビッグデータフレームワークが存在しない主な理由を調査し、対応する解決策を提案し、具体的なコード例で説明します。 1.Go言語

AI、デジタルツイン、ビジュアライゼーション...2023 Yizhiwei 秋の製品発表会のハイライト! Nov 14, 2023 pm 05:29 PM

Yizhiweiの2023年秋の新製品発表会は無事終了しました！カンファレンスのハイライトを一緒に振り返りましょう！ 1. インテリジェントで包括的なオープン性がデジタルツインの生産性を高める Kangaroo Cloud の共同創設者で Yizhiwei の CEO である Ning Haiyuan 氏は開会の挨拶で次のように述べました：「3 つのコア機能」「インテリジェントで包括的なオープン性」という 3 つのコアキーワードに焦点を当て、さらに「デジタルツインを生産力にする」という開発目標を提案しました。 2. EasyTwin: より使いやすい新しいデジタルツインエンジンを探索します。 1. 0.1 から 1.0 まで、デジタルツインフュージョンレンダリングエンジンを探索し続け、成熟した 3D 編集モード、便利なインタラクティブブループリント、大規模なモデルアセットを備えたより良いソリューションを実現します。

入門ガイド: Go 言語を使用したビッグデータの処理 Feb 25, 2024 pm 09:51 PM

オープンソースのプログラミング言語として、Go 言語は近年徐々に注目を集め、使用されるようになりました。そのシンプルさ、効率性、強力な同時処理機能によりプログラマーに好まれています。ビッグデータ処理の分野でも、Go 言語は大きな可能性を秘めており、大量のデータを処理し、パフォーマンスを最適化し、さまざまなビッグデータ処理ツールやフレームワークとうまく統合できます。この記事では、Go 言語によるビッグデータ処理の基本的な概念とテクニックをいくつか紹介し、具体的なコード例を通して Go 言語の使用方法を示します。

C++ テクノロジーでのビッグデータ処理: インメモリデータベースを使用してビッグデータのパフォーマンスを最適化するには? May 31, 2024 pm 07:34 PM

ビッグデータ処理では、インメモリデータベース (Aerospike など) を使用すると、データがコンピュータメモリに保存され、ディスク I/O ボトルネックが解消され、データアクセス速度が大幅に向上するため、C++ アプリケーションのパフォーマンスが向上します。実際のケースでは、インメモリデータベースを使用した場合のクエリ速度が、ハードディスクデータベースを使用した場合よりも数桁速いことが示されています。