ホームページ よくある問題 ビッグデータ学習ルート

ビッグデータ学習ルート

Jun 05, 2019 am 10:59 AM
ビッグデータ

ビッグデータ学習ルート

ビッグデータ学習ルート

##java(Java se,[mysql])

Linux (シェル、高同時実行アーキテクチャ、lucene、solr)

Hadoop(Hadoop、HDFS、Mapreduce、yarn、hive、hbase、sqoop、zookeeper、flume)

機械学習 (R、mahout)

Storm(Storm、kafka、redis)

Spark(scala、spark、spark コア、spark sql、spark ストリーミング、spark mllib、sparkgraphx)

Python(python 、 Spark Python) (推奨学習:

Python ビデオ チュートリアル )

コンピューティング プラットフォーム (docker、kvm、openstack)


用語の説明 # #################################################ビッグデータを学ぶ際に初心者が注意する必要がある点はたくさんありますが、何はともあれ、ビッグデータ業界に参入することを選択した以上、浮き沈みに注意する必要があります。初心を忘れずに必ず成功するという諺通り、ビッグデータの学習に最も必要なのは忍耐力です。

javase の基本 [mysql を含む]、これは javaee ではなく javase であることに注意してください。ビッグ データ エンジニアには JavaWeb の知識は必要ありません


Linux

lucene: 全文検索エンジン アーキテクチャ

solr : 完全版-Lucene ベースのテキスト検索サーバーは構成可能でスケーラブルで、クエリのパフォーマンスを最適化し、完全な機能管理インターフェイスを提供します。

Hadoop

HDFS: NameNode、DataNode を含む分散ストレージ システム。名前ノード: メタデータ、データノード。 DataNode: データを保存します。

yarn: これは、本質的に Hadoop の処理および分析メカニズムである MapReduce の調整メカニズムとして理解でき、ResourceManager と NodeManager に分けられます。

MapReduce: ソフトウェア フレームワーク、プログラムの作成。

Hive: データ ウェアハウスは SQL でクエリを実行でき、Map/Reduce プログラムを実行できます。傾向や Web サイトのログを計算するために使用されますが、結果が返されるまでに時間がかかるため、リアルタイム クエリには使用しないでください。

HBase: データベース。ビッグデータのリアルタイムクエリに非常に適しています。 Facebook は、Hbase を使用してメッセージ データを保存し、メッセージのリアルタイム分析を実行します。

ZooKeeper: 大規模分散向けの信頼できる調整システム。 Hadoop の分散同期は、複数の NameNode やアクティブ スタンバイ スイッチングなどの Zookeeper によって実装されます。

Sqoop: データベースを相互に転送し、リレーショナル データベースと HDFS を相互に転送します。

Mahout: スケーラブルな機械学習およびデータ マイニング ライブラリ。レコメンデーションマイニング、集計、分類、および頻繁に使用されるアイテムセットマイニングに使用されます。

Chukwa: HDFS および Map/Reduce フレームワークに基づいて構築された、大規模な分散システムを監視するオープン ソースの収集システム。結果を表示、監視、分析します。

Ambari: Web ベースの使いやすいインターフェイスを使用して、Hadoop クラスターを構成、管理、監視するために使用されます。

Cloudera

Cloudera Manager: 管理監視診断統合

Cloudera CDH: (Apache Hadoop を含む Cloudera のディストリビューション) Cloudera は、Hadoop に対応する変更を加えました。変更されたリリース バージョンは CDH と呼ばれます。

Cloudera Flume: ログ収集システムは、データを収集するためのログ システム内のさまざまなデータ送信者のカスタマイズをサポートしています。

Cloudera Impala: Apache Hadoop の HDFS および HBase に保存されたデータに対して直接クエリと対話型 SQL を提供します。

Cloudera hue: hue ui、hui サーバー、hui db を含む Web マネージャー。 hue はすべての CDH コンポーネントにシェル インターフェイスを提供し、mr は hue で記述することができます。

機械学習/R

R: 統計分析とグラフィックスのための言語と動作環境、現在は Hadoop-R

mahout: のスケーラブルな実装を提供クラスタリング、分類、推奨フィルタリング、頻繁なサブ項目マイニングなど、機械学習分野の古典的なアルゴリズムを備えており、Hadoop を通じてクラウドに拡張できます。

#storm

Storm: リアルタイム分析、オンライン機械学習、情報フローに使用できる、分散型でフォールトトレラントなリアルタイム ストリーミング コンピューティング システム処理、および継続的コンピューティング 分散 RPC、メッセージの処理、リアルタイムでのデータベースの更新。

Kafka: 消費者規模の Web サイトですべてのアクション ストリーミング データ (ブラウジング、検索など) を処理できる、高スループットの分散型パブリッシュ/サブスクライブ メッセージング システムです。 Hadoopのログデータやオフライン解析と比較してリアルタイム処理が可能です。現在、Hadoop の並列読み込みメカニズムは、オンラインとオフラインのメッセージ処理を統合するために使用されています。

Redis: C 言語で書かれ、ネットワークをサポートし、メモリベースで、ログ型のキーと値のデータベースです。持続的。

Spark

Scala: Java に似た完全なオブジェクト指向プログラミング言語。

jblas: 高速線形代数ライブラリ (JAVA)。 ATLAS ART の実装は、行列計算の事実上の業界標準である BLAS および LAPACK に基づいており、すべての計算手順に高度なインフラストラクチャを使用しているため、非常に高速です。

Spark: Spark は、Scala 言語で実装された Hadoop MapReduce と同様の汎用並列フレームワークであり、Hadoop MapReduce の利点に加えて、ジョブの中間出力結果をメモリに保存できる点で MapReduce とは異なります。したがって、HDFS の読み取りまたは書き込みの必要がないため、Spark は、データ マイニングや機械学習などの反復を必要とする MapReduce アルゴリズムに適しています。 Hadoop ファイル システムと並行して動作でき、Mesos を使用するサードパーティのクラスター フレームワークはこの動作をサポートできます。

Spark SQL: Apache Spark ビッグ データ フレームワークの一部として、構造化データ処理に使用でき、SQL のような Spark データ クエリを実行できます。

Spark ストリーミング: 上に構築されたリアルタイム コンピューティング フレームワークSpark、ビッグ データ ストリーミング データを処理する Spark の機能を拡張します。

Spark MLlib: MLlib は、一般的に使用される機械学習アルゴリズム用の Spark の実装ライブラリであり、現在 (2014.05) バイナリ分類、回帰、クラスタリング、および協調フィルタリングをサポートしています。低レベルの勾配降下最適化の基本アルゴリズムも含まれています。 MLlib は jblas 線形代数ライブラリに依存し、jblas 自体はリモート Fortran プログラムに依存します。

Spark GraphX: GraphX は、Spark のグラフおよびグラフ並列コンピューティング用の API であり、Spark 上でワンストップのデータ ソリューションを提供し、グラフ コンピューティングのパイプライン操作の完全なセットを簡単に完了できます。そして効率的に。

Fortran: 科学および工学コンピューティングの分野で広く使用されている、最も初期の高水準コンピューター プログラミング言語。

BLAS: 基本的な線形代数サブルーチン ライブラリ。線形代数演算に関して作成された多数のプログラムが含まれています。

LAPACK: 線形方程式、線形最小二乗問題、固有値問題、特異値問題など、科学技術計算における最も一般的な数値線形代数問題の解決を含む、有名なオープン ソフトウェアです。

ATLAS: BLAS 線形アルゴリズム ライブラリの最適化されたバージョン。

Spark Python: Spark は scala 言語で書かれていますが、プロモーションと互換性のために、java および python インターフェイスが提供されています。

Python

Python: オブジェクト指向の解釈型コンピューター プログラミング言語。

クラウド コンピューティング プラットフォーム

Docker: オープンソース アプリケーション コンテナ エンジン

kvm: (キーボード ビデオ マウス)

openstack: オープンソース クラウド コンピューティング管理プラットフォーム プロジェクト

Python 関連の技術記事の詳細については、Python チュートリアル 列にアクセスして学習してください。

以上がビッグデータ学習ルートの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPのビッグデータ構造処理スキル PHPのビッグデータ構造処理スキル May 08, 2024 am 10:24 AM

ビッグ データ構造の処理スキル: チャンキング: データ セットを分割してチャンクに処理し、メモリ消費を削減します。ジェネレーター: データ セット全体をロードせずにデータ項目を 1 つずつ生成します。無制限のデータ セットに適しています。ストリーミング: ファイルやクエリ結果を 1 行ずつ読み取ります。大きなファイルやリモート データに適しています。外部ストレージ: 非常に大規模なデータ セットの場合は、データをデータベースまたは NoSQL に保存します。

C++開発経験の共有:C++ビッグデータプログラミングの実践経験 C++開発経験の共有:C++ビッグデータプログラミングの実践経験 Nov 22, 2023 am 09:14 AM

インターネット時代においてビッグデータは新たなリソースとなり、ビッグデータ分析技術の継続的な向上に伴い、ビッグデータプログラミングの需要がますます高まっています。広く使用されているプログラミング言語として、ビッグ データ プログラミングにおける C++ の独自の利点がますます顕著になってきています。以下では、C++ ビッグ データ プログラミングにおける私の実践的な経験を共有します。 1. 適切なデータ構造の選択 適切なデータ構造を選択することは、効率的なビッグ データ プログラムを作成する上で重要です。 C++ には、配列、リンク リスト、ツリー、ハッシュ テーブルなど、使用できるさまざまなデータ構造があります。

2024 年の AEC/O 業界の 5 つの主要な開発トレンド 2024 年の AEC/O 業界の 5 つの主要な開発トレンド Apr 19, 2024 pm 02:50 PM

AEC/O(Architecture, Engineering & Construction/Operation)とは、建設業界における建築設計、工学設計、建設、運営を提供する総合的なサービスを指します。 2024 年、AEC/O 業界は技術の進歩の中で変化する課題に直面しています。今年は先進技術の統合が見込まれ、設計、建設、運用におけるパラダイムシフトが到来すると予想されています。これらの変化に対応して、業界は急速に変化する世界のニーズに適応するために、作業プロセスを再定義し、優先順位を調整し、コラボレーションを強化しています。 AEC/O 業界の次の 5 つの主要なトレンドが 2024 年の主要テーマとなり、より統合され、応答性が高く、持続可能な未来に向けて進むことが推奨されます: 統合サプライ チェーン、スマート製造

58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 58 ポートレート プラットフォームの構築におけるアルゴリズムの適用 May 09, 2024 am 09:01 AM

1. 58 Portraits プラットフォーム構築の背景 まず、58 Portraits プラットフォーム構築の背景についてお話ししたいと思います。 1. 従来のプロファイリング プラットフォームの従来の考え方ではもはや十分ではありません。ユーザー プロファイリング プラットフォームを構築するには、複数のビジネス分野からのデータを統合して、ユーザーの行動や関心を理解するためのデータ マイニングも必要です。最後に、ユーザー プロファイル データを効率的に保存、クエリ、共有し、プロファイル サービスを提供するためのデータ プラットフォーム機能も必要です。自社構築のビジネス プロファイリング プラットフォームとミドルオフィス プロファイリング プラットフォームの主な違いは、自社構築のプロファイリング プラットフォームは単一のビジネス ラインにサービスを提供し、オンデマンドでカスタマイズできることです。ミッドオフィス プラットフォームは複数のビジネス ラインにサービスを提供し、複雑な機能を備えていることです。モデリングを提供し、より一般的な機能を提供します。 2.58 中間プラットフォームのポートレート構築の背景のユーザーのポートレート 58

Go言語にビッグデータフレームワークがない理由と解決策についてのディスカッション Go言語にビッグデータフレームワークがない理由と解決策についてのディスカッション Mar 29, 2024 pm 12:24 PM

今日のビッグデータ時代において、データの処理と分析はさまざまな産業の発展を支える重要な役割を果たしています。 Go言語は、開発効率が高くパフォーマンスに優れたプログラミング言語として、ビッグデータ分野で徐々に注目を集めています。しかし、Go 言語は Java や Python などの他の言語と比較してビッグ データ フレームワークのサポートが比較的不十分であり、一部の開発者に問題を引き起こしていました。この記事では、Go 言語にビッグ データ フレームワークが存在しない主な理由を調査し、対応する解決策を提案し、具体的なコード例で説明します。 1.Go言語

AI、デジタルツイン、ビジュアライゼーション...2023 Yizhiwei 秋の製品発表会のハイライト! AI、デジタルツイン、ビジュアライゼーション...2023 Yizhiwei 秋の製品発表会のハイライト! Nov 14, 2023 pm 05:29 PM

Yizhiweiの2023年秋の新製品発表会は無事終了しました!カンファレンスのハイライトを一緒に振り返りましょう! 1. インテリジェントで包括的なオープン性がデジタルツインの生産性を高める Kangaroo Cloud の共同創設者で Yizhiwei の CEO である Ning Haiyuan 氏は開会の挨拶で次のように述べました: 「3 つのコア機能」「インテリジェントで包括的なオープン性」という 3 つのコアキーワードに焦点を当て、さらに「デジタルツインを生産力にする」という開発目標を提案しました。 2. EasyTwin: より使いやすい新しいデジタル ツイン エンジンを探索します。 1. 0.1 から 1.0 まで、デジタル ツイン フュージョン レンダリング エンジンを探索し続け、成熟した 3D 編集モード、便利なインタラクティブ ブループリント、大規模なモデル アセットを備えたより良いソリューションを実現します。

入門ガイド: Go 言語を使用したビッグデータの処理 入門ガイド: Go 言語を使用したビッグデータの処理 Feb 25, 2024 pm 09:51 PM

オープンソースのプログラミング言語として、Go 言語は近年徐々に注目を集め、使用されるようになりました。そのシンプルさ、効率性、強力な同時処理機能によりプログラマーに好まれています。ビッグ データ処理の分野でも、Go 言語は大きな可能性を秘めており、大量のデータを処理し、パフォーマンスを最適化し、さまざまなビッグ データ処理ツールやフレームワークとうまく統合できます。この記事では、Go 言語によるビッグデータ処理の基本的な概念とテクニックをいくつか紹介し、具体的なコード例を通して Go 言語の使用方法を示します。

C++ テクノロジーでのビッグ データ処理: インメモリ データベースを使用してビッグ データのパフォーマンスを最適化するには? C++ テクノロジーでのビッグ データ処理: インメモリ データベースを使用してビッグ データのパフォーマンスを最適化するには? May 31, 2024 pm 07:34 PM

ビッグ データ処理では、インメモリ データベース (Aerospike など) を使用すると、データがコンピュータ メモリに保存され、ディスク I/O ボトルネックが解消され、データ アクセス速度が大幅に向上するため、C++ アプリケーションのパフォーマンスが向上します。実際のケースでは、インメモリ データベースを使用した場合のクエリ速度が、ハードディスク データベースを使用した場合よりも数桁速いことが示されています。