Java ビッグデータ学習プロセス。
第一段階: 静的 Web ページの基礎 (HTML CSS)
1. 難易度: 星 1 つ
2. 技術ナレッジポイント段階におけるプロジェクトタスクの包括的な能力
3. 主なテクノロジーには、
html 共通タグ、共通 CSS レイアウト、スタイル、配置など、静的ページのデザインと制作方法 ちょっとお待ちください
第 2 段階: JavaSE JavaWeb
1. 難易度: 2 つ星
2. 技術知識ポイント段階のプロジェクト タスク総合力 3. 主な技術としては、Java 基本構文、Java オブジェクト指向 (クラス、オブジェクト、カプセル化、継承、ポリモーフィズム、抽象クラス、インターフェース、共通クラス、内部クラス、一般的な変更記号など)、例外、コレクション、ファイル、IO、MYSQL (基本的な SQL ステートメント操作、複数テーブル クエリ、サブクエリ、ストアド プロシージャ、トランザクション、分散トランザクション)、JDBC、スレッド、リフレクション、ソケット プログラミング、列挙、ジェネリクス、デザインパターン 4. 説明は次のとおりです: は Java の基礎と呼ばれ、浅いところから深い技術的なポイント、実際のビジネス プロジェクトのモジュール分析、マルチ ストレージの設計と実装までを網羅しています。方法。このステージは、最初の 4 つのステージの中で最も重要なステージです。後続のすべてのステージがこのステージに基づいているためです。また、ビッグ データの学習密度が最も高いステージでもあります。この段階は、チームにとって初めてフロントエンドとバックエンドを備えた実際のプロジェクトを開発および制作することになります (テクノロジーの第 1 段階とテクノロジーの包括的な適用の第 2 段階)。第 3 段階: フロントエンド フレームワーク
1. 難易度と簡単な手順: 2 つ星2. 技術的な知識ポイント段階のプロジェクト タスクの包括的能力3. 主なテクノロジーには次のものが含まれます: Java、Jquery、アノテーションリフレクションの併用、XMLとXMLの解析、dom4j、jxab、jdk8.0の新機能の解析、SVN、Maven、easyui 4. 説明は次のとおりです: 最初の 2 つの段階に基づいて、静的を動的に変えることができ、これにより Web ページのコンテンツをより豊かにすることができます。マーケターの視点、プロのフロントエンドデザイナーがいます。この段階を設計する際の私たちの目標は、フロントエンドテクノロジーが人々の思考とデザイン能力をより直観的に発揮できるようにすることです。同時に、第 2 段階の高度な機能もこの段階に統合します。学習者を次のレベルに引き上げます。#第 4 段階: エンタープライズ レベルの開発フレームワーク
1. 難しい手順と簡単な手順: 3 つ星
3. 主なテクノロジは次のとおりです:
Hibernate、Spring、SpringMVC、log4j slf4j 統合、myBatis、struts2、Shiro、redis、プロセス エンジン アクティビティ、クローラー テクノロジ ナッチ、lucene、webService CXF、Tomcat クラスターとホット スタンバイ、MySQL の読み取りと書き込みの分離
第5段階: ビッグデータ初入門
1. 難易度: 星3つ
2. 技術知識点段階でのプロジェクトタスクの総合力
#3. 主なテクノロジーには以下が含まれます:
ビッグ データのパート 1 (ビッグ データとは何か、アプリケーション シナリオ、ビッグ データベースの学習方法、仮想マシンの概念とインストールなど)、一般的な Linux コマンド(ファイル管理、システム管理、ディスク管理)、Linux シェルプログラミング (SHELL 変数、ループ制御、アプリケーション)、Hadoop 入門 (Hadoop 構成、スタンドアロン環境、ディレクトリ構造、HDFS インターフェイス、MR インターフェイス、簡易 SHELL、Java) Hadoopへのアクセス)、HDFS(入門、SHELL、IDEA開発ツールの利用、完全分散クラスタ構築)、MapReduceアプリケーション(中間計算処理、Java操作MapReduce、プログラム実行、ログ監視)、Hadoop応用アプリケーション(YARNフレームワーク導入、設定項目)および最適化、CDH導入、環境構築)、拡張(MAP側の最適化、COMBINERの利用方法、TOP K参照、SQOOPエクスポート、他の仮想マシンVMのスナップショット、権限管理コマンド、AWK、SEDコマンド)
4
この段階は、初心者がビッグデータという比較的大きな概念を理解できるように設計されています。前提条件コースで JAVA を学習すると、プログラムがスタンドアロン コンピュータ上でどのように実行されるかを理解できるようになります。では、ビッグデータはどうでしょうか?ビッグデータは、大規模なマシンのクラスター上でプログラムを実行することによって処理されます。もちろん、ビッグ データにはデータ処理が必要となるため、同様に、データ ストレージも単一マシンのストレージから複数のマシン上の大規模クラスター ストレージに変わります。 (クラスターとは何ですか? そうですね、私は大きな鍋を持っています。一人でも食べられますが、時間がかかります。今はみんなに一緒に食べてもらいます。一人のときはそれを呼びます。ビッグ データは、ビッグ データ ストレージとビッグ データ処理に大別できます。そこで、この段階で、私たちのコースはビッグ データの標準である HADOOP を設計しました。ビッグデータの操作には WINDOWS.7 や W10 がよく使われていますが、現在最も広く使われているのは LINUX です。
第6段階:ビッグデータデータベース
1.難易度:星4つ
2.技術知識点段階プロジェクトタスク総合力
3. 主なテクノロジには、Hive の概要 (Hive の概要、Hive の使用シナリオ、環境構築、アーキテクチャの説明、動作メカニズム)、Hive Shell プログラミング (テーブルの作成、クエリ ステートメント、パーティショニングとバケット化、インデックス管理とビュー) が含まれます。 )、Hive の高度なアプリケーション (DISTINCT 実装、groupby、結合、SQL 変換原理、Java プログラミング、構成と最適化)、hbase の概要、Hbase SHELL プログラミング (DDL、DML、Java 操作テーブルの作成、クエリ、圧縮、フィルター)、詳細Hbase モジュールの説明 (REGION、HREGION SERVER、HMASTER、ZOOKEEPER の概要、ZOOKEEPER 構成、Hbase と Zookeeper の統合)、HBASE の高度な機能 (読み取りおよび書き込みプロセス、データ モデル、スキーマ設計の読み取りおよび書き込みホットスポット、最適化と構成)
4. 説明は次のとおりです:
このステージは、ビッグ データが大規模なデータをどのように扱うかを誰もが理解できるように設計されています。プログラミング時間を簡素化し、読み取り速度を向上させます。
それを簡素化するにはどうすればよいでしょうか?最初の段階で、複雑な業務関連付けやデータマイニングが必要な場合、MRプログラムを自分で書くのは非常に複雑です。そこでこの段階で、ビッグデータのデータ ウェアハウスである HIVE を導入しました。ここにはデータウェアハウスというキーワードがあります。質問されると思いますので、最初に言っておきますが、データ ウェアハウスはデータ マイニングと分析に使用されます。通常は非常に大規模なデータ センターです。データは ORACLE や DB2 などの大規模なデータベースに保存されます。これらのデータベース通常、リアルタイムオンラインビジネスとして使用されます。つまり、データ ウェアハウスに基づくデータの分析は比較的時間がかかります。ただし、SQL に慣れていれば比較的簡単に学習できるという利点があり、HIVE はビッグ データに基づく SQL クエリ ツールであり、この段階にはビッグ データのデータベースである HBASE も含まれます。 。混乱していますが、HIVE と呼ばれるデータ「ウェアハウス」について知りませんでしたか? HIVE は MR に基づいているため、クエリは非常に遅くなりますが、HBASE はビッグ データに基づいており、リアルタイムのデータ クエリを実行できます。 1 つは分析用、もう 1 つはクエリ用です。
第 7 段階: リアルタイム データ収集
1. 難しい手順と簡単な手順: 星 4 つ
2. 技術知識ポイント段階のプロジェクト タスク総合力
3. 主な技術内容:
Flume ログ収集、KAFKA 導入 (メッセージキュー、アプリケーションシナリオ、クラスタ構築)、KAFKA 詳細説明 (パーティション、トピック、レシーバ、センダ、 ZOOKEEPER 統合、シェル開発、シェル デバッグ)、KAFKA の高度な使用法 (Java 開発、メイン構成、最適化プロジェクト)、データ視覚化 (グラフィックスとチャートの紹介、CHARTS ツール分類、棒グラフと円グラフ、3D チャートとマップ)、 STORM の概要 (設計アイデア、アプリケーション シナリオ、処理手順、クラスターのインストール)、STROM 開発 (STROM MVN 開発、STORM ローカル プログラムの作成)、STORM の発展 (Java 開発、メイン構成、最適化プロジェクト)、KAFKA の非同期送信とバッチ送信の適時性, KAFKA global Messages are in order, STORM multi-concurrency optimization
4. 説明は次のとおりです:
前段のデータ ソースは既存の大規模データ セットに基づいています、およびデータ処理と分析後の結果 ある程度の遅延があり、通常処理されるデータは前日のデータです。シナリオの例: Web サイトのホットリンク対策、顧客アカウントの異常、リアルタイムの信用レポート これらのシナリオが前日のデータに基づいて分析されたらどうなるでしょうか?もう手遅れですか?したがって、この段階では、リアルタイムのデータ収集と分析を導入しました。これには主に、幅広い収集ソースをサポートする FLUME リアルタイム データ収集、KAFKA データ送受信、STORM リアルタイム データ処理、および第 2 レベルのデータ処理が含まれます。
第8段階:SPARKデータ分析
1. 難易度と手順の簡単さ:星5つ
2. プロジェクトタスクの技術的・総合的な能力ナレッジポイント段階
3. 主なテクノロジーには、SCALA 入門 (データ型、演算子、制御ステートメント、基本関数)、SCALA 上級 (データ構造、クラス、オブジェクト、トレイト、パターン マッチング、正規表現)、SCALA が含まれます。高度な使い方(高階関数、Corey関数、部分関数、テールイテレーション、組み込み高階関数など)、SPARK入門(環境構築、インフラ、動作モード)、Sparkデータセットとプログラミングモデル、SPARK SQL、SPARK Advanced Stage (DATA FRAME、DATASET、SPARK STREAMING 原則、SPARK STREAMING サポート ソース、統合された KAFKA および SOCKET、プログラミング モデル)、SPARK Advanced プログラミング (Spark-GraphX、Spark-Mllib 機械学習)、SPARK Advanced アプリケーション (システム アーキテクチャ) 、メイン構成とパフォーマンスの最適化、障害とステージの回復)、SPARK ML KMEANS アルゴリズム、SCALA 暗黙的変換の高度な機能
4. 説明は次のとおりです:
前の段階、主に最初の段階についても話しましょう。 HADOOP は、機械学習や人工知能などを含む MR に基づく大規模なデータセットの分析には比較的時間がかかります。また、反復計算には適していません。 SPARKはMRの代替品として検討されていますが、どのように置き換えればよいのでしょうか?まず動作メカニズムについて説明すると、HADOOP はディスク ストレージ分析に基づいており、SPARK はメモリ分析に基づいています。こう言うと理解できないかもしれませんが、もっとわかりやすく言うと、北京から上海まで電車に乗るのと同じで、MRは緑色の電車、SPARKは高速鉄道やリニアモーターカーのことです。 SPARKはSCALA言語をベースに開発されており、もちろんSCALAへのサポートも万全ですので、講座ではまずSCALA開発言語を学びます。何?別の開発言語を学びたいですか?ダメダメダメ! ! !一つだけ言わせてください。SCALA は JAVA をベースにしています。履歴データのストレージと分析 (HADOOP、HIVE、HBASE) からリアルタイム データのストレージ (FLUME、KAFKA) と分析 (STORM、SPARK) まで、これらはすべて実際のプロジェクトでは相互依存しています。
以上がJavaビッグデータについて学ぶべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。