Java プログラマーにとって、主流のビッグ データ プラットフォームである Hadoop は Java に基づいて開発されているため、Java ビッグ データ プログラマーはよりスムーズな言語環境を持ち、ビッグ データに基づくアプリケーションが数多くあります。フレームワークも Java であるため、Java 言語をマスターすると、多くのビッグ データ プロジェクトで一定の利点があります。
もちろん、Hadoop の中心的な価値は分散ファイル システムと分散コンピューティング エンジンを提供することであり、ほとんどの企業ではこのエンジンを変更する必要はありません。この時点では、プログラミングに精通していることに加えて、通常、データ処理とデータ マイニングの知識も学ぶ必要があります。特にデータ マイニング エンジニアを目指す場合は、より多くのアルゴリズム関連の知識を習得する必要があります。
データマイニングエンジニアの場合、プログラミングツールも習得する必要がありますが、プラットフォームやツールとしてHadoopが利用されることが多く、このプラットフォームやツールが提供するインターフェースを利用して、さまざまなスクリプト言語を利用することができます。データ処理とデータマイニングに使用されます。したがって、データ マイニング エンジニアリングの方向に進む場合は、scala、spark-mllib などの分散プログラミング言語に習熟することがより重要になる可能性があります。
Java ビッグ データ エンジニアのための学習ロードマップ:
ステップ 1: 分散コンピューティング フレームワーク
Hadoop と Spark 分散コンピューティング フレームワークをマスターし、ファイルを理解するシステム、メッセージ キュー、Nosql データベースについて学び、Hadoop、MR、Spark、Hive、hbase、redies、kafka などの関連コンポーネントを学習します。
##ステップ 2: アルゴリズムとツール
分類、クラスタリング、相関ルール、回帰、デシジョン ツリー、ニューラル ネットワークなどのさまざまなデータ マイニング アルゴリズムを理解し、データ マイニング プログラミング ツール (Python または Scala) に習熟します。現在、主流のプラットフォームやフレームワークでは、Mahout on Hadoop や Mllib on Spark などのアルゴリズム ライブラリが提供されており、これらのインターフェイスとスクリプト言語を学習することで、これらのアルゴリズムの学習を開始することもできます。ステップ 3: 数学
補足的な数学の知識: 高度な数学、確率論、線代数ステップ 4: プロジェクトの実践
1) オープンソース プロジェクト: tensorflow: Google のオープンソース ライブラリ。すでに 40,000 個以上のスターがあり、驚くべきもので、モバイル デバイスをサポートしています。2) データ コンペティションに参加します3) 企業インターンシップを通じてプロジェクトの経験を積むビッグデータの開発と運用保守のみを行う場合、既存のアルゴリズムの適用に重点を置く場合は、2 番目と 3 番目のステップを省略できます。データマイニングの場合、最初に 3 番目のステップをスキップできます。以上がJavaビッグデータについて学ぶべきことの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。