java - 最近对大数据感兴趣,hadoop是不是过时了,应该深入学习spark?
黄舟
黄舟 2017-04-18 09:22:34
0
4
920

最近对大数据感兴趣,后面想往这方面发展,hadoop是不是过时了,应该深入学习spark?
因为也在上班,时间有限,担心花了时间学习hadoop后,公司却都不使用了,
因为了解到现在公司都在搞spark,因为是内存运算,效率会搞很多,
往过来人解惑,感谢!!

黄舟
黄舟

人生最曼妙的风景,竟是内心的淡定与从容!

membalas semua(4)
Peter_Zhu

Hadoop bukan sahaja merujuk kepada model pengiraan Hadoop daripada MapReduce, tetapi merujuk kepada ekosistem Hadoop, termasuk HDFS, HBase, Hive, dsb. Spark hanya menggantikan dan memperkayakan model pengiraan dalam Hadoop, dan operasinya juga bergantung pada bahagian lain ekosistem Hadoop. Jadi saya rasa jika ia hanya merujuk kepada model pengiraan Hadoop dalam MapReduce, ia memang ketinggalan zaman sedikit sebanyak (tetapi ada juga senario yang sesuai).

Jika anda berminat, anda boleh membaca artikel ini: Spark And Hadoop Are Friends, Not Foes

迷茫

Pada masa ini, Hadoop telah memasuki era 2.0. Ia mempunyai tiga komponen: HDFS, BENANG dan MapReduce. HDFS ialah sistem fail teragih , bertanggungjawab untuk menyimpan data input dan output; cluster; dan MapReduce Ia adalah rangka kerja pengkomputeran teragih , yang direka oleh Google untuk kedudukan halaman web (PageRank Ia adalah model pengaturcaraan yang sangat umum yang boleh digunakan untuk menulis pelbagai data besar seperti bilangan perkataan). dan kedudukan laman web (pengendali Halaman). Hadoop MapReduce, Spark, Storm, dll. semuanya

rangka kerja pengkomputeran diedarkan

, yang sesuai untuk senario aplikasi yang berbeza. Hadoop MapReduce melakukan pengkomputeran luar talian seperti pemprosesan log, Spark menjalankan pembelajaran mesin dan Storm melakukan pengkomputeran strim masa nyata. Secara ringkasnya, ia adalah setara dengan APP berbeza pada telefon mudah alih dengan fungsi berbeza. Oleh itu, secara tegasnya, tidak timbul persoalan siapa yang menggantikan siapa Rangka kerja pengkomputeran yang berbeza sesuai untuk senario aplikasi yang berbeza. Sudah tentu, Spark dan Hadoop YARN boleh digunakan untuk menyelesaikan tugas yang sama, dan Spark mempunyai prestasi pelaksanaan yang lebih baik, tetapi Spark menggunakan lebih banyak memori. Oleh itu, Spark tidak boleh menggantikan Hadoop MapReduce sepenuhnya, kerana sesetengah aplikasi tidak mempunyai masalah menggunakan Hadoop MapReduce untuk masa pelaksanaan yang lebih lama dan boleh menjimatkan sumber memori. Selain itu, Hadoop Mapreduce, Spark, Storm dan banyak lagi

rangka kerja pengkomputeran yang diedarkan

tergolong dalam ekosistem Hadoop, dan mereka boleh berjalan dalam kelompok Hadoop yang sama, berkongsi HDFS dan BENANG . Jika rangka kerja pengkomputeran ini dibandingkan dengan aplikasi pada telefon mudah alih, maka HDFS dan YARN Hadoop adalah bersamaan dengan sistem pengendalian telefon mudah alih. Jadi, cadangan saya ialah:

    Hadoop mesti dimiliki untuk bermula dengan data besar. Kerana MapReduce ialah
  1. rangka kerja pengkomputeran teragih

    yang paling asas, dan rangka kerja pengkomputeran teragih lain seperti Spark dibina di atasnya Hanya dengan memahami MapReduce anda boleh memahami sistem lain. Kemudian, Hadoop ialah platform berjalan untuk rangka kerja pengkomputeran Ekosistem Hadoop lain dan tidak boleh dielakkan.

  2. Ketahui rangka kerja pengkomputeran lain seperti Spark mengikut keperluan syarikat Kajian sendiri hanyalah pengenalan, dan anda benar-benar boleh menguasainya dengan menulis aplikasi praktikal.
  3. Blog saya boleh membantu anda menyediakan persekitaran ujian Hadoop dengan cepat:

    Membina versi gugusan Hadoop yang dinaik taraf berdasarkan Docker
阿神

Hadoop ialah infrastruktur untuk pengkomputeran teragih. Paling baik, Spark hanya boleh menggantikan Hadoop MapReduce. Banyak alatan teknologi data besar adalah berdasarkan HDFS dan MapReduce, termasuk HBASE Hive Sqoop kafka, dsb. Sudah tentu, adalah lebih baik untuk belajar Spark secara langsung semasa melakukan pembangunan, dan ia adalah mudah untuk bermula

阿神

Tiada konflik antara pembelajaran Hadoop dan pembelajaran Spark Pada masa ini, apabila kebanyakan syarikat menggunakan Spark, storan data mereka masih pada Hadoop HDFS. Kedua-dua Spark SQL dan Hive boleh menggunakan kaedah seperti SQL dan serupa.

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan