Hadoop bukan sahaja merujuk kepada model pengiraan Hadoop daripada MapReduce, tetapi merujuk kepada ekosistem Hadoop, termasuk HDFS, HBase, Hive, dsb. Spark hanya menggantikan dan memperkayakan model pengiraan dalam Hadoop, dan operasinya juga bergantung pada bahagian lain ekosistem Hadoop. Jadi saya rasa jika ia hanya merujuk kepada model pengiraan Hadoop dalam MapReduce, ia memang ketinggalan zaman sedikit sebanyak (tetapi ada juga senario yang sesuai).
Jika anda berminat, anda boleh membaca artikel ini: Spark And Hadoop Are Friends, Not Foes
Pada masa ini, Hadoop telah memasuki era 2.0. Ia mempunyai tiga komponen: HDFS, BENANG dan MapReduce. HDFS ialah sistem fail teragih , bertanggungjawab untuk menyimpan data input dan output; cluster; dan MapReduce Ia adalah rangka kerja pengkomputeran teragih , yang direka oleh Google untuk kedudukan halaman web (PageRank Ia adalah model pengaturcaraan yang sangat umum yang boleh digunakan untuk menulis pelbagai data besar seperti bilangan perkataan). dan kedudukan laman web (pengendali Halaman). Hadoop MapReduce, Spark, Storm, dll. semuanya
rangka kerja pengkomputeran diedarkan
, yang sesuai untuk senario aplikasi yang berbeza. Hadoop MapReduce melakukan pengkomputeran luar talian seperti pemprosesan log, Spark menjalankan pembelajaran mesin dan Storm melakukan pengkomputeran strim masa nyata. Secara ringkasnya, ia adalah setara dengan APP berbeza pada telefon mudah alih dengan fungsi berbeza. Oleh itu, secara tegasnya, tidak timbul persoalan siapa yang menggantikan siapa Rangka kerja pengkomputeran yang berbeza sesuai untuk senario aplikasi yang berbeza. Sudah tentu, Spark dan Hadoop YARN boleh digunakan untuk menyelesaikan tugas yang sama, dan Spark mempunyai prestasi pelaksanaan yang lebih baik, tetapi Spark menggunakan lebih banyak memori. Oleh itu, Spark tidak boleh menggantikan Hadoop MapReduce sepenuhnya, kerana sesetengah aplikasi tidak mempunyai masalah menggunakan Hadoop MapReduce untuk masa pelaksanaan yang lebih lama dan boleh menjimatkan sumber memori. Selain itu, Hadoop Mapreduce, Spark, Storm dan banyak lagi
rangka kerja pengkomputeran yang diedarkan
tergolong dalam ekosistem Hadoop, dan mereka boleh berjalan dalam kelompok Hadoop yang sama, berkongsi HDFS dan BENANG . Jika rangka kerja pengkomputeran ini dibandingkan dengan aplikasi pada telefon mudah alih, maka HDFS dan YARN Hadoop adalah bersamaan dengan sistem pengendalian telefon mudah alih. Jadi, cadangan saya ialah:
Hadoop mesti dimiliki untuk bermula dengan data besar. Kerana MapReduce ialah
rangka kerja pengkomputeran teragih
yang paling asas, dan rangka kerja pengkomputeran teragih lain seperti Spark dibina di atasnya Hanya dengan memahami MapReduce anda boleh memahami sistem lain. Kemudian, Hadoop ialah platform berjalan untuk rangka kerja pengkomputeran Ekosistem Hadoop lain dan tidak boleh dielakkan.
Ketahui rangka kerja pengkomputeran lain seperti Spark mengikut keperluan syarikat Kajian sendiri hanyalah pengenalan, dan anda benar-benar boleh menguasainya dengan menulis aplikasi praktikal.
Blog saya boleh membantu anda menyediakan persekitaran ujian Hadoop dengan cepat:
Membina versi gugusan Hadoop yang dinaik taraf berdasarkan Docker
Hadoop ialah infrastruktur untuk pengkomputeran teragih. Paling baik, Spark hanya boleh menggantikan Hadoop MapReduce. Banyak alatan teknologi data besar adalah berdasarkan HDFS dan MapReduce, termasuk HBASE Hive Sqoop kafka, dsb. Sudah tentu, adalah lebih baik untuk belajar Spark secara langsung semasa melakukan pembangunan, dan ia adalah mudah untuk bermula
Tiada konflik antara pembelajaran Hadoop dan pembelajaran Spark Pada masa ini, apabila kebanyakan syarikat menggunakan Spark, storan data mereka masih pada Hadoop HDFS. Kedua-dua Spark SQL dan Hive boleh menggunakan kaedah seperti SQL dan serupa.
Hadoop
bukan sahaja merujuk kepada model pengiraanHadoop
daripadaMapReduce
, tetapi merujuk kepada ekosistemHadoop
, termasukHDFS
,HBase
,Hive
, dsb.Spark
hanya menggantikan dan memperkayakan model pengiraan dalamHadoop
, dan operasinya juga bergantung pada bahagian lain ekosistemHadoop
. Jadi saya rasa jika ia hanya merujuk kepada model pengiraanHadoop
dalamMapReduce
, ia memang ketinggalan zaman sedikit sebanyak (tetapi ada juga senario yang sesuai).Jika anda berminat, anda boleh membaca artikel ini: Spark And Hadoop Are Friends, Not Foes
Pada masa ini, Hadoop telah memasuki era 2.0. Ia mempunyai tiga komponen: HDFS, BENANG dan MapReduce. HDFS ialah sistem fail teragih , bertanggungjawab untuk menyimpan data input dan output; cluster; dan MapReduce Ia adalah rangka kerja pengkomputeran teragih , yang direka oleh Google untuk kedudukan halaman web (PageRank Ia adalah model pengaturcaraan yang sangat umum yang boleh digunakan untuk menulis pelbagai data besar seperti bilangan perkataan). dan kedudukan laman web (pengendali Halaman). Hadoop MapReduce, Spark, Storm, dll. semuanya
rangka kerja pengkomputeran diedarkan, yang sesuai untuk senario aplikasi yang berbeza. Hadoop MapReduce melakukan pengkomputeran luar talian seperti pemprosesan log, Spark menjalankan pembelajaran mesin dan Storm melakukan pengkomputeran strim masa nyata. Secara ringkasnya, ia adalah setara dengan APP berbeza pada telefon mudah alih dengan fungsi berbeza. Oleh itu, secara tegasnya, tidak timbul persoalan siapa yang menggantikan siapa Rangka kerja pengkomputeran yang berbeza sesuai untuk senario aplikasi yang berbeza. Sudah tentu, Spark dan Hadoop YARN boleh digunakan untuk menyelesaikan tugas yang sama, dan Spark mempunyai prestasi pelaksanaan yang lebih baik, tetapi Spark menggunakan lebih banyak memori. Oleh itu, Spark tidak boleh menggantikan Hadoop MapReduce sepenuhnya, kerana sesetengah aplikasi tidak mempunyai masalah menggunakan Hadoop MapReduce untuk masa pelaksanaan yang lebih lama dan boleh menjimatkan sumber memori. Selain itu, Hadoop Mapreduce, Spark, Storm dan banyak lagi
rangka kerja pengkomputeran yang diedarkantergolong dalam ekosistem Hadoop, dan mereka boleh berjalan dalam kelompok Hadoop yang sama, berkongsi HDFS dan BENANG . Jika rangka kerja pengkomputeran ini dibandingkan dengan aplikasi pada telefon mudah alih, maka HDFS dan YARN Hadoop adalah bersamaan dengan sistem pengendalian telefon mudah alih. Jadi, cadangan saya ialah:
Hadoop mesti dimiliki untuk bermula dengan data besar. Kerana MapReduce ialah- rangka kerja pengkomputeran teragih
Ketahui rangka kerja pengkomputeran lain seperti Spark mengikut keperluan syarikat Kajian sendiri hanyalah pengenalan, dan anda benar-benar boleh menguasainya dengan menulis aplikasi praktikal. -
Blog saya boleh membantu anda menyediakan persekitaran ujian Hadoop dengan cepat:
yang paling asas, dan rangka kerja pengkomputeran teragih lain seperti Spark dibina di atasnya Hanya dengan memahami MapReduce anda boleh memahami sistem lain. Kemudian, Hadoop ialah platform berjalan untuk rangka kerja pengkomputeran Ekosistem Hadoop lain dan tidak boleh dielakkan.
Membina versi gugusan Hadoop yang dinaik taraf berdasarkan Docker
Hadoop ialah infrastruktur untuk pengkomputeran teragih. Paling baik, Spark hanya boleh menggantikan Hadoop MapReduce. Banyak alatan teknologi data besar adalah berdasarkan HDFS dan MapReduce, termasuk HBASE Hive Sqoop kafka, dsb. Sudah tentu, adalah lebih baik untuk belajar Spark secara langsung semasa melakukan pembangunan, dan ia adalah mudah untuk bermula
Tiada konflik antara pembelajaran Hadoop dan pembelajaran Spark Pada masa ini, apabila kebanyakan syarikat menggunakan Spark, storan data mereka masih pada Hadoop HDFS. Kedua-dua Spark SQL dan Hive boleh menggunakan kaedah seperti SQL dan serupa.