Hadoop은 Hadoop의 계산 모델 MapReduce만을 의미하는 것이 아니라, Hadoop, HDFS, HBase 등을 포함한 Hive 생태계를 의미합니다. Spark은 Hadoop의 계산 모델을 대체하고 강화할 뿐이며, 그 작동도 Hadoop 생태계의 다른 부분에 따라 달라집니다. 그래서 Hadoop의 계산 모델 MapReduce만을 참고한다면, 확실히 어느 정도 구식이라고 생각합니다(하지만 적합한 시나리오도 있습니다).
관심이 있으시면 다음 기사를 읽어 보세요. Spark와 Hadoop은 적이 아니라 친구입니다
현재 Hadoop은 2.0 시대에 돌입했습니다. 여기에는 HDFS, YARN 및 MapReduce의 세 가지 구성 요소가 있습니다. HDFS는 입력 및 출력 데이터 저장을 담당하는 분산 파일 시스템입니다. YARN은 CPU 및 메모리 스케줄링을 담당하는 분산 리소스 관리 시스템입니다. Cluster 및 MapReduce 웹 페이지 순위(PageRank)를 위해 Google에서 설계한 분산 컴퓨팅 프레임워크입니다. 단어 수 등 다양한 빅데이터를 작성하는 데 사용할 수 있는 매우 일반적인 프로그래밍 모델입니다. 및 웹페이지 순위(PageRank).
Hadoop MapReduce, Spark, Storm 등은 모두 다양한 애플리케이션 시나리오에 적합한 분산 컴퓨팅 프레임워크입니다. Hadoop MapReduce는 로그 처리와 같은 오프라인 컴퓨팅을 수행하고 Spark는 기계 학습을 실행하며 Storm은 실시간 스트림 컴퓨팅을 수행합니다. 이렇게 말하면 다양한 기능을 갖춘 휴대폰의 다양한 앱과 동일합니다. 따라서 엄밀히 말하면 누가 누구를 대체하는지에 대한 의문은 없습니다. 다양한 컴퓨팅 프레임워크는 다양한 애플리케이션 시나리오에 적합합니다. 물론 Spark와 Hadoop YARN을 사용하여 동일한 작업을 완료할 수 있으며 Spark가 실행 성능이 더 뛰어나지만 Spark가 더 많은 메모리를 소비합니다. 따라서 Spark는 Hadoop MapReduce를 완전히 대체할 수 없습니다. 일부 애플리케이션에서는 Hadoop MapReduce를 더 긴 실행 시간 동안 사용하는 데 문제가 없고 메모리 리소스를 절약할 수 있기 때문입니다.
또한 Hadoop Mapreduce, Spark, Storm 및 기타 여러 분산 컴퓨팅 프레임워크는 Hadoop 생태계에 속하며 동일한 Hadoop 클러스터에서 실행되어 HDFS와 YARN을 공유할 수 있습니다. 이러한 컴퓨팅 프레임워크를 휴대폰의 앱과 비교하면 Hadoop의 HDFS 및 YARN은 휴대폰의 운영 체제와 동일합니다.
제 제안은 다음과 같습니다.
빅데이터를 시작하려면 Hadoop이 필수입니다. MapReduce는 가장 기본적인 분산 컴퓨팅 프레임워크이고, 이를 기반으로 Spark와 같은 분산 컴퓨팅 프레임워크가 구축되어 있기 때문에 MapReduce를 이해해야만 다른 시스템을 이해할 수 있습니다. 그렇다면 하둡은 다른 하둡 생태계 컴퓨팅 프레임워크를 실행하는 플랫폼이므로 피할 수 없습니다.
회사의 필요에 따라 Spark와 같은 다른 컴퓨팅 프레임워크를 배우십시오. 독학은 단지 소개일 뿐이며, 실제 응용 프로그램을 작성함으로써 진정으로 마스터할 수 있습니다.
Hadoop은 분산 컴퓨팅을 위한 인프라입니다. 기껏해야 Spark는 Hadoop MapReduce만 대체할 수 있습니다. HBASE Hive Sqoop kafka 등 많은 빅 데이터 기술 도구가 HDFS 및 MapReduce를 기반으로 합니다. 물론 개발을 할 때 스파크를 직접 배우는 것이 더 좋고, 시작하기도 쉽습니다
Hadoop
은Hadoop
의 계산 모델MapReduce
만을 의미하는 것이 아니라,Hadoop
,HDFS
,HBase
등을 포함한Hive
생태계를 의미합니다.Spark
은Hadoop
의 계산 모델을 대체하고 강화할 뿐이며, 그 작동도Hadoop
생태계의 다른 부분에 따라 달라집니다. 그래서Hadoop
의 계산 모델MapReduce
만을 참고한다면, 확실히 어느 정도 구식이라고 생각합니다(하지만 적합한 시나리오도 있습니다).관심이 있으시면 다음 기사를 읽어 보세요. Spark와 Hadoop은 적이 아니라 친구입니다
현재 Hadoop은 2.0 시대에 돌입했습니다. 여기에는 HDFS, YARN 및 MapReduce의 세 가지 구성 요소가 있습니다. HDFS는 입력 및 출력 데이터 저장을 담당하는 분산 파일 시스템입니다. YARN은 CPU 및 메모리 스케줄링을 담당하는 분산 리소스 관리 시스템입니다. Cluster 및 MapReduce 웹 페이지 순위(PageRank)를 위해 Google에서 설계한 분산 컴퓨팅 프레임워크입니다. 단어 수 등 다양한 빅데이터를 작성하는 데 사용할 수 있는 매우 일반적인 프로그래밍 모델입니다. 및 웹페이지 순위(PageRank).
Hadoop MapReduce, Spark, Storm 등은 모두 다양한 애플리케이션 시나리오에 적합한 분산 컴퓨팅 프레임워크입니다. Hadoop MapReduce는 로그 처리와 같은 오프라인 컴퓨팅을 수행하고 Spark는 기계 학습을 실행하며 Storm은 실시간 스트림 컴퓨팅을 수행합니다. 이렇게 말하면 다양한 기능을 갖춘 휴대폰의 다양한 앱과 동일합니다. 따라서 엄밀히 말하면 누가 누구를 대체하는지에 대한 의문은 없습니다. 다양한 컴퓨팅 프레임워크는 다양한 애플리케이션 시나리오에 적합합니다. 물론 Spark와 Hadoop YARN을 사용하여 동일한 작업을 완료할 수 있으며 Spark가 실행 성능이 더 뛰어나지만 Spark가 더 많은 메모리를 소비합니다. 따라서 Spark는 Hadoop MapReduce를 완전히 대체할 수 없습니다. 일부 애플리케이션에서는 Hadoop MapReduce를 더 긴 실행 시간 동안 사용하는 데 문제가 없고 메모리 리소스를 절약할 수 있기 때문입니다.
또한 Hadoop Mapreduce, Spark, Storm 및 기타 여러 분산 컴퓨팅 프레임워크는 Hadoop 생태계에 속하며 동일한 Hadoop 클러스터에서 실행되어 HDFS와 YARN을 공유할 수 있습니다. 이러한 컴퓨팅 프레임워크를 휴대폰의 앱과 비교하면 Hadoop의 HDFS 및 YARN은 휴대폰의 운영 체제와 동일합니다.
제 제안은 다음과 같습니다.
빅데이터를 시작하려면 Hadoop이 필수입니다. MapReduce는 가장 기본적인 분산 컴퓨팅 프레임워크이고, 이를 기반으로 Spark와 같은 분산 컴퓨팅 프레임워크가 구축되어 있기 때문에 MapReduce를 이해해야만 다른 시스템을 이해할 수 있습니다. 그렇다면 하둡은 다른 하둡 생태계 컴퓨팅 프레임워크를 실행하는 플랫폼이므로 피할 수 없습니다.
회사의 필요에 따라 Spark와 같은 다른 컴퓨팅 프레임워크를 배우십시오. 독학은 단지 소개일 뿐이며, 실제 응용 프로그램을 작성함으로써 진정으로 마스터할 수 있습니다.
내 블로그가 Hadoop 테스트 환경을 빠르게 설정하는 데 도움이 될 수 있습니다.
Docker 기반 Hadoop 클러스터 업그레이드 버전 구축
Hadoop은 분산 컴퓨팅을 위한 인프라입니다. 기껏해야 Spark는 Hadoop MapReduce만 대체할 수 있습니다. HBASE Hive Sqoop kafka 등 많은 빅 데이터 기술 도구가 HDFS 및 MapReduce를 기반으로 합니다. 물론 개발을 할 때 스파크를 직접 배우는 것이 더 좋고, 시작하기도 쉽습니다
Hadoop 학습과 Spark 학습 사이에는 충돌이 없습니다. 현재 대부분의 회사에서 Spark를 사용할 때 데이터 스토리지는 여전히 Hadoop HDFS에 있습니다. Spark SQL과 Hive는 모두 SQL과 유사한 방법을 사용할 수 있으며 유사합니다.