목차
Hadoop의 세 가지 핵심 구성 요소는 HDFS(분산 파일 저장소), MapReduce(분산 컴퓨팅) 및 YARN(리소스 스케줄링)입니다.
일반적인 문제 HADOOP의 세 가지 핵심 구성 요소는 무엇입니까?

HADOOP의 세 가지 핵심 구성 요소는 무엇입니까?

Jan 04, 2024 am 10:52 AM
hadoop 핵심 구성 요소

HADOOP의 세 가지 핵심 구성 요소는 HDFS, MapReduce 및 YARN입니다. 자세한 소개: 1. HDFS: Hadoop 클러스터에 대량의 데이터를 저장하는 데 사용되는 분산 파일 시스템입니다. 내결함성이 높고 여러 데이터 노드에 데이터를 저장할 수 있으며 높은 처리량의 데이터 액세스를 제공합니다. 2. MapReduce: 대규모 데이터 세트의 병렬 처리에 사용됩니다. 빅데이터 작업을 여러 개의 작은 작업으로 분해하고 여러 노드에서 병렬로 처리한 후 최종적으로 결과를 요약합니다. 3. YARN: 클러스터 리소스 할당 및 관리를 담당합니다.

HADOOP의 세 가지 핵심 구성 요소는 무엇입니까?

Hadoop의 세 가지 핵심 구성 요소는 HDFS(분산 파일 저장소), MapReduce(분산 컴퓨팅) 및 YARN(리소스 스케줄링)입니다.

1. HDFS: HADOOP 분산 파일 시스템

HDFS(Hadoop Distributed File System)는 Hadoop 프로젝트의 핵심 하위 프로젝트로, 클러스터 데이터의 저장 및 읽기를 주로 담당합니다. 분산 파일 시스템을 위한 슬레이브(마스터/슬레이브) 아키텍처. HDFS는 사용자나 응용 프로그램이 디렉터리를 생성한 다음 이러한 디렉터리에 파일을 저장할 수 있는 전통적인 계층적 파일 구성 구조를 지원합니다. 파일 시스템 네임스페이스의 계층 구조는 대부분의 기존 파일 시스템과 유사하며 파일 경로를 통해 파일에 대한 파일 생성, 읽기, 업데이트 및 삭제 작업을 수행할 수 있습니다. 하지만 분산 스토리지의 특성상 기존 파일 시스템과는 분명히 다릅니다.

HDFS 장점:

  • 높은 내결함성. HDFS가 업로드한 데이터는 자동으로 여러 복사본을 저장하며, 복사본에 데이터를 추가하면 내결함성을 높일 수 있습니다. 복제본이 손실되면 HDFS는 복제본을 다른 시스템에 복제하므로 구현에 대해 걱정할 필요가 없습니다.
  • 빅데이터 처리에 적합합니다. HDFS는 기가바이트, 테라바이트, 심지어 페타바이트 규모의 데이터를 처리할 수 있으며 크기는 수백만에 달하며 이는 매우 큰 규모입니다. (1PB=1024TB, 1TB=1014GB)
  • 스트리밍 데이터 액세스. HDFS는 스트리밍 데이터 액세스 모델을 사용하여 매우 큰 파일을 저장하고 한 번 쓰고 여러 번 읽습니다. 즉, 파일이 일단 작성되면 수정할 수 없고 추가만 가능합니다. 이를 통해 데이터 일관성이 유지됩니다.

2. MapReduce: 대규모 데이터 처리

MapReduce는 Map(매핑)을 포함한 대규모 데이터 세트(1TB 이상)의 병렬 작업에 적합한 프로그래밍 모델입니다. ) 및 감소(감소).

MapReduce 작업이 시작되면 Map 측은 HDFS의 데이터를 읽고 데이터를 필요한 키-값 쌍 유형으로 매핑한 다음 이를 Reduce 측으로 전송합니다. Reduce 측은 Map 측에서 전달된 키-값 쌍 유형 데이터를 수신하여 이를 다른 키에 따라 그룹화하고, 동일한 키로 각 ​​데이터 그룹을 처리하고, 새로운 키-값 쌍을 획득하여 HDFS로 출력하는 것이 핵심입니다. MapReduce의 아이디어.

전체 MapReduce 프로세스에는 데이터 입력 및 샤딩, 맵 단계 데이터 처리, Reduce 단계 데이터 처리, 데이터 출력 및 기타 단계가 포함됩니다.

  • 입력 데이터 읽기. MapReduce 프로세스의 데이터는 HDFS 분산 파일 시스템에서 읽혀집니다. HDFS에 파일을 업로드할 때 일반적으로 128MB에 따라 여러 개의 데이터 블록으로 나누어지므로 MapReduce 프로그램을 실행하면 각 데이터 블록마다 Map이 생성되지만 파일 조각 크기를 재설정하여 Map 수를 조정할 수도 있습니다. MapReduce를 실행하면 설정된 분할 크기에 따라 파일이 다시 분할(Split)되고 분할 크기의 데이터 블록이 Map에 해당됩니다.
  • 지도 스테이지. 프로그램에는 기본 스토리지 또는 샤드 수에 따라 결정되는 하나 이상의 맵이 있습니다. Map 단계의 경우 키-값 쌍의 형태로 데이터를 읽습니다. 키 값은 일반적으로 각 줄의 첫 번째 문자와 파일의 초기 위치 사이의 오프셋, 즉 그 사이의 문자 수입니다. , 값은 이 라인의 데이터 레코드입니다. 요구 사항에 따라 키-값 쌍을 처리하고 이를 새 키-값 쌍으로 매핑한 다음 새 키-값 쌍을 감소 측에 전달합니다.
  • Shuffle/Sort 단계: 이 단계는 Map 출력에서 ​​시작하여 Map 출력을 입력으로 Reduce로 전송하는 프로세스를 나타냅니다. 이 프로세스에서는 먼저 동일한 Map의 동일한 키를 가진 출력 데이터를 통합하여 전송되는 데이터의 양을 줄이고 통합 후 키에 따라 데이터를 정렬합니다.
  • Reduce 단계: Map 단계에서 설정된 데이터 파티션에 따라 결정되는 여러 개의 Reduce 작업이 있을 수도 있습니다. 하나의 파티션 데이터가 하나의 Reduce로 처리됩니다. 각 Reduce 작업에 대해 Reduce는 다양한 Map 작업에서 데이터를 수신하며 각 Map의 데이터는 순서대로 정렬됩니다. Reduce 작업의 각 처리는 동일한 키를 가진 모든 데이터에 대한 데이터를 줄여 새로운 키-값 쌍으로 HDFS에 출력하는 것입니다.

3. Yarn: Resource Manager

Hadoop의 MapReduce 아키텍처는 YARN(Yet Another Resource Negotiator, 또 다른 리소스 코디네이터)이라고 하며, 이는 보다 효율적인 리소스 관리의 핵심입니다.

YARN에는 주로 리소스 관리자(RM), 노드 관리자(NM) 및 애플리케이션 마스터(AM)의 세 가지 주요 모듈이 포함됩니다.

  • 리소스 관리자는 모든 리소스의 모니터링, 할당 및 관리를 담당합니다.
  • 노드 관리자는 각 노드의 유지 관리를 담당합니다.

위 내용은 HADOOP의 세 가지 핵심 구성 요소는 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
1 몇 달 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Java 오류: Hadoop 오류, 처리 및 방지 방법 Java 오류: Hadoop 오류, 처리 및 방지 방법 Jun 24, 2023 pm 01:06 PM

Java 오류: Hadoop 오류, 처리 및 방지 방법 Hadoop을 사용하여 빅 데이터를 처리할 때 작업 실행에 영향을 미치고 데이터 처리 실패를 유발할 수 있는 Java 예외 오류가 자주 발생합니다. 이 기사에서는 몇 가지 일반적인 Hadoop 오류를 소개하고 이를 처리하고 방지하는 방법을 제공합니다. Java.lang.OutOfMemoryErrorOutOfMemoryError는 Java 가상 머신의 메모리 부족으로 인해 발생하는 오류입니다. 하둡이 있을 때

Yan Shuicheng/Cheng Mingming의 신작! Sora의 핵심 구성 요소인 DiT 교육은 10배 가속화되었으며 Masked Diffusion Transformer V2는 오픈 소스입니다. Yan Shuicheng/Cheng Mingming의 신작! Sora의 핵심 구성 요소인 DiT 교육은 10배 가속화되었으며 Masked Diffusion Transformer V2는 오픈 소스입니다. Mar 13, 2024 pm 05:58 PM

Sora의 강력한 핵심 기술 중 하나인 DiT는 DiffusionTransformer를 활용하여 생성 모델을 더 큰 규모로 확장함으로써 뛰어난 이미지 생성 효과를 달성합니다. 그러나 모델 크기가 커지면 학습 비용이 급등하게 됩니다. 난카이대학교 SeaAILab의 Yan Shuicheng, Cheng Mingming 연구팀과 Kunlun Wanwei 2050 연구소는 ICCV2023 컨퍼런스에서 MaskedDiffusionTransformer라는 새로운 모델을 제안했습니다. 이 모델은 마스크 모델링 기술을 사용하여 의미론적 표현 정보를 학습하여 DiffusionTransfomer의 학습 속도를 높이고 이미지 생성 분야에서 SoTA 결과를 달성합니다. 이 하나

빅 데이터 저장 및 쿼리를 위해 Beego에서 Hadoop 및 HBase 사용 빅 데이터 저장 및 쿼리를 위해 Beego에서 Hadoop 및 HBase 사용 Jun 22, 2023 am 10:21 AM

빅데이터 시대가 도래하면서 데이터의 처리와 저장이 더욱 중요해지고 있으며, 대용량 데이터를 어떻게 효율적으로 관리하고 분석할 것인가가 기업의 과제가 되었습니다. Apache Foundation의 두 가지 프로젝트인 Hadoop과 HBase는 빅데이터 저장 및 분석을 위한 솔루션을 제공합니다. 이 기사에서는 빅데이터 저장 및 쿼리를 위해 Beego에서 Hadoop 및 HBase를 사용하는 방법을 소개합니다. 1. Hadoop 및 HBase 소개 Hadoop은 오픈 소스 분산 스토리지 및 컴퓨팅 시스템입니다.

빅데이터 처리에 PHP와 Hadoop을 사용하는 방법 빅데이터 처리에 PHP와 Hadoop을 사용하는 방법 Jun 19, 2023 pm 02:24 PM

데이터의 양이 지속적으로 증가함에 따라 기존의 데이터 처리 방식으로는 더 이상 빅데이터 시대가 가져온 과제를 처리할 수 없습니다. 하둡(Hadoop)은 빅데이터 처리 시 단일 노드 서버로 인해 발생하는 성능 병목 현상을 분산 저장 및 대용량 데이터 처리를 통해 해결하는 오픈소스 분산 컴퓨팅 프레임워크이다. PHP는 웹 개발에 널리 사용되는 스크립팅 언어로 개발 속도가 빠르고 유지 관리가 쉽다는 장점이 있습니다. 이 글에서는 빅데이터 처리를 위해 PHP와 Hadoop을 사용하는 방법을 소개합니다. 하둡이란 무엇인가Hadoop이란

Java 기술 플랫폼의 핵심 구성 요소 및 기능에 대한 종합 분석 Java 기술 플랫폼의 핵심 구성 요소 및 기능에 대한 종합 분석 Jan 09, 2024 pm 08:01 PM

Java 기술 플랫폼의 핵심 구성 요소 및 기능에 대한 심층 분석 Java 기술은 다양한 분야에서 널리 사용되며 주류 프로그래밍 언어 및 개발 플랫폼이 되었습니다. Java 기술 플랫폼은 개발자에게 풍부한 도구와 리소스를 제공하는 일련의 핵심 구성 요소와 기능으로 구성되어 Java 개발을 더욱 효율적이고 편리하게 만듭니다. 이 기사에서는 Java 기술 플랫폼의 핵심 구성 요소와 기능에 대한 심층 분석을 제공하고 소프트웨어 개발에서 Java 기술 플랫폼의 중요성과 응용 시나리오를 살펴봅니다. 먼저 JVM(Java Virtual Machine)은 Java입니다.

빅 데이터 분야에서 Java 적용 살펴보기: Hadoop, Spark, Kafka 및 기타 기술 스택에 대한 이해 빅 데이터 분야에서 Java 적용 살펴보기: Hadoop, Spark, Kafka 및 기타 기술 스택에 대한 이해 Dec 26, 2023 pm 02:57 PM

Java 빅데이터 기술 스택: Hadoop, Spark, Kafka 등 빅데이터 분야에서 Java의 응용을 이해합니다. 데이터의 양이 지속적으로 증가함에 따라 오늘날 인터넷 시대에 빅데이터 기술이 화두가 되고 있습니다. 빅데이터 분야에서 우리는 하둡(Hadoop), 스파크(Spark), 카프카(Kafka) 등의 기술 이름을 자주 듣습니다. 이러한 기술은 매우 중요한 역할을 하며, 널리 사용되는 프로그래밍 언어인 Java는 빅데이터 분야에서도 큰 역할을 합니다. 이 기사에서는 Java의 대규모 애플리케이션에 중점을 둘 것입니다.

리눅스에 하둡을 설치하는 방법 리눅스에 하둡을 설치하는 방법 May 18, 2023 pm 08:19 PM

1: JDK1을 설치합니다. 다음 명령을 실행하여 JDK1.8 설치 패키지를 다운로드합니다. wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2 다음 명령을 실행하여 다운로드한 JDK1.8 설치 패키지의 압축을 풉니다. . tar-zxvfjdk-8u151-linux-x64.tar.gz3. JDK 패키지를 이동하고 이름을 바꿉니다. mvjdk1.8.0_151//usr/java84. Java 환경 변수를 구성합니다. 에코'

PHP를 사용하여 Hadoop, Spark, Flink 등 대규모 데이터 처리를 수행합니다. PHP를 사용하여 Hadoop, Spark, Flink 등 대규모 데이터 처리를 수행합니다. May 11, 2023 pm 04:13 PM

데이터의 양이 지속적으로 증가함에 따라 대규모 데이터 처리는 기업이 직면하고 해결해야 할 문제가 되었습니다. 기존의 관계형 데이터베이스는 더 이상 이러한 요구를 충족할 수 없습니다. 대규모 데이터의 저장 및 분석을 위해서는 Hadoop, Spark 및 Flink와 같은 분산 컴퓨팅 플랫폼이 최선의 선택이 되었습니다. 데이터 처리 도구를 선택하는 과정에서 PHP는 개발 및 유지 관리가 쉬운 언어로 개발자들 사이에서 점점 인기를 얻고 있습니다. 이 기사에서는 대규모 데이터 처리에 PHP를 활용하는 방법과 방법을 살펴보겠습니다.