hadoop에서 hdfs의 역할은 대용량 데이터를 위한 스토리지를 제공하고 높은 처리량의 데이터 액세스를 제공하는 것입니다. HDFS는 높은 내결함성을 가지며 저렴한 하드웨어에 배포되도록 설계되었으며 애플리케이션 데이터에 액세스하기 위한 높은 처리량을 제공합니다. 매우 큰 데이터 세트가 있는 애플리케이션에 적합합니다.
Hadoop은 Apache Foundation에서 개발한 분산 시스템 인프라입니다. 사용자는 배포의 기본 세부 사항을 이해하지 않고도 분산 프로그램을 개발할 수 있습니다. 고속 컴퓨팅 및 스토리지를 위해 클러스터의 기능을 최대한 활용하세요.
Hadoop은 분산 파일 시스템(Hadoop Distributed File System)을 구현하며, 해당 구성 요소 중 하나는 HDFS입니다.
HDFS는 내결함성이 뛰어나고 저가형 하드웨어에 배포되도록 설계되었으며, 애플리케이션 데이터에 액세스하기 위한 높은 처리량을 제공하므로 매우 큰 데이터 세트(대형 데이터 세트) 애플리케이션에 적합합니다. HDFS는 POSIX 요구 사항을 완화하고 파일 시스템의 데이터에 대한 스트리밍 액세스를 허용합니다.
Hadoop 프레임워크의 핵심 디자인은 HDFS와 MapReduce입니다. HDFS는 대용량 데이터에 대한 스토리지를 제공하고 MapReduce는 대용량 데이터에 대한 계산을 제공합니다.
HDFS
외부 클라이언트에게 HDFS는 전통적인 계층적 파일 시스템처럼 보입니다. 파일을 생성, 삭제, 이동하거나 이름을 바꾸는 등의 작업을 수행할 수 있습니다. 그러나 HDFS의 아키텍처는 고유한 특성에 따라 결정되는 특정 노드 집합(그림 1 참조)을 기반으로 구축됩니다. 이러한 노드에는 HDFS 내에서 메타데이터 서비스를 제공하는 NameNode(단 하나)와 HDFS에 스토리지 블록을 제공하는 DataNode가 포함됩니다. NameNode가 하나만 존재하기 때문에 이는 HDFS 1.x 버전의 단점(단일 실패 지점)입니다. Hadoop 2.x 버전에서는 두 개의 NameNode가 존재할 수 있어 단일 노드 오류 문제를 해결합니다.
HDFS에 저장된 파일은 블록으로 나누어지고 이 블록은 여러 컴퓨터(DataNode)에 복사됩니다. 이는 기존 RAID 아키텍처와 매우 다릅니다. 블록 크기(기본값은 1.x의 경우 64MB, 2.x의 경우 128MB)와 복사된 블록 수는 파일이 생성될 때 클라이언트에 의해 결정됩니다. NameNode는 모든 파일 작업을 제어합니다. HDFS 내의 모든 통신은 표준 TCP/IP 프로토콜을 기반으로 합니다.
더 많은 관련 지식을 보려면 PHP 중국어 웹사이트를 방문하세요!
위 내용은 hadoop에서 hdfs의 역할은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!