Redis가 Spark 속도를 높이는 방법

PHPz
풀어 주다: 2023-06-03 11:45:36
앞으로
1335명이 탐색했습니다.

Apache Spark는 점점 차세대 빅 데이터 처리 도구의 모델이 되고 있습니다. 오픈 소스 알고리즘을 빌려 컴퓨팅 노드 클러스터에 처리 작업을 분산함으로써 Spark 및 Hadoop 생성 프레임워크는 단일 플랫폼에서 수행할 수 있는 데이터 분석 유형과 이러한 작업을 수행할 수 있는 속도 모두에서 쉽게 뛰어납니다. 전통적인 프레임워크. Spark는 메모리를 사용하여 데이터를 처리하므로 디스크 기반 Hadoop보다 훨씬 더 빠릅니다(최대 100배 더 빠름).

하지만 약간의 도움이 있으면 Spark가 더욱 빠르게 실행될 수 있습니다. Spark를 Redis(인기 메모리 내 데이터 구조 저장 기술)와 결합하면 분석 작업 처리 성능을 다시 한 번 크게 향상시킬 수 있습니다. 이는 Redis의 최적화된 데이터 구조와 작업 수행 시 복잡성과 오버헤드를 최소화하는 능력 때문입니다. 커넥터를 사용하여 Redis 데이터 구조 및 API에 연결하면 Spark 속도를 더욱 높일 수 있습니다.

Redis와 Spark를 함께 사용하면 데이터 처리(아래 설명된 시계열 데이터 분석을 위해)가 프로세스 메모리나 오프 힙 캐시만 사용하는 Spark보다 45배 빠른 것으로 나타났습니다. 데이터 저장 - 45%가 아니라 45배 더 빠릅니다!

많은 기업에서 비즈니스 트랜잭션만큼 빠른 분석을 구현해야 하기 때문에 분석 트랜잭션 속도의 중요성이 날로 커지고 있습니다. 점점 더 많은 결정이 자동화됨에 따라 이러한 결정을 내리는 데 필요한 분석은 실시간으로 이루어져야 합니다. Apache Spark는 뛰어난 범용 데이터 처리 프레임워크입니다. 비록 완전한 실시간은 아니지만 보다 시기적절하게 데이터를 유용하게 만드는 큰 진전입니다.

Spark는 휘발성 메모리나 HDFS와 같은 영구 스토리지 시스템에 저장할 수 있는 RDD(복원력 있는 분산 데이터 세트)를 사용합니다. Spark 클러스터의 노드 전체에 분산된 모든 RDD는 변경되지 않은 상태로 유지되지만 변환 작업을 통해 다른 RDD를 생성할 수 있습니다.

Redis가 Spark 속도를 높이는 방법

Spark RDD

RDD는 Spark에서 중요한 추상 개체입니다. 이는 반복 프로세스에 데이터를 효율적으로 제공하는 내결함성 방식을 나타냅니다. 인메모리 처리를 사용한다는 것은 HDFS 및 MapReduce를 사용하는 것에 비해 처리 시간이 몇 배나 단축된다는 것을 의미합니다.

Redis는 고성능을 위해 특별히 설계되었습니다. 밀리초 미만의 대기 시간은 데이터가 저장된 위치 근처에서 작업을 수행할 수 있도록 하여 효율성을 향상시키는 최적화된 데이터 구조의 결과입니다. 이 데이터 구조는 메모리를 효율적으로 활용하고 애플리케이션 복잡성을 줄일 뿐만 아니라 네트워크 오버헤드, 대역폭 소비 및 처리 시간도 줄여줍니다. Redis는 문자열, 세트, ​​정렬된 세트, 해시, 비트맵, 하이퍼로그 로그 및 지리공간 인덱스를 포함한 여러 데이터 구조를 지원합니다. Redis 데이터 구조는 레고 벽돌과 같아서 개발자에게 복잡한 기능을 구현할 수 있는 간단한 채널을 제공합니다.

이 데이터 구조가 어떻게 처리 시간과 애플리케이션의 복잡성을 단순화할 수 있는지 시각적으로 보여주기 위해 정렬 세트(Sorted Set) 데이터 구조를 예로 들어볼 수도 있습니다. 순서 집합은 기본적으로 점수별로 정렬된 구성원 집합입니다.

Redis가 Spark 속도를 높이는 방법

Redis Sorted Collection

여기에는 다양한 유형의 데이터를 저장할 수 있으며 점수별로 자동 정렬됩니다. 순서가 지정된 컬렉션에 저장되는 일반적인 데이터 유형에는 품목(가격별), 제품 이름(수량별), 주가, 센서 판독값(타임스탬프 등)과 같은 시계열 데이터가 포함됩니다.

순서 있는 집합의 매력은 범위 쿼리, 여러 순서 집합의 교차, 멤버 수준 및 점수별 검색, 더 많은 트랜잭션을 매우 빠른 속도로 간단하게 실행할 수 있는 Redis의 내장 작업에 있습니다. 대규모 구현. 내장된 작업은 작성해야 하는 코드를 절약할 뿐만 아니라 메모리에서 작업을 수행하면 네트워크 대기 시간이 줄어들고 대역폭이 절약되므로 밀리초 미만의 대기 시간으로 높은 처리량이 가능합니다. 정렬된 세트를 사용하여 시계열 데이터를 분석하는 경우 다른 인메모리 키/값 스토리지 시스템 또는 디스크 기반 데이터베이스에 비해 성능 향상이 수십 배로 달성될 수 있습니다.

Spark-Redis 커넥터는 Spark의 분석 기능을 향상시키기 위해 Redis 팀에서 개발되었습니다. 이 패키지를 사용하면 Spark가 Redis를 데이터 소스 중 하나로 사용할 수 있습니다. 이 커넥터를 통해 Spark는 Redis의 데이터 구조에 직접 액세스할 수 있으므로 다양한 유형의 분석 성능이 크게 향상됩니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis Connector

Spark에 가져온 이점을 입증하기 위해 Redis 팀은 Spark의 시계열 분석을 수평적으로 비교하기 위해 여러 가지 시나리오에서 시간 조각(범위) 쿼리를 수행하기로 결정했습니다. 이러한 시나리오에는 다음이 포함됩니다. Spark는 모든 데이터를 힙 내 메모리에 저장하고, Spark는 Tachyon을 오프 힙 캐시로 사용하고, Spark는 HDFS를 사용하고, Spark와 Redis의 조합을 사용합니다.

Redis 팀은 Cloudera의 Spark 시계열 패키지를 사용하여 Redis 주문 컬렉션을 사용하여 시계열 분석 속도를 높이는 Spark-Redis 시계열 패키지를 구축했습니다. Spark가 Redis에 액세스할 수 있도록 하는 모든 데이터 구조를 제공하는 것 외에도 이 패키지는 두 가지 추가 작업도 수행합니다

Redis 노드가 Spark 클러스터와 일치하는지 자동으로 확인하여 각 Spark 노드가 로컬 Redis 데이터를 사용하도록 보장하여 대기 시간을 최적화합니다.

Spark 데이터 프레임 및 데이터 소스 API와 통합하여 Spark SQL 쿼리를 Redis의 가장 효율적인 데이터 검색 메커니즘으로 자동 변환합니다.

간단히 말하면 사용자는 Spark와 Redis 간의 운영 일관성에 대해 걱정할 필요가 없으며 계속해서 Spark SQL을 분석에 사용하는 동시에 쿼리 성능을 크게 향상시킬 수 있다는 의미입니다.

이 병렬 비교에 사용된 시계열 데이터에는 무작위로 생성된 금융 데이터와 32년 동안 매일 1024개의 주식이 포함됩니다. 각 주식은 자체 주문 세트로 표시되며 점수는 날짜이며 데이터 멤버에는 시가, 종가, 종가, 종가, 거래량 및 조정 종가가 포함됩니다. 다음 이미지는 Spark 분석에 사용되는 Redis 정렬 세트의 데이터 표현을 보여줍니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis Time Series

위의 예에서 정렬 세트 AAPL 측면에서 매일( 1989-01 -01), 하루 동안의 여러 값이 하나의 관련 행으로 표시됩니다. 이를 수행하려면 Redis에서 간단한 ZRANGEBYSCORE 명령을 사용하면 됩니다. 특정 시간 조각에 대한 모든 값을 가져오므로 지정된 날짜 범위의 모든 주가를 가져옵니다. Redis는 이러한 유형의 쿼리를 다른 키/값 스토리지 시스템보다 최대 100배 빠르게 수행할 수 있습니다.

이 수평 비교를 통해 성능 개선이 확인되었습니다. Redis를 사용하는 Spark는 HDFS를 사용하는 Spark보다 135배 더 빠르게 타임 슬라이스 쿼리를 수행할 수 있고, 온 힙(프로세스) 메모리를 사용하는 Spark나 Tachyon을 오프 힙 캐시로 사용하는 Spark보다 45배 더 빠른 것으로 나타났습니다. 아래 그림은 다양한 시나리오에 따른 평균 실행 시간을 비교한 것입니다.

Redis가 Spark 속도를 높이는 방법

Spark Redis 수평 비교

이 가이드는 표준 Spark 클러스터 및 Spark-Redis 제품군을 설치하는 방법을 단계별로 안내합니다. 간단한 단어 계산 예제를 통해 Spark와 Redis의 사용을 통합하는 방법을 보여줍니다. Spark 및 Spark-Redis 패키지를 사용해 본 후에는 다른 Redis 데이터 구조를 활용하는 더 많은 시나리오를 더 탐색할 수 있습니다.

순서가 지정된 세트는 시계열 데이터에 적합하지만 세트, 목록, 지리공간 색인과 같은 Redis의 다른 데이터 구조는 Spark 분석을 더욱 강화할 수 있습니다. 상상해 보세요. Spark 프로세스는 출시 효과를 최적화하기 위해 군중 선호도, 도심과의 거리 등의 요소를 고려하여 신제품 출시에 적합한 지역을 파악하려고 합니다. 내장된 분석 기능을 갖춘 지리공간 색인 및 컬렉션과 같은 데이터 구조가 어떻게 이 프로세스의 속도를 크게 높일 수 있는지 상상해 보십시오. Spark-Redis 조합은 뛰어난 애플리케이션 전망을 가지고 있습니다.

Spark는 SQL, 기계 학습, 그래프 컴퓨팅, Spark Streaming을 포함한 광범위한 분석 기능을 제공합니다. Spark의 인메모리 처리 기능을 사용하면 특정 규모까지만 도달할 수 있습니다. 그러나 Redis를 사용하면 한 단계 더 나아갈 수 있습니다. Redis의 데이터 구조를 사용하여 성능을 향상시킬 수 있을 뿐만 아니라 Spark가 제공하는 공유 분산 메모리 데이터 저장 메커니즘을 최대한 활용하여 Spark를 보다 쉽게 ​​확장할 수도 있습니다. Redis는 수십만 개의 레코드, 심지어 수십억 개의 레코드를 처리합니다.

이 시계열 예시는 시작에 불과합니다. 기계 학습 및 그래프 분석을 위해 Redis 데이터 구조를 사용하면 이러한 워크로드에 상당한 실행 시간 이점을 가져올 것으로 예상됩니다.

위 내용은 Redis가 Spark 속도를 높이는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:yisu.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿