首頁 資料庫 Redis Redis怎麼讓Spark提速

Redis怎麼讓Spark提速

Jun 03, 2023 am 11:45 AM
redis spark

Apache Spark is increasingly becoming a model for next-generation big data processing tools.。透過借鑒開源演算法,並將處理任務分散到運算節點叢集上,無論在它們在單一平台上所能執行的資料分析類型方面,或是在執行這些任務的速度方面,Spark和Hadoop這一代框架都輕鬆勝過傳統框架。 Spark利用記憶體處理數據,因而速度比基於磁碟的Hadoop大幅加快(快100倍)。

但如果得到一點幫助,Spark可以運作得還要快。如果結合Spark和Redis(流行的記憶體資料結構儲存技術),你可以再次大幅提升處理分析任務的效能。這歸功於Redis經過優化的資料結構,以及它在執行操作時,能夠盡量降低複雜性和開銷。使用連接器連接到Redis的資料結構和API能夠進一步加快Spark的速度。

提速幅度有多大?如果Redis和Spark結合使用,結果證明,處理資料(以便分析下面描述的時間序列資料)的速度比Spark單單使用進程記憶體或堆外快取來儲存資料要快45倍――不是快45%,而是快整整45倍!

分析交易速度的重要性日益逐漸增長,因為許多公司需要實現與業務交易速度同等快速的分析。越來越多的決策變得自動化,驅動這些決策所需的分析應該要即時進行。 Apache  Spark是一種出色的通用資料處理架構;雖然它並非***即時,還是往更及時地讓資料發揮用途邁出了一大步。

Spark使用彈性分散式資料集(RDD),這些資料集可以儲存在易失性記憶體或HDFS之類的持久性儲存系統中。所有分佈在Spark叢集的節點上的RDD都保持不變,但可以透過轉換操作建立其他RDD。

Redis怎麼讓Spark提速

Spark RDD

#RDD是Spark中的重要抽象物件。它們代表了一種高效地將資料呈現給迭代進程的容錯方法。使用記憶體進行處理意味著相較於使用HDFS和MapReduce,處理時間將減少若干數量級。

Redis是專門為高性能設計的。亞毫秒延遲得益於經過最佳化的資料結構,由於讓操作可以在鄰近資料儲存的地方執行,提高了效率。這種資料結構不僅可以有效地利用記憶體、降低應用程式的複雜性,還降低了網路開銷、頻寬消耗量和處理時間。 Redis支援多個資料結構,其中包括字串、集合、有序集合、雜湊、位圖、hyperloglog和地理空間索引。 Redis資料結構就像樂高積木一樣,為開發人員提供了簡單的通道來實現複雜功能。

為了直覺地顯示這個資料結構如何簡化應用程式的處理時間和複雜性,我們不妨以有序集合(Sorted  Set)資料結構為例。有序集合基本上是一組按分數排序的成員。

Redis怎麼讓Spark提速

Redis有序集合

你可以將多種類型的資料儲存在這裡,它們自動由分數來排序。儲存在有序集合中的常見數據類型包括:物品(按價格)、商品名稱(按數量)、股價等時間序列數據,以及時間戳等感測器讀數。

有序集合的魅力在於Redis的內建操作,讓範圍查詢、多個有序集合交叉、按成員等級和分數檢索及更多事務可以簡單地執行,具有***的速度,還可以大規模執行。內建操作不僅節省了需要編寫的程式碼,記憶體中執行操作還縮短了網路延遲、節省了頻寬,因而能夠實現亞毫秒延遲的高吞吐量。如果將有序集合用於分析時間序列數據,相較於其他記憶體鍵/值儲存系統或基於磁碟的資料庫,通常可以將效能提升好幾個數量級。

Spark-Redis連接件是為了提高Spark的分析能力而由Redis團隊開發的。這個程式包讓Spark得以使用Redis作為其資料來源之一。透過此連接件,Spark可以直接存取Redis的資料結構,從而顯著提高各種類型的分析效能。

Redis怎麼讓Spark提速

Spark Redis連接件

為了展示為Spark帶來的好處,Redis團隊決定在幾個不同的場景下執行時間片(範圍)查詢,以此橫向比較Spark中的時間序列分析。這幾種場景包括:Spark在堆內記憶體中儲存所有數據,Spark使用Tachyon作為堆外緩存,Spark使用HDFS,以及結合Spark和Redis。

Redis團隊使用Cloudera的Spark時間序列套件,建立了Spark-Redis時間序列套件,使用Redis有序集合來加快時間序列分析。該軟體包除了提供讓Spark能夠存取Redis的全部資料結構,還執行了兩項附加任務

自動確保Redis節點與Spark叢集一致,從而確保每個Spark節點使用本地Redis數據,從而優化延遲。

與Spark資料幀和資料來源API整合起來,以便自動將Spark SQL查詢轉換成對Redis中的資料來說***效的那種檢索機制。

簡單地說,這意味著使用者不必擔心Spark和Redis之間的操作一致性,可以繼續使用Spark SQL來分析,同時大幅提升了查詢效能。

在此橫向比較中所使用的時間序列資料包括:隨機產生的金融資料以及32年內每天的1024檔股票。每隻股票由各自的有序集合來表示,分數是日期,數據成員包括開盤價、***價、***價、收盤價、成交量以及調整後的收盤價。 The following image depicts the data representation in a Redis sorted set used for Spark analysis:

Redis怎麼讓Spark提速

Spark Redis時間序列

#在上述上述範例中,就有序集合AAPL而言,有表示每天(1989-01-01)的分數,還有全天中表示為一個相關行的多個值。只要在Redis中使用一個簡單的ZRANGEBYSCORE指令,就可以執行此操作:取得某個時間片的所有值,以取得指定的日期範圍內的所有股價。 Redis可以比其他按鍵/值儲存系統更快執行這類查詢,速度可以快100倍。

這番橫向比較證實了效能提升。結果發現,Spark使用Redis執行時間片查詢的速度比Spark使用HDFS快135倍,比Spark使用堆內(進程)記憶體或Spark使用Tachyon作為堆外快取快45倍。下圖顯示了不同場景所比較的平均執行時間:

Redis怎麼讓Spark提速

#Spark Redis橫向比較

##這個指南會步步引導你安裝標準的Spark叢集和Spark-Redis套件。透過一個簡單的單字計數範例,它示範如何整合Spark和Redis的使用。你在試用Spark和Spark-Redis程式包後,可以進一步探究利用其他Redis資料結構的更多場景。

雖然有序集合很適合時間序列數據,但Redis的其他資料結構(如集合、列表和地理空間索引)可以進一步豐富Spark分析。想像一下:一個Spark進程正在嘗試取得有哪些地區適合發布新產品,考慮人群偏好以及離市中心的距離等因素來優化發布效果。想像一下,具有內建分析功能的資料結構(如地理空間索引和集合)可以顯著加快流程。 Spark-Redis這對組合擁有***的應用前景。

Spark提供廣泛的分析能力,包括SQL、機器學習、圖形計算和Spark Streaming。使用Spark的記憶體處理功能只能讓你達到一定的規模。然而有了Redis後,你可以更進一步:不僅可以透過利用Redis的資料結構來提升效能,還可以更輕鬆自如地擴展Spark,即透過充分利用Redis提供的共享分散式記憶體資料儲存機制,處理數百萬個記錄,乃至數十億個記錄。

時間序列這個例子只是開了個頭。將Redis資料結構用於機器學習和圖形分析同樣有望為這些工作負載帶來執行時間大幅縮短的好處。

以上是Redis怎麼讓Spark提速的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

redis集群模式怎麼搭建 redis集群模式怎麼搭建 Apr 10, 2025 pm 10:15 PM

Redis集群模式通過分片將Redis實例部署到多個服務器,提高可擴展性和可用性。搭建步驟如下:創建奇數個Redis實例,端口不同;創建3個sentinel實例,監控Redis實例並進行故障轉移;配置sentinel配置文件,添加監控Redis實例信息和故障轉移設置;配置Redis實例配置文件,啟用集群模式並指定集群信息文件路徑;創建nodes.conf文件,包含各Redis實例的信息;啟動集群,執行create命令創建集群並指定副本數量;登錄集群執行CLUSTER INFO命令驗證集群狀態;使

redis數據怎麼清空 redis數據怎麼清空 Apr 10, 2025 pm 10:06 PM

如何清空 Redis 數據:使用 FLUSHALL 命令清除所有鍵值。使用 FLUSHDB 命令清除當前選定數據庫的鍵值。使用 SELECT 切換數據庫,再使用 FLUSHDB 清除多個數據庫。使用 DEL 命令刪除特定鍵。使用 redis-cli 工具清空數據。

redis怎麼讀取隊列 redis怎麼讀取隊列 Apr 10, 2025 pm 10:12 PM

要從 Redis 讀取隊列,需要獲取隊列名稱、使用 LPOP 命令讀取元素,並處理空隊列。具體步驟如下:獲取隊列名稱:以 "queue:" 前綴命名,如 "queue:my-queue"。使用 LPOP 命令:從隊列頭部彈出元素並返回其值,如 LPOP queue:my-queue。處理空隊列:如果隊列為空,LPOP 返回 nil,可先檢查隊列是否存在再讀取元素。

centos redis如何配置Lua腳本執行時間 centos redis如何配置Lua腳本執行時間 Apr 14, 2025 pm 02:12 PM

在CentOS系統上,您可以通過修改Redis配置文件或使用Redis命令來限制Lua腳本的執行時間,從而防止惡意腳本佔用過多資源。方法一:修改Redis配置文件定位Redis配置文件:Redis配置文件通常位於/etc/redis/redis.conf。編輯配置文件:使用文本編輯器(例如vi或nano)打開配置文件:sudovi/etc/redis/redis.conf設置Lua腳本執行時間限制:在配置文件中添加或修改以下行,設置Lua腳本的最大執行時間(單位:毫秒)

redis指令怎麼用 redis指令怎麼用 Apr 10, 2025 pm 08:45 PM

使用 Redis 指令需要以下步驟:打開 Redis 客戶端。輸入指令(動詞 鍵 值)。提供所需參數(因指令而異)。按 Enter 執行指令。 Redis 返迴響應,指示操作結果(通常為 OK 或 -ERR)。

redis怎麼使用鎖 redis怎麼使用鎖 Apr 10, 2025 pm 08:39 PM

使用Redis進行鎖操作需要通過SETNX命令獲取鎖,然後使用EXPIRE命令設置過期時間。具體步驟為:(1) 使用SETNX命令嘗試設置一個鍵值對;(2) 使用EXPIRE命令為鎖設置過期時間;(3) 當不再需要鎖時,使用DEL命令刪除該鎖。

redis命令行怎麼用 redis命令行怎麼用 Apr 10, 2025 pm 10:18 PM

使用 Redis 命令行工具 (redis-cli) 可通過以下步驟管理和操作 Redis:連接到服務器,指定地址和端口。使用命令名稱和參數向服務器發送命令。使用 HELP 命令查看特定命令的幫助信息。使用 QUIT 命令退出命令行工具。

redis過期策略怎麼設置 redis過期策略怎麼設置 Apr 10, 2025 pm 10:03 PM

Redis數據過期策略有兩種:定期刪除:定期掃描刪除過期鍵,可通過 expired-time-cap-remove-count、expired-time-cap-remove-delay 參數設置。惰性刪除:僅在讀取或寫入鍵時檢查刪除過期鍵,可通過 lazyfree-lazy-eviction、lazyfree-lazy-expire、lazyfree-lazy-user-del 參數設置。

See all articles