目錄
特性
安装并启动jobServer
测试job执行
预先启动Context
配置文件
首頁 資料庫 mysql教程 Spark as a Service之JobServer初测

Spark as a Service之JobServer初测

Jun 07, 2016 pm 04:39 PM
service spa spark

spark-jobserver提供了一个用于提交和管理Apache Spark作业(job)、jar文件和作业上下文(SparkContext)的RESTful接口。该项目位于git(https://github.com/ooyala/spark-jobserver),当前为0.4版本。 特性 Spark as a Service: 简单的面向job和context管理

spark-jobserver提供了一个用于提交和管理Apache Spark作业(job)、jar文件和作业上下文(SparkContext)的RESTful接口。该项目位于git(https://github.com/ooyala/spark-jobserver),当前为0.4版本。

特性

“Spark as a Service”: 简单的面向job和context管理的REST接口
通过长期运行的job context支持亚秒级低延时作业(job)
可以通过结束context来停止运行的作业(job)
分割jar上传步骤以提高job的启动
异步和同步的job API,其中同步API对低延时作业非常有效
支持Standalone Spark和Mesos
Job和jar信息通过一个可插拔的DAO接口来持久化
命名RDD以缓存,并可以通过该名称获取RDD。这样可以提高作业间RDD的共享和重用

安装并启动jobServer

jobServer依赖sbt,所以必须先装好sbt。

rpm -ivh https://dl.bintray.com/sbt/rpm/sbt-0.13.6.rpm
yum install git
# 下面clone这个项目
SHELL$ git clone https://github.com/ooyala/spark-jobserver.git
# 在项目根目录下,进入sbt  
SHELL$ sbt
......
[info] Set current project to spark-jobserver-master (in build file:/D:/Projects
/spark-jobserver-master/)
>
#在本地启动jobServer(开发者模式)
>re-start --- -Xmx4g
......
#此时会下载spark-core,jetty和liftweb等相关模块。
job-server Starting spark.jobserver.JobServer.main()
[success] Total time: 545 s, completed 2014-10-21 19:19:48
登入後複製

然后访问http://localhost:8090 可以看到Web UI
job

?

测试job执行

这里我们直接使用job-server的test包进行测试

SHELL$ sbt job-server-tests/package
......
[info] Compiling 5 Scala sources to /root/spark-jobserver/job-server-tests/target/classes...
[info] Packaging /root/spark-jobserver/job-server-tests/target/job-server-tests-0.4.0.jar ...
[info] Done packaging.
登入後複製

编译完成后,将打包的jar文件通过REST接口上传
REST接口的API如下:
GET /jobs 查询所有job
POST /jobs 提交一个新job
GET /jobs/<jobid></jobid> 查询某一任务的结果和状态
GET /jobs/<jobid>/config</jobid>

SHELL$ curl --data-binary @job-server-tests/target/job-server-tests-0.4.0.jar localhost:8090/jars/test
OK
# 查看提交的jar
SHELL$ curl localhost:8090/jars/
{
  "test": "2014-10-22T15:15:04.826+08:00"
}
# 提交job
提交的appName为test,class为spark.jobserver.WordCountExample
SHELL$  curl -d "input.string = hello job server" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'
{
  "status": "STARTED",
  "result": {
    "jobId": "34ce0666-0148-46f7-8bcf-a7a19b5608b2",
    "context": "eba36388-spark.jobserver.WordCountExample"
  }
}
# 通过job-id查看结果和配置信息
SHELL$ curl localhost:8090/jobs/34ce0666-0148-46f7-8bcf-a7a19b5608b2
{
  "status": "OK",
  "result": {
    "job": 1,
    "hello": 1,
    "server": 1
  }
SHELL$ curl localhost:8090/jobs/34ce0666-0148-46f7-8bcf-a7a19b5608b2/config
{
    "input" : {
        "string" : "hello job server"
}
# 提交一个同步的job,当执行命令后,terminal会hang住直到任务执行完毕。
SHELL$ curl -d "input.string = hello job server" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'&sync=true
{
  "status": "OK",
  "result": {
    "job": 1,
    "hello": 1,
    "server": 1
  }
登入後複製

在Web UI上也可以看到Completed Jobs相应的信息。

预先启动Context

和Context相关的API
GET /contexts ?查询所有预先建立好的context
POST /contexts ?建立新的context
DELETE ?/contexts/<name></name> ?删除此context,停止运行于此context上的所有job

SHELL$ curl -d "" 'localhost:8090/contexts/test-context?num-cpu-cores=4&mem-per-node=512m'
OK
# 查看现有的context
curl localhost:8090/contexts
["test-context", "feceedc3-spark.jobserver.WordCountExample"]
接下来在这个context上执行job
curl -d "input.string = a b c a b see" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample&context=test-context&sync=true'
{
  "status": "OK",
  "result": {
    "a": 2,
    "b": 2,
    "c": 1,
    "see": 1
  }
登入後複製

配置文件

打开配置文件,可以发现master设置为local[4],可以将其改为我们的集群地址。

vim spark-jobserver/config/local.conf.template
master = "local[4]"
登入後複製

此外,关于数据对象的存储方法和路径:

jobdao = spark.jobserver.io.JobFileDAO
    filedao {
      rootdir = /tmp/spark-job-server/filedao/data
    }
登入後複製

默认context设置,该设置可以被
下面再次在sbt中启动REST接口的中的参数覆盖。

# universal context configuration.  These settings can be overridden, see README.md
  context-settings {
    num-cpu-cores = 2           # Number of cores to allocate.  Required.
    memory-per-node = 512m         # Executor memory per node, -Xmx style eg 512m, #1G, etc.
    # in case spark distribution should be accessed from HDFS (as opposed to being installed on every mesos slave)
    # spark.executor.uri = "hdfs://namenode:8020/apps/spark/spark.tgz"
    # uris of jars to be loaded into the classpath for this context
    # dependent-jar-uris = ["file:///some/path/present/in/each/mesos/slave/somepackage.jar"]
  }
登入後複製

基本的使用到此为止,jobServer的部署和项目使用将之后介绍。顺便期待下一个版本SQL Window的功能。

^^

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1323
25
PHP教程
1272
29
C# 教程
1251
24
Laravel開發:如何使用Laravel Sanctum實現SPA和API驗證? Laravel開發:如何使用Laravel Sanctum實現SPA和API驗證? Jun 13, 2023 pm 12:36 PM

LaravelSanctum是一個輕量級的身份驗證包,能夠讓你在Laravel應用程式中輕鬆實現API認證和SPA(單頁應用程式)認證。在本文中,我們將探討如何使用LaravelSanctum來實現SPA和API驗證。首先,讓我們看看什麼是SPA和API認證。 SPA認證是指單頁應用程序,它不會重新加載整個頁面,而是使用AJAX從Web伺服器請求信息,以

使用Python和React建構SPA範例 使用Python和React建構SPA範例 Jun 17, 2023 pm 12:38 PM

隨著網路科技的不斷發展,越來越多的網站開始採用SPA(SinglePageApplication)的架構方式。 SPA是指透過一張頁面來呈現全部或大部分內容,透過客戶端動態更新頁面內容,而不是採用傳統的多頁面方式。在本文中,我們將會使用Python和React來建構一個簡單的SPA範例,從而示範SPA的基本想法和實作方法。一、環境搭建在開始建造之前,我們

十個AI演算法常用函式庫Java版 十個AI演算法常用函式庫Java版 Jun 13, 2023 pm 04:33 PM

今年ChatGPT火了半年多,熱度絲毫沒有降下來。深度學習和NLP也重新回到了大家的視線中。公司裡有一些小夥伴都在問我,身為Java開發人員,如何入門人工智慧,是時候拿出壓箱底的私藏的學習AI的Java庫來介紹給大家。這些函式庫和框架為機器學習、深度學習、自然語言處理等提供了廣泛的工具和演算法。根據AI專案的具體需求,可以選擇最合適的函式庫或框架,並開始嘗試使用不同的演算法來建立AI解決方案。 1.Deeplearning4j它是一個用於Java和Scala的開源分散式深度學習函式庫。 Deeplearning

探索Java在大數據領域的應用:Hadoop、Spark、Kafka等技術堆疊的了解 探索Java在大數據領域的應用:Hadoop、Spark、Kafka等技術堆疊的了解 Dec 26, 2023 pm 02:57 PM

Java大數據技術堆疊:了解Java在大數據領域的應用,如Hadoop、Spark、Kafka等隨著資料量不斷增加,大數據技術成為了當今網路時代的熱門話題。在大數據領域,我們常聽到Hadoop、Spark、Kafka等技術的名字。這些技術起到了至關重要的作用,而Java作為一門廣泛應用的程式語言,也在大數據領域發揮著巨大的作用。本文將重點放在Java在大

Django和Vue.js建構的SPA範例 Django和Vue.js建構的SPA範例 Jun 18, 2023 pm 07:27 PM

近幾年,SPA(SinglePageApplication)已經成為了Web開發的一種流行模式。相較於傳統的多頁面應用,SPA更加快速、流暢,同時對於開發者也更友善方便。本文將分享一個基於Django和Vue.js建構的SPA範例,希望能夠提供大家一些參考和啟示。 Django是著名的PythonWeb框架,擁有強大的後端開發能力。 Vue.js則

在Go語言中使用Spark實現高效率的資料處理 在Go語言中使用Spark實現高效率的資料處理 Jun 16, 2023 am 08:30 AM

隨著大數據時代的到來,資料處理變得越來越重要。對於各種不同的資料處理任務,不同的技術也應運而生。其中,Spark作為一種適用於大規模資料處理的技術,已被廣泛地應用於各個領域。此外,Go語言作為一種高效的程式語言,在近年來也得到了越來越多的關注。在本文中,我們將探討如何在Go語言中使用Spark實現高效率的資料處理。我們將首先介紹Spark的一些基本概念和原理

PHP入門指南:PHP和Spark PHP入門指南:PHP和Spark May 20, 2023 am 08:41 AM

PHP是一種非常受歡迎的伺服器端程式語言,因為它簡單易學、開放原始碼和跨平台。目前,許多大企業都採用PHP語言來建立應用程序,例如Facebook和WordPress等。 Spark是一種快速且輕量級的開發框架,可用於建立Web應用程式。它是基於Java虛擬機器(JVM)並且與PHP結合使用。本文將介紹如何使用PHP和Spark建立Web應用程式。什麼是PHP? PH

Linux service無法使用系統環境變數問題如何解決 Linux service無法使用系統環境變數問題如何解決 May 16, 2023 pm 07:28 PM

Linuxservice無法使用系統環境變數詳細描述之前在做一個mysql多實例安裝時,安裝成功,linux也能成功啟動;但是將support-files/mysqld_multi.server移到/etc/init.d/目錄下並設定開機啟動(chkconfigxxxon)失敗;問題探索發現了問題,開始解決,發現servicexxxstart無法啟動mysql的多實例,但是mysqld_multistart就可以使用;然後經過各種嘗試,發現在普通環境下可以打印出/etc/profile設定的m

See all articles