고가용성, 손쉬운 확장, 편리한 접근, 프로덕션 환경의 안정적인 운영을 구현하는 Redis 기반의 지연 큐입니다. 지연 대기열은 이름에서 알 수 있듯이 지연 기능이 있는 메시지 대기열입니다. 그렇다면 어떤 상황에서 이러한 대기열이 필요합니까?
추천 튜토리얼: "redis 동영상 튜토리얼"
1. 배경
먼저 비즈니스 시나리오를 살펴보겠습니다.
1. 멤버십 만료 3일 전에 리콜 알림을 보냅니다.
2. 주문 결제가 성공한 후 5분 후 다운스트림 링크가 정상인지 확인합니다. 예를 들어 사용자가 멤버십을 구매한 후 다양한 멤버십 상태가 성공적으로 설정되었는지 여부를 정기적으로 확인하는 방법입니다. 환불 상태의 주문이 성공적으로 환불되었습니까?
4. 알림 구현 실패, 상대방이 응답할 때까지 1, 3, 5, 7분 안에 알림을 반복하시겠습니까?
보통 위의 문제를 해결하는 가장 간단하고 직접적인 방법은 측정기를 정기적으로 스캔하는 것입니다.
테이블 스캐닝의 문제점은 다음과 같습니다.
1. 테이블 스캐닝이 데이터베이스에 오랫동안 연결되어 있으면 연결이 비정상적으로 중단되기 쉽기 때문에 더 많은 예외 처리가 필요하고 높은 프로그램 견고성이 필요합니다. 2. 데이터의 양이 많을 경우 지연 시간이 크고 정해진 시간 내에 처리를 완료할 수 없어 업무에 영향을 미칠 수 있습니다. 해결되었습니다.
3. 각 기업은 자체 측정기 스캔 논리를 유지해야 합니다. 사업이 증가하면 미터 스캐닝 부분의 로직이 반복적으로 개발될 것이라고 생각하지만 이는 매우 유사합니다.
지연된 대기열은 위의 요구 사항을 매우 잘 해결할 수 있습니다. 2. 연구
시장 오픈 소스 솔루션은 다음과 같습니다:
1. Youzan 기술: 원칙만 있고, 오픈 소스 코드는 없습니다. 2. github 개인: https://github.com/ouqiang/delay-queue1.基于redis实现,redis只能配置一个,如果redis挂了整个服务不可用,可用性差点
2.消费端实现的是拉模式,接入成本大,每个项目都得去实现一遍接入代码
3.在star使用的人数不多,放在生产环境,存在风险,加之对go语言不了解,出了问题难以维护
4.RabbitMQ 지연 작업: 지연 기능 자체가 없으므로 구현해야 합니다. 기능의 도움으로 자체적으로 실행되고 있으며 회사에서는 이 대기열을 배포하지 않았으므로 별도로 구현해야 합니다. 지연 대기열을 수행하기 위해 이를 배포하는 데 드는 비용이 약간 높으며 현재 특별한 운영 및 유지 관리도 필요합니다. , 팀에서는 지원하지 않습니다
기본적으로 위와 같은 이유로 제가 직접 작성하려고 합니다. 저는 주로 PHP를 사용하며, 프로젝트는 기본적으로 Redis의 zset 구조를 저장소로 사용하며 구현 원리는 다음과 같습니다. Youzan 팀을 말합니다: https://tech.youzan.com/queuing_delay/
전체 지연 대기열은 주로 4개 부분으로 구성됩니다:1.JobPool은 모든 작업 정보의 요소를 저장하는 데 사용됩니다.
2. DelayBucket은 시간을 기준으로 정렬된 대기열 집합으로, 지연되어야 하는 모든 작업을 저장하는 데 사용됩니다(여기에는 작업 ID만 저장됩니다).
3.Timer는 각 버킷을 실시간으로 스캔하고 지연 시간이 현재 시간보다 크거나 같은 작업을 해당 준비 대기열에 배치하는 역할을 담당합니다. 4.ReadyQueue는 소비자 프로그램에서 사용할 수 있도록 준비 상태(여기에는 JobId만 저장됨)로 작업을 저장합니다.
메시지 구조 각 작업에는 다음 속성이 포함되어야 합니다.
1.topic: 작업 유형. 구체적인 사업명으로 이해될 수 있습니다.2.id: 작업의 고유 식별자입니다. 지정된 Job 정보를 검색하고 삭제하는 데 사용됩니다.
3.delayTime: jod 지연된 실행 시간, 13자리 타임스탬프 4.ttr(time-to-run): 작업 실행 시간 초과.
5.body: 소비자가 특정 비즈니스 처리를 수행하기 위한 작업 콘텐츠로 json 형식으로 저장됩니다.
동일한 유형의 토픽 지연 시간에 대해 일반적으로 ttr은 고정되어 있으며 작업 속성을 단순화할 수 있습니다.1.topic: 작업 유형. 특정 업체 이름으로 이해될 수 있습니다
2.id: Job의 고유 식별자입니다. 지정된 Job 정보를 검색하고 삭제하는 데 사용됩니다.
3.body: 소비자가 특정 비즈니스 처리를 수행하기 위한 Job의 콘텐츠로, json 형식으로 저장됩니다. delaytime, ttr은 topicadmin 백그라운드에서 구성됩니다.
3. 목표
Lightweight: 적은 PHP 확장으로 직접 실행할 수 있으며 swoole 및 workman과 같은 네트워크 프레임워크를 도입할 필요가 없습니다. 등등
: 마스터 작업 아키텍처를 채택하여 마스터는 비즈니스 처리를 수행하지 않고 하위 프로세스 관리만 담당합니다. 하위 프로세스가 비정상적으로 종료되면 자동으로 시작됩니다
:
2 여러 Redis의 구성 및 하나의 Redis 오류를 지원합니다. 일부 메시지에만 영향을 미칩니다3. 비즈니스 당사자가 백그라운드에서 쉽게 액세스할 수 있습니다. 관련 메시지 유형과 콜백 인터페이스만 입력하면 됩니다
: 소비 프로세스에 병목 현상이 있는 경우 다음과 같이 구성할 수 있습니다. 쓰기에 병목 현상이 있는 경우 인스턴스 수를 늘려 쓰기 성능을 선형적으로 향상할 수 있습니다.
: 특정 시간 오류가 허용됩니다.
支持消息删除:业务使用方,可以随时删除指定消息。
消息传输可靠性:消息进入到延迟队列后,保证至少被消费一次。
写入性能:qps>1000+
四、架构设计与说明
总体架构
采用master-work架构模式,主要包括6个模块:
1.dq-mster: 主进程,负责管理子进程的创建,销毁,回收以及信号通知
2.dq-server: 负责消息写入,读取,删除功能以及维护redis连接池
3.dq-timer-N: 负责从redis的zset结构中扫描到期的消息,并负责写入ready 队列,个数可配置,一般2个就行了,因为消息在zset结构是按时间有序的
4.dq-consume-N: 负责从ready队列中读取消息并通知给对应回调接口,个数可配置
5.dq-redis-checker: 负责检查redis的服务状态,如果redis宕机,发送告警邮件
6.dq-http-server: 提供web后台界面,用于注册topic
五、模块流程图
消息写入:
timer查找到期消息:
consumer消费流程:
六、部署
环境依赖:PHP 5.5+ 安装sockets,redis,pcntl,pdo_mysql 拓展
ps: 熟悉docker的同学可以直接用镜像: shareclz/php7.2.14 里面包含了所需拓展
step1:安装数据库用于存储一些topic以及告警信息
执行:
mysql> source dq.sql
step2:在DqConfg.文件中配置数据库信息: DqConf::$db
step3: 启动http服务
在DqConf.php文件中修改php了路径 $phpBin
命令:
php DqHttpServer.php --port 8088
访问:http://127.0.0.1:8088,出现配置界面
redis信息格式:host:port:auth 比如 127.0.0.1:6379:12345
step4:配置告信息(比如redis宕机)
step5:注册topic
重试标记说明:
1.接口返回为空默认重试 2.满足指定返回表达会重试,res表示返回的json数组,比如: 回调接口返回json串:{"code":200,"data":{"status":2,"msg":"返回失败"}},重试条件可以这样写 {res.code}!=200 {res.code}!=200 && {res.data.status}!=2 {res.code}==200 && {res.data.status}==2 || {res.data.msg}=='返回失败'
step6:启动服务进程:
php DqInit.php --port 6789 &
执行 ps -ef | grep dq 看到如下信息说明启动成功
step7: 写入数据,参考demo.php
step8:查看日志
默认日志目录在项目目录的logs目录下,在DqConf.php修改$logPath
1.请求日志:request_ymd.txt
2.通知日志:notify_ymd.txt
3.错误日志:err_ymd.txt
step9:如果配置文件有改动
1.系统会自动检测配置文件新,如果有改动,会自动退出(没有找到较好的热更新的方案),需要重启,可以在crontab里面建个任务,1分钟执行一次,程序有check_self的判断
2.优雅退出命令: master检测侦听了USR2信号,收到信号后会通知所有子进程,子进程完成当前任务后会自动退出
ps -ef | grep dq-master| grep -v grep | head -n 1 | awk '{print $2}' | xargs kill -USR2
七、性能测试
需要安装pthreads拓展:
测试原理:使用多线程模拟并发,在1s内能成功返回请求成功的个数
php DqBench concurrency requests concurrency:并发数 requests: 每个并发产生的请求数 测试环境:内存 8G ,8核cpu,2个redis和1个dq-server 部署在一个机器上,数据包64字节 qps:2400
八、值得一提的性能优化点:
1.redis multi命令:将多个对redis的操作打包成一个减少网络开销
2.计数的操作异步处理,在异步逻辑里面用函数的static变量来保存,当写入redis成功后释放static变量,可以在redis出现异常时计数仍能保持一致,除非进程退出
3.内存泄露检测有必要: 所有的内存分配在底层都是调用了brk或者mmap,只要程序只有大量brk或者mmap的系统调用,内存泄露可能性非常高 ,检测命令:
strace -c -p pid | grep -P 'mmap| brk'
4.检测程序的系统调用情况:strace -c -p pid ,发现某个系统函数调用是其他的数倍,可能大概率程序存在问题
推荐参考:《Redis命令操作中文手册》
九、异常处理
1.如果调用通知接口在超时时间内,没有收到回复认为通知失败,系统会重新把数据放入队列,重新通知,系统默认最大通知10次(可以在Dqconf.php文件中修改$notify_exp_nums)通知间隔为2n+1,比如第一次1分钟,通知失败,第二次3分钟后,直到收到回复,超出最大通知次数后系统自动丢弃,同时发邮件通知
2.线上redis每隔1s持久化一次,存在丢失1s数据的情况,出现这种情况可以对比request_ymd.txt和notify_ymd.txt日志手动恢复过来
3.redis宕机通知:
ps:网络抖动在所难免,通知接口如果涉及到核心的服务,一定要保证幂等!!
十、线上情况
线上部署了两个实例每个机房部一个,4个redis共16G内存作存储,服务稳定运行数月,各项指标均符合预期
主要接入业务:
订单10分钟召回通知
调用接口超时或者失败时做补偿
会员过期前3天召回通知
十一、不足与展望
1.由于团队使用的镜像缺少libevent拓展,所以dq-server基于select模型,并发高的场景下性能存在瓶颈,后续可以改为基于libevent事件模型,提升并发性能
2.timer和consumer目前是采用多进程来做的,这个粒度感觉有点粗,可以考虑使用多线程模式,并且支持动态创建线程数来提高consumer的性能,最大程度保证消费及时
3.dq-server与redis是同步调用,这也是性能的瓶颈点,计划基于swoole_redis来异步处理
[更新]
一、测试网络框架切换到swoole和使用异步swoole_redis带来的性能改变情况 把dqserver的主要逻辑基于swoole重新写了一遍,测试机(内存4G,cpu个数4)
启动sever:
php test_swoole_server.php 9055
压测:
php test_swoole_bench.php 100 56
结果:
1.原生dq-server: qps 2200
2.基于swoole&swoole_redis: qps 5600
写入性能提升:2.6倍
引入swoole性能提升比较明显,不过目前暂时不打算把server改为swoole的方式,主要基于以下考虑
1.目前我们线上单个示例的qps3000,部署了两个,6000ps可以满足我们大部分场景
2.目前对swoole处于了解的过程
二、新增队列消费分优先级(高,中,低3级),高优任务可以优先消费 消费比例在DqConf::$priorityConfig配置,默认按照5:3:2的比例消费
推荐相关redis视频教程:
感谢PHP中文网热心网友的投稿,其GitHub地址为:https://github.com/chenlinzhong/php-delayqueue
위 내용은 PHP와 Redis를 기반으로 구현된 지연 대기열의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!