mysql统计500w+的日表数据的解决方案?
<code>请教: 现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。 需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 大概的sql是:</code>
select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;
<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。 2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司) 请问,还有优化的解决方案吗? 谢谢 </code>
回复内容:
<code>请教: 现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。 需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 大概的sql是:</code>
select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;
<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。 2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司) 请问,还有优化的解决方案吗? 谢谢 </code>
先说下表上可能的优化:
做一个组合索引(appid, ip)
ip存整数,不要存字符串
如果依然超时,那么尝试把数据读到内存,但你的内存只有50M,那么可以尝试用HyperLogLog,消耗的内存是极小的,但统计出来的数据会略有偏差,2%左右
最后,这种日志数据最好不要放sql,可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求
@manong
谢谢,你说的这两种优化方案都不错。
我建了 typeid、appid、ip的联合索引, 这样这条语句时走索引查询,没回表,时间控制在了1.5s以下,有效果。
至于HyperLogLog算法这种,我只是大概查了下,没有去实践用,不过也谢谢推荐哈。
我用的另外的方法处理:计划任务去分批处理这500w+的数据, 两次取的数据去重后,做array_diff比较出第二次不同的数据,再sum下得出总的count数。 这样时间也可以控制在1s以下。 这里有个技巧是将第一次比较的array转换为string后存入array中, 第二次比较时再string转array,会省很多内存,因为试了下,嵌套数组的话,要比长字符串value的数组耗内存。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

PHP的未来将通过适应新技术趋势和引入创新特性来实现:1)适应云计算、容器化和微服务架构,支持Docker和Kubernetes;2)引入JIT编译器和枚举类型,提升性能和数据处理效率;3)持续优化性能和推广最佳实践。

PHP和Python各有优势,选择应基于项目需求。1.PHP适合web开发,语法简单,执行效率高。2.Python适用于数据科学和机器学习,语法简洁,库丰富。

MySQL是一个开源的关系型数据库管理系统。1)创建数据库和表:使用CREATEDATABASE和CREATETABLE命令。2)基本操作:INSERT、UPDATE、DELETE和SELECT。3)高级操作:JOIN、子查询和事务处理。4)调试技巧:检查语法、数据类型和权限。5)优化建议:使用索引、避免SELECT*和使用事务。

可以通过以下步骤打开 phpMyAdmin:1. 登录网站控制面板;2. 找到并点击 phpMyAdmin 图标;3. 输入 MySQL 凭据;4. 点击 "登录"。

MySQL和SQL是开发者必备技能。1.MySQL是开源的关系型数据库管理系统,SQL是用于管理和操作数据库的标准语言。2.MySQL通过高效的数据存储和检索功能支持多种存储引擎,SQL通过简单语句完成复杂数据操作。3.使用示例包括基本查询和高级查询,如按条件过滤和排序。4.常见错误包括语法错误和性能问题,可通过检查SQL语句和使用EXPLAIN命令优化。5.性能优化技巧包括使用索引、避免全表扫描、优化JOIN操作和提升代码可读性。

PHP不是在消亡,而是在不断适应和进化。1)PHP从1994年起经历多次版本迭代,适应新技术趋势。2)目前广泛应用于电子商务、内容管理系统等领域。3)PHP8引入JIT编译器等功能,提升性能和现代化。4)使用OPcache和遵循PSR-12标准可优化性能和代码质量。

Redis 使用单线程架构,以提供高性能、简单性和一致性。它利用 I/O 多路复用、事件循环、非阻塞 I/O 和共享内存来提高并发性,但同时存在并发性受限、单点故障和不适合写密集型工作负载的局限性。

如何使用 phpMyAdmin 连接到 MySQL?访问 phpMyAdmin 的 URL,通常为 http://localhost/phpmyadmin 或 http://[您的服务器 IP 地址]/phpmyadmin。输入您的 MySQL 用户名和密码。选择您要连接的数据库。点击 "连接" 按钮以建立连接。
