mysql统计500w+的日表数据的解决方案?-php教程-PHP中文网

回复内容：

首页

后端开发

php教程

mysql统计500w+的日表数据的解决方案?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 18, 2016 am 09:15 AM

mysql php

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登录后复制

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登录后复制

回复内容：

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登录后复制

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登录后复制

先说下表上可能的优化：

做一个组合索引(appid, ip)
ip存整数，不要存字符串

如果依然超时，那么尝试把数据读到内存，但你的内存只有50M，那么可以尝试用HyperLogLog，消耗的内存是极小的，但统计出来的数据会略有偏差，2%左右

最后，这种日志数据最好不要放sql，可以选择一些nosql比如hbase, mongodb都能很好的完成你这个需求

@manong
谢谢，你说的这两种优化方案都不错。

我建了 typeid、appid、ip的联合索引，这样这条语句时走索引查询，没回表，时间控制在了1.5s以下，有效果。

至于HyperLogLog算法这种，我只是大概查了下，没有去实践用，不过也谢谢推荐哈。

我用的另外的方法处理：计划任务去分批处理这500w+的数据，两次取的数据去重后，做array_diff比较出第二次不同的数据，再sum下得出总的count数。这样时间也可以控制在1s以下。这里有个技巧是将第一次比较的array转换为string后存入array中，第二次比较时再string转array，会省很多内存，因为试了下，嵌套数组的话，要比长字符串value的数组耗内存。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7518

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

PHP的未来：改编和创新 Apr 11, 2025 am 12:01 AM

PHP的未来将通过适应新技术趋势和引入创新特性来实现：1)适应云计算、容器化和微服务架构，支持Docker和Kubernetes；2)引入JIT编译器和枚举类型，提升性能和数据处理效率；3)持续优化性能和推广最佳实践。

PHP与Python：了解差异 Apr 11, 2025 am 12:15 AM

PHP和Python各有优势，选择应基于项目需求。1.PHP适合web开发，语法简单，执行效率高。2.Python适用于数据科学和机器学习，语法简洁，库丰富。

mysql：简单的概念，用于轻松学习 Apr 10, 2025 am 09:29 AM

MySQL是一个开源的关系型数据库管理系统。1）创建数据库和表：使用CREATEDATABASE和CREATETABLE命令。2）基本操作：INSERT、UPDATE、DELETE和SELECT。3）高级操作：JOIN、子查询和事务处理。4）调试技巧：检查语法、数据类型和权限。5）优化建议：使用索引、避免SELECT*和使用事务。

phpmyadmin怎么打开 Apr 10, 2025 pm 10:51 PM

可以通过以下步骤打开 phpMyAdmin：1. 登录网站控制面板；2. 找到并点击 phpMyAdmin 图标；3. 输入 MySQL 凭据；4. 点击 "登录"。

MySQL和SQL：开发人员的基本技能 Apr 10, 2025 am 09:30 AM

MySQL和SQL是开发者必备技能。1.MySQL是开源的关系型数据库管理系统，SQL是用于管理和操作数据库的标准语言。2.MySQL通过高效的数据存储和检索功能支持多种存储引擎，SQL通过简单语句完成复杂数据操作。3.使用示例包括基本查询和高级查询，如按条件过滤和排序。4.常见错误包括语法错误和性能问题，可通过检查SQL语句和使用EXPLAIN命令优化。5.性能优化技巧包括使用索引、避免全表扫描、优化JOIN操作和提升代码可读性。

php：死亡还是简单地适应？ Apr 11, 2025 am 12:13 AM

PHP不是在消亡，而是在不断适应和进化。1)PHP从1994年起经历多次版本迭代，适应新技术趋势。2)目前广泛应用于电子商务、内容管理系统等领域。3)PHP8引入JIT编译器等功能，提升性能和现代化。4)使用OPcache和遵循PSR-12标准可优化性能和代码质量。

redis怎么使用单线程 Apr 10, 2025 pm 07:12 PM

Redis 使用单线程架构，以提供高性能、简单性和一致性。它利用 I/O 多路复用、事件循环、非阻塞 I/O 和共享内存来提高并发性，但同时存在并发性受限、单点故障和不适合写密集型工作负载的局限性。

phpmyadmin连接mysql Apr 10, 2025 pm 10:57 PM

如何使用 phpMyAdmin 连接到 MySQL？访问 phpMyAdmin 的 URL，通常为 http://localhost/phpmyadmin 或 http://[您的服务器 IP 地址]/phpmyadmin。输入您的 MySQL 用户名和密码。选择您要连接的数据库。点击 "连接" 按钮以建立连接。

See all articles

mysql统计500w+的日表数据的解决方案?

回复内容：

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题