mysql統計500w+的日表資料的解?-php教程-PHP中文網

回覆內容：

首頁

後端開發

php教程

mysql統計500w+的日表資料的解?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 18, 2016 am 09:15 AM

mysql php

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登入後複製

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登入後複製

回覆內容：

<code>请教：
现在有每天的日表数据（一天生成一张）， 每张表数据大概在500w左右。
需要从每天的日表数据中统计：根据appid统计ip数，同时ip需要去重。 
大概的sql是：</code>

登入後複製

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数，放入到另一张统计表中。 

1、直接执行sql的话，肯定超时了（系统仅配置了400ms读取时间）。
2、如果将数据都取出到内存中再做操作，内存又不足了，给的内存只有50M。。。（不为难程序员的需求不是好公司）
 
请问，还有优化的解决方案吗？
谢谢 </code>

登入後複製

先說下表上可能的最佳化：

做一個組合索引(appid, ip)
ip存整數，不要存字串

如果依然超時，那麼試著把資料讀到內存，但你的內存只有50M，那麼可以嘗試用HyperLogLog，消耗的內存是極小的，但統計出來的數據會略有偏差，2%左右

最後，這種日誌資料最好不要放sql，可以選擇一些nosql例如hbase, mongodb都能很好的完成你這個需求

@manong
謝謝，你說的這兩種最佳化方案都不錯。

我建了 typeid、appid、ip的聯合索引，這樣這條語句時走索引查詢，沒回表，時間控制在了1.5s以下，有效果。

至於HyperLogLog演算法這種，我只是大概查了下，沒有去實踐用，不過也謝謝推薦哈。

我用的另外的方法處理：計劃任務去分批處理這500w+的數據，兩次取的數據去重後，做array_diff比較出第二次不同的數據，再sum下得出總的count數。這樣時間也可以控制在1s以下。這裡有個技巧是將第一次比較的array轉換為string後存入array中，第二次比較時再string轉array，會省很多內存，因為試了下，嵌套數組的話，要比長字符串value的數組耗記憶體。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

在MySQL中解釋外鍵的目的。 Apr 25, 2025 am 12:17 AM

在MySQL中，外鍵的作用是建立表與表之間的關係，確保數據的一致性和完整性。外鍵通過引用完整性檢查和級聯操作維護數據的有效性，使用時需注意性能優化和避免常見錯誤。

比較和對比Mysql和Mariadb。 Apr 26, 2025 am 12:08 AM

MySQL和MariaDB的主要區別在於性能、功能和許可證：1.MySQL由Oracle開發，MariaDB是其分支。 2.MariaDB在高負載環境中性能可能更好。 3.MariaDB提供了更多的存儲引擎和功能。 4.MySQL採用雙重許可證，MariaDB完全開源。選擇時應考慮現有基礎設施、性能需求、功能需求和許可證成本。

如果session_start（）被多次調用會發生什麼？ Apr 25, 2025 am 12:06 AM

多次調用session_start()會導致警告信息和可能的數據覆蓋。 1)PHP會發出警告，提示session已啟動。 2)可能導致session數據意外覆蓋。 3)使用session_status()檢查session狀態，避免重複調用。

MySQL：數據庫，PHPMYADMIN：管理接口 Apr 29, 2025 am 12:44 AM

MySQL和phpMyAdmin可以通過以下步驟進行有效管理：1.創建和刪除數據庫：在phpMyAdmin中點擊幾下即可完成。 2.管理表：可以創建表、修改結構、添加索引。 3.數據操作：支持插入、更新、刪除數據和執行SQL查詢。 4.導入導出數據：支持SQL、CSV、XML等格式。 5.優化和監控：使用OPTIMIZETABLE命令優化表，並利用查詢分析器和監控工具解決性能問題。

作曲家：通過AI的幫助開發PHP Apr 29, 2025 am 12:27 AM

AI可以幫助優化Composer的使用，具體方法包括：1.依賴管理優化：AI分析依賴關係，建議最佳版本組合，減少衝突。 2.自動化代碼生成：AI生成符合最佳實踐的composer.json文件。 3.代碼質量提升：AI檢測潛在問題，提供優化建議，提高代碼質量。這些方法通過機器學習和自然語言處理技術實現，幫助開發者提高效率和代碼質量。

session_start（）函數的意義是什麼？ May 03, 2025 am 12:18 AM

session_start（）iscucialinphpformanagingusersessions.1）ItInitiateSanewsessionifnoneexists，2）resumesanexistingsessions，and3）setsasesessionCookieforContinuityActinuityAccontinuityAcconActInityAcconActInityAcconAccRequests，EnablingApplicationsApplicationsLikeUseAppericationLikeUseAthenticationalticationaltication and PersersonalizedContentent。

怎樣卸載MySQL並清理殘留文件 Apr 29, 2025 pm 04:03 PM

要安全、徹底地卸載MySQL並清理所有殘留文件，需遵循以下步驟：1.停止MySQL服務；2.卸載MySQL軟件包；3.清理配置文件和數據目錄；4.驗證卸載是否徹底。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

See all articles

mysql統計500w+的日表資料的解?

回覆內容：

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題