目錄
回覆內容:
首頁 後端開發 php教程 mysql統計500w+的日表資料的解?

mysql統計500w+的日表資料的解?

Aug 18, 2016 am 09:15 AM
mysql php

<code>请教:
现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。
需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 
大概的sql是:</code>
登入後複製
登入後複製

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 

1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。
2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司)
 
请问,还有优化的解决方案吗?
谢谢 </code>
登入後複製
登入後複製

回覆內容:

<code>请教:
现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。
需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 
大概的sql是:</code>
登入後複製
登入後複製

select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;

<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 

1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。
2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司)
 
请问,还有优化的解决方案吗?
谢谢 </code>
登入後複製
登入後複製

先說下表上可能的最佳化:

  1. 做一個組合索引(appid, ip)

  2. ip存整數,不要存字串

如果依然超時,那麼試著把資料讀到內存,但你的內存只有50M,那麼可以嘗試用HyperLogLog,消耗的內存是極小的,但統計出來的數據會略有偏差,2%左右

最後,這種日誌資料最好不要放sql,可以選擇一些nosql例如hbase, mongodb都能很好的完成你這個需求

@manong
謝謝,你說的這兩種最佳化方案都不錯。

我建了 typeid、appid、ip的聯合索引, 這樣這條語句時走索引查詢,沒回表,時間控制在了1.5s以下,有效果。

至於HyperLogLog演算法這種,我只是大概查了下,沒有去實踐用,不過也謝謝推薦哈。

我用的另外的方法處理:計劃任務去分批處理這500w+的數據, 兩次取的數據去重後,做array_diff比較出第二次不同的數據,再sum下得出總的count數。 這樣時間也可以控制在1s以下。 這裡有個技巧是將第一次比較的array轉換為string後存入array中, 第二次比較時再string轉array,會省很多內存,因為試了下,嵌套數組的話,要比長字符串value的數組耗記憶體。

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP的未來:改編和創新 PHP的未來:改編和創新 Apr 11, 2025 am 12:01 AM

PHP的未來將通過適應新技術趨勢和引入創新特性來實現:1)適應云計算、容器化和微服務架構,支持Docker和Kubernetes;2)引入JIT編譯器和枚舉類型,提升性能和數據處理效率;3)持續優化性能和推廣最佳實踐。

phpmyadmin怎麼打開 phpmyadmin怎麼打開 Apr 10, 2025 pm 10:51 PM

可以通過以下步驟打開 phpMyAdmin:1. 登錄網站控制面板;2. 找到並點擊 phpMyAdmin 圖標;3. 輸入 MySQL 憑據;4. 點擊 "登錄"。

PHP與Python:了解差異 PHP與Python:了解差異 Apr 11, 2025 am 12:15 AM

PHP和Python各有優勢,選擇應基於項目需求。 1.PHP適合web開發,語法簡單,執行效率高。 2.Python適用於數據科學和機器學習,語法簡潔,庫豐富。

MySQL:世界上最受歡迎的數據庫的簡介 MySQL:世界上最受歡迎的數據庫的簡介 Apr 12, 2025 am 12:18 AM

MySQL是一種開源的關係型數據庫管理系統,主要用於快速、可靠地存儲和檢索數據。其工作原理包括客戶端請求、查詢解析、執行查詢和返回結果。使用示例包括創建表、插入和查詢數據,以及高級功能如JOIN操作。常見錯誤涉及SQL語法、數據類型和權限問題,優化建議包括使用索引、優化查詢和分錶分區。

為什麼要使用mysql?利益和優勢 為什麼要使用mysql?利益和優勢 Apr 12, 2025 am 12:17 AM

選擇MySQL的原因是其性能、可靠性、易用性和社區支持。 1.MySQL提供高效的數據存儲和檢索功能,支持多種數據類型和高級查詢操作。 2.採用客戶端-服務器架構和多種存儲引擎,支持事務和查詢優化。 3.易於使用,支持多種操作系統和編程語言。 4.擁有強大的社區支持,提供豐富的資源和解決方案。

PHP的當前狀態:查看網絡開發趨勢 PHP的當前狀態:查看網絡開發趨勢 Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要,尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持,如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器,提升性能。 4)雲原生應用通過Docker和Kubernetes部署,提高靈活性和可擴展性。

redis怎麼使用單線程 redis怎麼使用單線程 Apr 10, 2025 pm 07:12 PM

Redis 使用單線程架構,以提供高性能、簡單性和一致性。它利用 I/O 多路復用、事件循環、非阻塞 I/O 和共享內存來提高並發性,但同時存在並發性受限、單點故障和不適合寫密集型工作負載的局限性。

PHP和Python:比較兩種流行的編程語言 PHP和Python:比較兩種流行的編程語言 Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢,選擇依據項目需求。 1.PHP適合web開發,尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能,語法簡潔,適合初學者。

See all articles