mysql統計500w+的日表資料的解?
<code>请教: 现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。 需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 大概的sql是:</code>
select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;
<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。 2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司) 请问,还有优化的解决方案吗? 谢谢 </code>
回覆內容:
<code>请教: 现在有每天的日表数据(一天生成一张), 每张表数据大概在500w左右。 需要从每天的日表数据中统计:根据appid统计ip数,同时ip需要去重。 大概的sql是:</code>
select appid, count(distinct(ip)) from log0812_tb where iptype = 4 group by appid;
<code>然后将统计的appid 和 ip数,放入到另一张统计表中。 1、直接执行sql的话,肯定超时了(系统仅配置了400ms读取时间)。 2、如果将数据都取出到内存中再做操作,内存又不足了,给的内存只有50M。。。(不为难程序员的需求不是好公司) 请问,还有优化的解决方案吗? 谢谢 </code>
先說下表上可能的最佳化:
做一個組合索引(appid, ip)
ip存整數,不要存字串
如果依然超時,那麼試著把資料讀到內存,但你的內存只有50M,那麼可以嘗試用HyperLogLog,消耗的內存是極小的,但統計出來的數據會略有偏差,2%左右
最後,這種日誌資料最好不要放sql,可以選擇一些nosql例如hbase, mongodb都能很好的完成你這個需求
@manong
謝謝,你說的這兩種最佳化方案都不錯。
我建了 typeid、appid、ip的聯合索引, 這樣這條語句時走索引查詢,沒回表,時間控制在了1.5s以下,有效果。
至於HyperLogLog演算法這種,我只是大概查了下,沒有去實踐用,不過也謝謝推薦哈。
我用的另外的方法處理:計劃任務去分批處理這500w+的數據, 兩次取的數據去重後,做array_diff比較出第二次不同的數據,再sum下得出總的count數。 這樣時間也可以控制在1s以下。 這裡有個技巧是將第一次比較的array轉換為string後存入array中, 第二次比較時再string轉array,會省很多內存,因為試了下,嵌套數組的話,要比長字符串value的數組耗記憶體。

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在MySQL中,外鍵的作用是建立表與表之間的關係,確保數據的一致性和完整性。外鍵通過引用完整性檢查和級聯操作維護數據的有效性,使用時需注意性能優化和避免常見錯誤。

MySQL和MariaDB的主要區別在於性能、功能和許可證:1.MySQL由Oracle開發,MariaDB是其分支。 2.MariaDB在高負載環境中性能可能更好。 3.MariaDB提供了更多的存儲引擎和功能。 4.MySQL採用雙重許可證,MariaDB完全開源。選擇時應考慮現有基礎設施、性能需求、功能需求和許可證成本。

多次調用session_start()會導致警告信息和可能的數據覆蓋。 1)PHP會發出警告,提示session已啟動。 2)可能導致session數據意外覆蓋。 3)使用session_status()檢查session狀態,避免重複調用。

MySQL和phpMyAdmin可以通過以下步驟進行有效管理:1.創建和刪除數據庫:在phpMyAdmin中點擊幾下即可完成。 2.管理表:可以創建表、修改結構、添加索引。 3.數據操作:支持插入、更新、刪除數據和執行SQL查詢。 4.導入導出數據:支持SQL、CSV、XML等格式。 5.優化和監控:使用OPTIMIZETABLE命令優化表,並利用查詢分析器和監控工具解決性能問題。

AI可以幫助優化Composer的使用,具體方法包括:1.依賴管理優化:AI分析依賴關係,建議最佳版本組合,減少衝突。 2.自動化代碼生成:AI生成符合最佳實踐的composer.json文件。 3.代碼質量提升:AI檢測潛在問題,提供優化建議,提高代碼質量。這些方法通過機器學習和自然語言處理技術實現,幫助開發者提高效率和代碼質量。

session_start()iscucialinphpformanagingusersessions.1)ItInitiateSanewsessionifnoneexists,2)resumesanexistingsessions,and3)setsasesessionCookieforContinuityActinuityAccontinuityAcconActInityAcconActInityAcconAccRequests,EnablingApplicationsApplicationsLikeUseAppericationLikeUseAthenticationalticationaltication and PersersonalizedContentent。

要安全、徹底地卸載MySQL並清理所有殘留文件,需遵循以下步驟:1.停止MySQL服務;2.卸載MySQL軟件包;3.清理配置文件和數據目錄;4.驗證卸載是否徹底。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。
