文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？-php教程-PHP中文網

回复内容：

首頁

後端開發

php教程

文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 pm 08:17 PM

mysql php

题目是一道面试题
我的想法是另起一张表，存放今天更新的10万条都有哪些;
我只想到这个第一步，接下来该怎么做我还不知道怎么去实现;
假设按我这样的思路，我就算知道了每天更新的是哪10万条数据,那我还是得去500万条中找出3000条数据哦
不知道各位兄弟，有啥好的想法呢？

回复内容：

10W中的3000条，概率是3%

那么只要在保存文章时，按照3%的概率，把本次更新文章保存到缓存中

这种缓存用redis的set类型最好，set类型不会保存重复的元素，所以文章反复更新也不会在列表里面产生多个结果

key的格式可以用"analyze:list:(Y-m-d)"

然后这个缓存可以设置为48小时过期，如果有需要的话，每天可以拿前一天的缓存归档到数据库

考虑到随机概率的误差，可以把3%放大到5%，最后肯定会记录得超过3000，但是也不会超太多，反正最后只拿3000条来用就行了

把每次更新都记录起来的话，无论是记录到缓存还是数据库，其实大部分的记录是没用的，不如按照概率先过滤一遍

其实记录每条文章的update_time也可以，我觉得where update_time >= ? and update_time

优点：
1、没有update_time字段也能玩，对现有表结构无要求，给生产环境的数据库加字段是件麻烦事
2、万一生产环境的数据库负载比较高，order by random()查询导致数据库卡死也不好，这样的话，最好是读写分离架构，在只读库上查询才行，产生了架构要求，我这个设计完全是个旁路记录，除了redis之外没要求
3、需要多少才记多少，额外IO少

一些粗陋的想法，仅供参考
分区
500万条，为了方便。根据数据的更新时间进行数据库分区（没用过mysql分区的看这个，在文章后面讲了），
比如说按照月份，我假设你这500万条数据是一年的，那么分成12份，每个区大约算42万条记录
这样，当使用更新时间进行搜索的时候，mysql就会根据你的更新时间去选择分区，
也就是被搜索的数据是在这42万条里面去找（这肯定要比你在500万里面快多了，当然你要是按照天来分，那会更快）

加缓存
这没啥，就是你每天写入mysql的时候取3000条数据写入redis或者mongodb里面，做研究就不从mysql里面读了。用php从缓存里面读

多进程
你说的要做研究嘛，我假设你的研究算法很复杂。你去学学swoole，开三个进程，一个进程处理1000个数据，最后汇总结果

取出当日更新的10万

id放入一个数组在数组中随机取出3000个id

用select in读取指定的3000条记录

<code>SELECT id FROM table WHERE date_refresh = 20120329

SELECT * FROM table WHERE id IN (id_0, id_1, id_2, ..., id_2999)
</code>

登入後複製

https://www.zhihu.com/question/20151242

首先，我会使用缓存的方式，将每天更新的数据的主键 记录下来。
从缓存中，随机获取3000 个主键
拿着这3000 个主键，使用 IN 查询，获取对应的数据。

浅陋分析，勿笑。

1.获取id区间

<code>select max(id) as max_id, min(id) as min_id 
from (
   select id from article_tb where update_time >= '2016-02-26 00:00:00'
) 
</code>

登入後複製

update_time有索引，id为自增长id
2.随机获取

<code>select * 
from article_tb 
where id >= min_id and id </code>

登入後複製

查询3000次

<code>// STEP 1 : 获取当天文章ID区间
// maxId -> select max(id) from news where 当天时间限定
// minId -> select min(id) from news where 当天时间限定


// STEP 2 : 取得随机ID
// 因为你一天有10万数据，数据总量有很高
// 所以避免使用MYSQL中的随机

$minId = 5000000;
$maxId = 5100000;
$i = 0;
$resultIds = [];
while(true){
    $randId = rand($minId,$maxId);
    if(in_array($randId, $resultIds)){
        continue;
    }
    
    // 查询验证
    // 根据你的需要验证数据是否是审核的呀，是否是正常数据呀
    // 如果正常就载入到结果数组中。
    $resultIds[] = $randId;
    $i++;
    
    if($i==3000){
        break;
    }
}

// 到这里结果已经有了
// 可以储存到结果集用其他方式分页进行研究或者浏览。</code>

登入後複製

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7557

CakePHP 教程

1384

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

MySQL：世界上最受歡迎的數據庫的簡介 Apr 12, 2025 am 12:18 AM

MySQL是一種開源的關係型數據庫管理系統，主要用於快速、可靠地存儲和檢索數據。其工作原理包括客戶端請求、查詢解析、執行查詢和返回結果。使用示例包括創建表、插入和查詢數據，以及高級功能如JOIN操作。常見錯誤涉及SQL語法、數據類型和權限問題，優化建議包括使用索引、優化查詢和分錶分區。

PHP和Python：比較兩種流行的編程語言 Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢，選擇依據項目需求。 1.PHP適合web開發，尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能，語法簡潔，適合初學者。

PHP與Python：了解差異 Apr 11, 2025 am 12:15 AM

PHP和Python各有優勢，選擇應基於項目需求。 1.PHP適合web開發，語法簡單，執行效率高。 2.Python適用於數據科學和機器學習，語法簡潔，庫豐富。

為什麼要使用mysql？利益和優勢 Apr 12, 2025 am 12:17 AM

選擇MySQL的原因是其性能、可靠性、易用性和社區支持。 1.MySQL提供高效的數據存儲和檢索功能，支持多種數據類型和高級查詢操作。 2.採用客戶端-服務器架構和多種存儲引擎，支持事務和查詢優化。 3.易於使用，支持多種操作系統和編程語言。 4.擁有強大的社區支持，提供豐富的資源和解決方案。

PHP的當前狀態：查看網絡開發趨勢 Apr 13, 2025 am 12:20 AM

PHP在現代Web開發中仍然重要，尤其在內容管理和電子商務平台。 1)PHP擁有豐富的生態系統和強大框架支持，如Laravel和Symfony。 2)性能優化可通過OPcache和Nginx實現。 3)PHP8.0引入JIT編譯器，提升性能。 4)雲原生應用通過Docker和Kubernetes部署，提高靈活性和可擴展性。

PHP：許多網站的基礎 Apr 13, 2025 am 12:07 AM

PHP成為許多網站首選技術棧的原因包括其易用性、強大社區支持和廣泛應用。 1)易於學習和使用，適合初學者。 2)擁有龐大的開發者社區，資源豐富。 3)廣泛應用於WordPress、Drupal等平台。 4)與Web服務器緊密集成，簡化開發部署。

MySQL的位置：數據庫和編程 Apr 13, 2025 am 12:18 AM

MySQL在數據庫和編程中的地位非常重要，它是一個開源的關係型數據庫管理系統，廣泛應用於各種應用場景。 1）MySQL提供高效的數據存儲、組織和檢索功能，支持Web、移動和企業級系統。 2）它使用客戶端-服務器架構，支持多種存儲引擎和索引優化。 3）基本用法包括創建表和插入數據，高級用法涉及多表JOIN和復雜查詢。 4）常見問題如SQL語法錯誤和性能問題可以通過EXPLAIN命令和慢查詢日誌調試。 5）性能優化方法包括合理使用索引、優化查詢和使用緩存，最佳實踐包括使用事務和PreparedStatemen

PHP：網絡開發的關鍵語言 Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

See all articles

文章表500万条数据，每天会有10万条数据更新，从更新的10万条中随机选3000条做数据研究，如果做到高效？

回复内容：

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題