Comment retrouver les mêmes enregistrements dans deux gros fichiers en PHP ?

慕斯
Libérer: 2023-04-10 09:08:01
avant
2767 Les gens l'ont consulté

Étant donné deux fichiers a et b, il y a respectivement x et y lignes de données, où (x, y sont tous deux supérieurs à 1 milliard), la mémoire de la machine est limitée à 100 Mo, comment retrouver les mêmes enregistrements ? La principale difficulté pour résoudre ce problème est qu'il est impossible de lire ces données massives dans la mémoire en une seule fois si elles ne peuvent pas être lues dans la mémoire. mémoire à la fois, peut-il être considéré plusieurs fois ? Discutons-en ensemble

Introduction

Étant donné deux fichiers a et b, avec respectivement x et y lignes de données, où (x, y sont tous deux plus grands plus d'1 milliard), la mémoire de la machine est limitée à 100M, comment retrouver les mêmes enregistrements ?

Les choses

  • La principale difficulté à traiter avec ce problème est que cette quantité massive de données ne peut pas être lue dans la mémoire en une seule fois.

  • Elle ne peut pas être lue dans la mémoire en une seule fois, peut-elle donc être considérée plusieurs fois ? Si c’est possible, comment pouvons-nous calculer la même valeur après l’avoir lue plusieurs fois ?

  • Nous pouvons utiliser la pensée diviser pour régner pour réduire le grand au petit. Si les valeurs d'une même chaîne sont égales après hachage, alors on peut envisager d'utiliser le hachage modulo pour disperser les enregistrements dans n fichiers. Comment obtenir ce n? PHP dispose de 100 Mo de mémoire et le tableau peut stocker environ 1 million de données. Ainsi, étant donné que les enregistrements a et b n'ont qu'un milliard de lignes, n doit être au moins supérieur à 200.

  • Il y a actuellement 200 fichiers. Les mêmes enregistrements doivent être dans le même fichier, et chaque fichier peut être lu dans la mémoire. Ensuite, vous pouvez rechercher les mêmes enregistrements dans ces 200 fichiers dans l'ordre, puis les exporter dans le même fichier. Le résultat final est les mêmes enregistrements dans les deux fichiers a et b.

  • Il est très simple de retrouver le même enregistrement dans un petit fichier. Utilisez chaque ligne d'enregistrements comme clé de la table de hachage, et comptez le nombre d'occurrences de la clé >=. 2.

Opération pratique

1 milliard de fichiers sont trop gros L'opération pratique est une perte de temps.

La taille du problème est réduite à : limite de mémoire de 1 Mo, a et b ont chacun 100 000 lignes d'enregistrements. La limite de mémoire peut être limitée à l'aide de ini_set('memory_limit', '1M'); de PHP.

Générer un fichier de test

Générer des nombres aléatoires pour remplir le fichier :

/**
 * 生成随机数填充文件
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输出文件名
 * @param int $batch 按多少批次生成数据
 * @param int $batchSize 每批数据的大小
 */function generate(string $filename, int $batch=1000, int $batchSize=10000){
    for ($i=0; $i<$batch; $i++) {
        $str = &#39;&#39;;
        for ($j=0; $j<$batchSize; $j++) {
            $str .= rand($batch, $batchSize) . PHP_EOL; // 生成随机数
        }
        file_put_contents($filename, $str, FILE_APPEND);  // 追加模式写入文件
    }}generate(&#39;a.txt&#39;, 10);generate(&#39;b.txt&#39;, 10);
Copier après la connexion

Diviser le fichier

  • Diviser a.txt, b.txt en n fichiers à l'aide du module de hachage
/**
 * 用hash取模方式将文件分散到n个文件中
 * Author: ClassmateLin
 * Email: classmatelin.site@gmail.com
 * Site: https://www.classmatelin.top
 * @param string $filename 输入文件名
 * @param int $mod 按mod取模
 * @param string $dir 文件输出目录
 */
function spiltFile(string $filename, int $mod=20, string $dir=&#39;files&#39;)
{
    if (!is_dir($dir)){
        mkdir($dir);
    }

    $fp = fopen($filename, &#39;r&#39;);

    while (!feof($fp)){
        $line = fgets($fp);
        $n = crc32(hash(&#39;md5&#39;, $line)) % $mod; // hash取模
        $filepath = $dir . &#39;/&#39; . $n . &#39;.txt&#39;;  // 文件输出路径
        file_put_contents($filepath, $line, FILE_APPEND); // 追加模式写入文件
    }

    fclose($fp);
}

spiltFile(&#39;a.txt&#39;);
spiltFile(&#39;b.txt&#39;);
Copier après la connexion

exécute la fonction splitFile pour obtenir Comme indiqué ci-dessous, là. il y a 20 fichiers dans le répertoire files.

Trouver les enregistrements en double

Maintenant, nous devons trouver les mêmes enregistrements dans 20 fichiers. En fait, nous devons trouver les mêmes enregistrements dans un seul fichier et. fonctionner 20 fois.

  • Trouver le même enregistrement dans un fichier :

    /**
     * 查找一个文件中相同的记录输出到指定文件中
     * Author: ClassmateLin
     * Email: classmatelin.site@gmail.com
     * Site: https://www.classmatelin.top
     * @param string $inputFilename 输入文件路径
     * @param string $outputFilename 输出文件路径
     */
    function search(string $inputFilename, $outputFilename=&#39;output.txt&#39;)
    {
        $table = [];
        $fp = fopen($inputFilename, &#39;r&#39;);
    
        while (!feof($fp))
        {
            $line = fgets($fp);
            !isset($table[$line]) ? $table[$line] = 1 : $table[$line]++; // 未设置的值设1,否则自增
        }
    
        fclose($fp);
    
        foreach ($table as $line => $count)
        {
            if ($count >= 2){ // 出现大于2次的则是相同的记录,输出到指定文件中
                file_put_contents($outputFilename, $line, FILE_APPEND);
            }
        }
    }
    Copier après la connexion
  • Trouver le même enregistrement dans tous les fichiers :

    /**
     * 从给定目录下文件中分别找出相同记录输出到指定文件中
     * Author: ClassmateLin
     * Email: classmatelin.site@gmail.com
     * Site: https://www.classmatelin.top
     * @param string $dirs 指定目录
     * @param string $outputFilename 输出文件路径
     */
    function searchAll($dirs=&#39;files&#39;, $outputFilename=&#39;output.txt&#39;)
    {
        $files = scandir($dirs);
    
        foreach ($files as $file)
        {
            $filepath = $dirs . &#39;/&#39; . $file;
            if (is_file($filepath)){
                search($filepath, $outputFilename);
            }
        }
    }
    Copier après la connexion
  • Le problème d'espace du traitement des fichiers volumineux a été résolu ici, alors comment résoudre le problème de temps ? Une seule machine peut être traitée en utilisant le multicœur du CPU. Si cela ne suffit pas, cela peut l'être. traitées par plusieurs serveurs.

Code complet

Copier après la connexion

Apprentissage recommandé : "Tutoriel vidéo PHP"

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
php
source:csdn.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal