Dieser Artikel vermittelt Ihnen relevantes Wissen über PHP Bei zwei Dateien a und b mit x- bzw. y-Datenzeilen (x und y sind beide größer als 1 Milliarde) beträgt die Maschinenspeichergrenze 100 MB die gleichen Datensätze? Dieser Artikel wird die Implementierungsmethode für alle erklären. Ich hoffe, dass er für alle hilfreich ist.

(Empfohlenes Tutorial: PHP-Video-Tutorial)
1. Gegeben sind zwei Dateien a und b mit x- bzw. y-Datenzeilen, wobei (x, y beide größer als 1 Milliarde sind) , Der Maschinenspeicher ist auf 100 MB begrenzt. Wie kann man dieselben Datensätze finden? kann nicht gleichzeitig in den Speicher eingelesen werden, kann es dann mehrfach berücksichtigt werden? Wenn es möglich ist, wie können wir denselben Wert berechnen, nachdem wir ihn mehrmals gelesen haben?
Wir können das Teilen-und-herrschen-Denken nutzen, um das Große auf das Kleine zu reduzieren. Wenn die Werte derselben Zeichenfolge nach dem Hashing gleich sind, können wir die Verwendung des Hash-Moduls in Betracht ziehen, um die Datensätze auf n Dateien zu verteilen. Wie bekomme ich dieses N? PHP verfügt über 100 MB Speicher und das Array kann etwa 1 Million Daten speichern. Wenn man also bedenkt, dass die Datensätze a und b nur 1 Milliarde Zeilen haben, muss n mindestens größer als 200 sein.
Zu diesem Zeitpunkt müssen sich 200 Dateien in derselben Datei befinden, und jede Datei kann in den Speicher eingelesen werden. Dann können Sie nacheinander dieselben Datensätze in diesen 200 Dateien finden und sie dann in dieselbe Datei ausgeben. Das Endergebnis sind die gleichen Datensätze in den beiden Dateien a und b.
Es ist einfach, denselben Datensatz in einer kleinen Datei zu finden. Verwenden Sie einfach jede Zeile von Datensätzen als Schlüssel der Hash-Tabelle und zählen Sie die Anzahl der Vorkommen des Schlüssels >= 2. -
- 3. Praktische Bedienung
- 1 Milliarde Dateien sind zu groß und die praktische Bedienung ist Zeitverschwendung.
- Die Problemgröße wird reduziert auf: 1 MB Speicherlimit, a und b haben jeweils 100.000 Datensatzzeilen. Das Speicherlimit kann durch PHPs
ini_set('memory_limit', '1M');
begrenzt werden.
- 4. Testdatei generieren
Zufallszahlen generieren, um die Datei zu füllen:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
function generate(string $filename , int $batch =1000, int $batchSize =10000)
{
for ( $i =0; $i < $batch ; $i ++) {
$str = '';
for ( $j =0; $j < $batchSize ; $j ++) {
$str .= rand( $batch , $batchSize ) . PHP_EOL;
}
file_put_contents ( $filename , $str , FILE_APPEND);
}
}
generate('a.txt', 10);
generate('b.txt', 10);
|
Nach dem Login kopieren
5. Teilen Sie die Datei auf. Hash
a.txt
,
b.txt
in n Dateien mit der Modulo-Methode.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
function spiltFile(string $filename , int $mod =20, string $dir ='files')
{
if (! is_dir ( $dir )){
mkdir ( $dir );
}
$fp = fopen ( $filename , 'r');
while (! feof ( $fp )){
$line = fgets ( $fp );
$n = crc32(hash('md5', $line )) % $mod ;
$filepath = $dir . '/' . $n . '.txt';
file_put_contents ( $filepath , $line , FILE_APPEND);
}
fclose( $fp );
}
spiltFile('a.txt');
spiltFile('b.txt');
|
Nach dem Login kopieren
Führen Sie die Funktion
splitFile
aus und erhalten Sie 20 Dateien im Verzeichnis
files
, wie unten gezeigt.
ini_set('memory_limit', '1M');
来限制。
4、生成测试文件
生成随机数用于填充文件:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
function search(string $inputFilename , $outputFilename ='output.txt')
{
$table = [];
$fp = fopen ( $inputFilename , 'r');
while (! feof ( $fp ))
{
$line = fgets ( $fp );
!isset( $table [ $line ]) ? $table [ $line ] = 1 : $table [ $line ]++;
}
fclose( $fp );
foreach ( $table as $line => $count )
{
if ( $count >= 2){
file_put_contents ( $outputFilename , $line , FILE_APPEND);
}
}
}
|
Nach dem Login kopieren
5、分割文件
将a.txt
, b.txt
通过hash取模的方式分割到n个文件中.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
function searchAll( $dirs ='files', $outputFilename ='output.txt')
{
$files = scandir( $dirs );
foreach ( $files as $file )
{
$filepath = $dirs . '/' . $file ;
if ( is_file ( $filepath )){
search( $filepath , $outputFilename );
}
}
}
|
Nach dem Login kopieren
执行 splitFile
函数, 得到如下图 files
6. Doppelte Datensätze finden
Jetzt müssen Sie dieselben Datensätze in 20 Dateien finden. Tatsächlich müssen Sie dieselben Datensätze in einer Datei finden und 20 Mal arbeiten.
Finden Sie die gleichen Datensätze in einer Datei:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 | <!--?php
ini_set ('memory_limit', '1M');
function generate(string $filename , int $batch =1000, int $batchSize =10000)
{
for ( $i =0; $i < $batch ; $i ++) {
$str = '';
for ( $j =0; $j < $batchSize ; $j ++) {
$str .= rand( $batch , $batchSize ) . PHP_EOL;
}
file_put_contents ( $filename , $str , FILE_APPEND);
}
}
function spiltFile(string $filename , int $mod =20, string $dir ='files')
{
if (! is_dir ( $dir )){
mkdir ( $dir );
}
$fp = fopen ( $filename , 'r');
while (! feof ( $fp )){
$line = fgets ( $fp );
$n = crc32(hash('md5', $line )) % $mod ;
$filepath = $dir . '/' . $n . '.txt';
file_put_contents ( $filepath , $line , FILE_APPEND);
}
fclose( $fp );
}
function search(string $inputFilename , $outputFilename ='output.txt')
{
$table = [];
$fp = fopen ( $inputFilename , 'r');
while (! feof ( $fp ))
{
$line = fgets ( $fp );
!isset( $table [ $line ]) ? $table [ $line ] = 1 : $table [ $line ]++;
}
fclose( $fp );
foreach ( $table as $line => $count )
{
if ( $count >= 2){
file_put_contents ( $outputFilename , $line , FILE_APPEND);
}
}
}
function searchAll( $dirs ='files', $outputFilename ='output.txt')
{
$files = scandir( $dirs );
foreach ( $files as $file )
{
$filepath = $dirs . '/' . $file ;
if ( is_file ( $filepath )){
search( $filepath , $outputFilename );
}
}
}
generate('a.txt', 10);
generate('b.txt', 10);
spiltFile('a.txt');
spiltFile('b.txt');
searchAll('files', 'output.txt');</pre--><div class = "contentsignin" >Nach dem Login kopieren</div>
|
Finden Sie die gleichen Datensätze in allen Dateien:
rrreee
Nachdem das Platzproblem bei der Verarbeitung großer Dateien gelöst ist, wie kann man mit dem Zeitproblem umgehen, das eine einzelne Maschine nutzen kann? Die Multi-Core-CPU-Verarbeitung reicht nicht aus, sie wird über mehrere Server verarbeitet.
7. Vollständiger Code
rrreee
(empfohlenes Tutorial:
PHP-Video-Tutorial
)
Das obige ist der detaillierte Inhalt vonDetailliertes Beispiel, wie PHP die gleichen Datensätze in zwei großen Dateien findet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!