この記事では、php および linux sort コマンドを使用して、それぞれファイル内容の重複排除と並べ替えを実行し、完全なデモ コードを提供します。
1000000 の数値を 1 行に 1 つずつ書き込みます。
<?php$file = 'user_id.txt';$num = 1000000;$tmp = '';for($i=0; $i<$num; $i++){ $tmp .= mt_rand(0,999999).PHP_EOL; if($i>0 && $i%1000==0 || $i==$num-1){ file_put_contents($file, $tmp, FILE_APPEND); $tmp = ''; } }?>
ファイルの行数を表示します。
wc -l user_id.txt 1000000 user_id.txt
1000000 行のデータを処理する必要があるため、メモリ損失を防ぐために PHP で使用できるメモリは 256m に設定されます実行中は不十分です。
<?php/** * 文件内容去重及排序 * @param String $source 源文件 * @param String $dest 目标文件 * @param String $order 排序顺序 * @param Int $sort_flag 排序类型 */function fileUniSort($source, $dest, $order='asc', $sort_flag=SORT_NUMERIC){ // 读取文件内容 $file_data = file_get_contents($source); // 文件内容按行分割为数组 $file_data_arr = explode(PHP_EOL, $file_data); // 去除空行数据 $file_data_arr = array_filter($file_data_arr, 'filter'); // 去重 $file_data_arr = array_flip($file_data_arr); $file_data_arr = array_flip($file_data_arr); // 排序 if($order=='asc'){ sort($file_data_arr, $sort_flag); }else{ rsort($file_data_arr, $sort_flag); } // 数组合拼为文件内容 $file_data = implode(PHP_EOL, $file_data_arr).PHP_EOL; // 写入文件 file_put_contents($dest, $file_data, true); }// 过滤空行function filter($data){ if(!$data && $data!=='0'){ return false; } return true; }// 设置可使用内存为256mini_set('memory_limit', '256m');$source = 'user_id.txt';$dest = 'php_sort_user_id.txt'; fileUniSort($source, $dest);?>
重複排除および並べ替えられたファイルの表示
wc -l php_sort_user_id.txt 632042 php_sort_user_id.txt head php_sort_user_id.txt 012357891112...
Linux sort コマンドは、テキスト ファイルを行ごとに並べ替えるために使用されます
形式:
sort [OPTION]... [FILE]...
パラメータの説明:
-u Deduplication
-n 数値ソート タイプ
-r 降順
-o 出力ファイルへのパス
ソートを使用して重複排除を実行し、並べ替え
sort -uno linux_sort_user_id.txt user_id.txt
重複排除および並べ替えられたファイルの表示
wc -l linux_sort_user_id.txt 632042 linux_sort_user_id.txt head linux_sort_user_id.txt 012357891112...
概要: ファイルの重複排除と並べ替えは、php または Linux sort コマンドを使用して実行できますが、実行時間は異なります。大きなことではありませんが、ファイル操作の場合はシステム コマンドを直接使用する方が簡単であるためお勧めします。
この記事では、php および linux sort コマンドを使用して、それぞれファイル内容の重複排除と並べ替えを実装し、完全なデモ コードを提供します。
この記事では、ファイル コンテンツの重複排除と並べ替えに関連する内容について説明します。詳細については、PHP 中国語 Web サイトを参照してください。
関連する推奨事項:
phpcurl を使用してマルチプロセスのダウンロード ファイル クラスを実装する方法
以上がファイルコンテンツの重複排除と関連コンテンツの並べ替えの詳細な説明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。