重複排除

WBOY
リリース: 2016-06-23 14:18:05
オリジナル
927 人が閲覧しました

数十万行のデータを含むファイルがあります。 。 。繰り返し方。 。 。大文字と小文字が同じ数字は 1 つだけ数えられます。 。


ディスカッションへの返信(解決策)

行の概念とは何ですか?
1 行あたり 100 文字ある場合、200,000 行はわずか 20~60M です

array_unique
でファイルを読み込んで書き戻します

十分なスペースがないと思われる場合は
一行ずつ読み込んで、MD5 を見つけて、保存します (平均行長が 32 未満の場合、より多くのメモリを占有します)
同時にファイルを書き込みます
特定の行の MD5 が既に存在する場合、この行は書き込まれません

ファイル構造はどのようなものですか?段落を投稿してください。Buzhu が問題の解決に役立つと思います。

これは php を必要とせず、Linux シェル ツールを使用した方が速いと思います


たとえば

cat file | sort -u > file

もしまだ case の問題を考慮する必要がある場合は、 add - 上記のコマンドに直接 - f は大文字と小文字を無視します


cat file | sort -u -f >

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート