c++ - 单机海量哈希去重算法

Question

单机环境，有大约1TB硬盘装满了md5哈希，里边有重复的，怎样才可能最快速度踢出重复的。内存大小限定为512MB吧 我实际遇到的一个问题，我去知乎提问了。居然被管理员封了，说我“代为解决个人问题”https://www.zhi...

黄舟 · Answer

私は以前、数百ギガバイトの DNA シーケンスから反復シーケンスを削除するためにこれを実行したことがあります (ファイルの 1 行あたり 1 つのハッシュが 30G であると仮定します)。 1 日)、何をしているのかわかりません。この 512M はどれくらい続くのでしょうか...

sort -u -S buffsize -o unique_file ファイル

巴扎黑 · Answer

あなたの方法に従って計算した 1 TB のデータの容量要件は、容量制限よりもはるかに大きいということを本当に理解しているかわかりませんが、時間はあなたの見積もりよりもはるかに短くなります。
最適なストレージソリューションとして MD5 を考慮すると、各 MD5 が占めるハードディスク容量は $$frac{log_{2}1632}{8}=16$$ となり、1TB のハード全体が占有します。ディスクには約 $$610^{10}$$ MD5 があります。
あなたの方法によると、平均的な状況では、占有スペースは 1TB/256 (4GB) となり、256MB の制限を超えます。さらに、MD5 の最初の 2 文字の分布は必ずしも均等ではないため、この値はさらに大きくなる可能性があります。
しかし、計算時間は、IO オーバーヘッドと分類の準備を考慮すると、約 16 時間であることがわかり、2 日を超えることはありません。
もちろん、理論的には、分類はそれほど面倒である必要はありません。外部で直接ソートし、重複を線形に削除する方が便利です。そして、メソッドの複雑さは $$O(nklog_{2}frac{n}{k})(k=256)$$ で、直接メソッドは $$O(nlog_{2}n)$$ です。理論的には、後者の方が複雑性も低くなります。ただし、ディスク IO などの要因があるため、どちらが優れているかについて結論を出すことはできません。
いわゆる

ringa_lee · Answer

Hadoop を直接使用することはできますか~

ハッシュ値は 128 ビットです。1 ビットが異なっていれば重複しません。
したがって、あまり複雑な比較アルゴリズムを使用する必要はなく、一部を抽出して比較するだけで済みます。
たとえば、各ハッシュ値の下位 64 ビットのみを比較します。これにより、ほとんどの値が除外されます。

読み取りと書き込みの競合を避けるために、ハードディスクを 2 台使用するのが最善です。
2 番目の空のハードディスクは、A ディスクからハッシュ値をコピーする代わりに、重複値をマークするためのフラットスペースとして使用されます。

PHPz · Answer

1. この種の質問は、面接や筆記試験の質問などで非常に頻繁に現れると思います。通常、Google で簡単に検索すると、より詳細な回答が見つかります。
2.hash このアルゴリズムは、重複 Bloom Filter を削除するために使用する必要があります。

怪我咯 · Answer

これにはブルームフィルターを使用する必要があります

怪我咯 · Answer

今のところ、IO 速度を無視するアルゴリズムを紹介します。

データを 1024 2 または 1024 2.5 に均等に分割します。

各データファイルのハッシュ値をソートし、O(NlogN) で簡単にソートするだけで十分です。

小さなルートヒープを作成し、ファイルごとに 1 つずつ、1024 * 2.5 のファイル読み取り接続を確立します。

初めて、ファイルから 1024 * 2.5 の md5 を読み取り、それらを順番にヒープに置きます。各 md5 がどのファイルから来たのかをマークする必要があります。

ヒープの先頭を取り出して保存用のファイルに出力します (この md5 は計算が終了したことを意味します)。ただし、ヒープの先頭を最初に保持します。

4 番目に記録されたファイルに従って、そのファイルから別のファイル (1 つの md5 は複数のファイルに対応する可能性があります。複数ある場合は任意のファイルに対応します) をヒープに置き、新しいファイルを更新します。 md5 はどのファイルからのものですか;

ヒープの先頭を取り出し、レコード 5 の以前のヒープの先頭と比較します。それらが同じである場合は破棄し、異なる場合はファイルに保存し、レコードを更新します。ヒープの一番上に配置し、6 に進みます。全キャラ完成するまで。 O(NlogN)

合計平均複雑さ: O(NlogN)。

ここでいくつかの疑問があります。まず、これほど大きな配列を開いたことがないので、一度に 0.5 G のデータをメモリに配置できるかどうかがわかりません。次に、辞書ツリーを使用できるかどうかです。問題を解決します。パート 4 の録画速度が速くなります。、読み取り用に数千のファイルストリームを作成できるかどうかはわかりません。作成できない場合は、次のようなものを作成できます。毎回 1 つの md5 を読み取ると、1 TB を読み取ろうとすると、許容できないほど遅くなりますか?

IO が遅すぎる場合、このメソッドは数日間実行される可能性があります。