問題描述:
有很多文件夾,一個文件夾下有很多文件。目的是將每個文件夾的特徵提取出來,特徵規定是該文件夾下的一個或少量文件(名,內容hash及相對位置)。有什麼較好的算法或策略來解決該問題嗎?
我想的是暴力求解,但這效率低下。直接把该文件夾下的文件與其它文件夾下所有的文件做比較,如果有相同的,则该文件夾的下一个文件又去比较其它所有的,如果不同,则说明这个文件可以表达出该文件夹的特征。然后每个文件夹都这么做。
統計方法。按順序將每個文件夾的文件排序,選最大最小及中位數文件來作每個文件夾的特徵。但會出現這麼個問題,兩個文件夾可能就只有一個或少量文件不同,使用這種策略會產生遺漏,無法準確提取出所有文件夾的特徵。
因此,我希望是在既能保證效率又能保證準確率的情況下來對這問題進行求解。希望各位表哥能隨便提提建議或意見,指導指導。thx。
Sélectionnez aléatoirement un nombre fixe de fichiers dans le dossier actuel, combinez leurs noms de fichiers, tailles, heures de modification, autorisations, etc. pour créer un hachage, puis déterminez la gravité. Généralement, le taux de répétition ne sera pas très élevé. , car même si le nom et la taille du fichier sont les mêmes, l'heure de modification est généralement différente.