使用hadoop查找文件中是否含有某些字符串,也就是要查找出set(string)中每个string对应的那一行,每条数据都不重复,请问怎么可以快速的找到呢?我写了简单的
# map.sh awk -F "\03" '$3==xxx{print $0}' -
结果慢的要死,一直动不都不懂,请问有快点的办法吗?最好是可以一次性找出集合中所有的
闭关修行中......
Écrivez MR pour cela. Si vous souhaitez éviter les problèmes, importez simplement les données dans la ruche et utilisez SQL pour les résoudre
Écrivez MR pour cela. Si vous souhaitez éviter les problèmes, importez simplement les données dans la ruche et utilisez SQL pour les résoudre