hadoop - Utilisez le module python hdfs ou d'autres modules similaires pour filtrer le contenu du journal sur HDFS

Question

Actuellement, la société utilise HDFS pour stocker les journaux téléchargés par chaque serveur de nœud. En raison de problèmes historiques, les rapports sont assez mitigés. Autrement dit, toutes sortes de données seront stockées dans le journal. Un fichier journal fait environ 200 Mo. Parfois, vous devez filtrer certains contenus en fonction de l'horodatage, puis utiliser la commande cat de hdfs...

曾经蜡笔没有小新 · Answer

Qu'en est-il du multithreading et du calcul parallèle ? Lire plusieurs Go à la fois est naturellement lent. Puisqu'il s'agit d'un framework hadoop, il devrait suffire de bien utiliser mapreduce. Cette chose n'est probablement pas conçue pour la vitesse.