mrjob ermöglicht es Ihnen, MapReduce-Jobs mit Python 2.5 zu schreiben und auf mehreren verschiedenen Plattformen auszuführen. Sie können:
Mehrstufige MapReduce-Jobs mit reinem Python schreiben
auf Ihrem lokalen Computer testen auf
Auf Hadoop-Cluster ausführen
Verwenden Sie Amazon Elastic MapReduce (EMR) zur Ausführung in der Cloud
Die Installationsmethode von pip ist sehr einfach, es ist keine Konfiguration erforderlich Führen Sie es direkt aus: pip install mrjob
Codebeispiel:
from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1 def reducer(self, word, occurrences): yield word, sum(occurrences) if __name__ == '__main__': MRWordCounter.run()