Cara menggunakan Java untuk membangunkan aplikasi pemprosesan data besar berasaskan Hadoop
Pengenalan:
Dengan kemunculan era data besar, pemprosesan data besar menjadi semakin penting. Hadoop kini merupakan salah satu rangka kerja pemprosesan data besar yang paling popular. Ia menyediakan platform pengkomputeran teragih berskala yang membolehkan kami memproses sejumlah besar data. Artikel ini akan memperkenalkan cara menggunakan bahasa Java untuk membangunkan aplikasi pemprosesan data besar berdasarkan Hadoop dan memberikan contoh kod terperinci.
1. Persediaan
Sebelum kita mula menulis kod, kita perlu menyediakan beberapa persekitaran dan alatan yang diperlukan.
2. Buat projek Hadoop
public static class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } } }
public static class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } }
Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(MyMapper.class); job.setCombinerClass(MyReducer.class); job.setReducerClass(MyReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1);
$ hadoop jar WordCount.jar input output
Atas ialah kandungan terperinci Cara menggunakan Java untuk membangunkan aplikasi pemprosesan data besar berdasarkan Hadoop. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!