博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
理解MapReduce
阅读量:6819 次
发布时间:2019-06-26

本文共 1149 字,大约阅读时间需要 3 分钟。

. 用Python编写WordCount程序并提交任务

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

  1. 编写map函数,reduce函数
    #!/usr/bin/env pythonimport sysfor line in sys.stdin:     line=line.strip()     words=line.split()     for word in words:          print '%s\t%s' % (word,1)#!/usr/bin/env pythonfrom operator import itemgetterimport syscurrent_word=Nonecurrent_count=0word=Nonefor line in sys.stdin:     line=line.strip()     word,count=line.split('\t',1)     try:          count=int(count)     except ValueError:          continue     if current_word==word:          current_count+=count     else:          if current_word:              print '%s\t%s' % (current_word,current_count)          current_count=count          current_word=wordif current_word==word:     print '%s\t%s' % (current_word,current_count)

     

  2. 将其权限作出相应修改
  3. 本机上测试运行代码
    chmod a+x /home/hadoop/wc/mapper.pychmod a+x /home/hadoop/wc/reducer.py

     

  4. 放到HDFS上运行
    1. 将之前爬取的文本文件上传到hdfs上
    2. 用Hadoop Streaming命令提交任务

       

  5. 查看运行结果

 

 

2. 用mapreduce 处理气象数据集

编写程序求每日最高最低气温,区间最高最低气温

  1. 气象数据集下载地址为:
  2. 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)

     

转载于:https://www.cnblogs.com/mimimi/p/9021818.html

你可能感兴趣的文章
hadoop2.0集群搭建详解
查看>>
java调用oracle存储过程
查看>>
Spring Cloud Alibaba基础教程:Nacos配置的多环境管理
查看>>
极乐小程序榜单(第六期)
查看>>
使用Log4j为项目配置日志输出应用详细总结及示例演示.
查看>>
Lua-5.3.2 安装 luasocket 的正确姿势
查看>>
freeswitch实战经验1:服务器向成员主动发起会议邀请
查看>>
python转换文本编码和windows换行符
查看>>
try-catch中导致全局变量无法变化的bug
查看>>
Js中数组的操作
查看>>
浏览器缓存 from memory cache与from disk cache详解
查看>>
php编译常用选项
查看>>
Docker Machine 简介
查看>>
Angular4错误提示的说明(一)
查看>>
CCNA+NP学习笔记—交换网络篇
查看>>
一张图说明Linux启动过程
查看>>
Provider处理请求逻辑梳理
查看>>
我的友情链接
查看>>
查看当前服务链接数
查看>>
Open-Falcon 互联网企业级监控系统解决方案(2)
查看>>