博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式并行计算MapReduce
阅读量:5300 次
发布时间:2019-06-14

本文共 645 字,大约阅读时间需要 2 分钟。

HDFS特点

1.数据冗余,软件容错很高。

2.流失数据访问,也就是HDFS一次写入,多次读写,并且没办法进行修改,只能删除之后重新创建

3.适合存储大文件。如果是小文件,而且是很多小文件,连一个块都装不满,并且还需要很多块,就会极大浪费空间。

HDFS的适用性和局限性:

1.数据批量读写,吞吐量高。

2.不适合交互式应用,延迟较高。

3.适合一次写入多次读取,顺序读取。

4.不支持多用户并发读写文件。

MapReduce:

MapReduce是并行处理框架,实现任务分解和调度。

其实原理说通俗一点就是分而治之的思想,将一个大任务分解成多个小任务(map),小任务执行完了之后,合并计算结果(reduce)。

2.HDFS上运行MapReduce

1)准备文本文件,放在本地/home/hadoop/wc

 

 

2)编写map函数和reduce函数,在本地运行测试通过

mapper

reduce

 

 

3)启动Hadoop:HDFS, JobTracker, TaskTracker

 

4)把文本文件上传到hdfs文件系统上 user/hadoop/input

 

5)streaming的jar文件的路径写入环境变量,让环境变量生效

 

6)建立一个shell脚本文件:streaming接口运行的脚本,名称为run.sh

 

 

7)source run.sh来执行mapreduce

 

8)查看运行结果

转载于:https://www.cnblogs.com/lamonein/p/10982178.html

你可能感兴趣的文章
mysql 事务提交过程
查看>>
SharedPreferences用法
查看>>
javascript去掉空格
查看>>
项目管理中相关概念
查看>>
C# 以嵌入到窗体的方式打开外部exe
查看>>
js系统类型的判断
查看>>
转码网址
查看>>
string类的写时拷贝
查看>>
痛点分析及项目设想
查看>>
OCIEnvNlsCreate 失败,返回代码为 -1,但错误消息文本不可用
查看>>
JavaScript之原生接口类设计
查看>>
query_phase_execution_exception
查看>>
MySQL进阶12-- 数据类型介绍: 数值型/字符型/日期型-- 正负溢出保护/枚举型/set型/时间戳...
查看>>
[ACM_水题] UVA 12502 Three Families [2人干3人的活后分钱,水]
查看>>
ThreadLocal的理解
查看>>
你不知道的CSS
查看>>
HashMap深度解析(一)
查看>>
Java跨平台原理
查看>>
批梯度下降和随机梯度下降的区别和代码实现
查看>>
android常见错误与问题
查看>>