spark中 map和reduce理解及与hadoop的map、reduce区别

About云 · 公众号 · · 2017-05-21 18:40

正文

问题导读
1.你认为map函数可以做哪些事情？
2.hadoop中map函数与Scala中函数功能是否一致？
3.Scala中reduce函数与hadoop中reduce函数功能是否一致？

spark用的Scala编写的。因此这里的map和reduce，也就是Scala的map和reduce。scala 有很多函数，而且很方便。这里想写下map和reduce函数，也是看到一篇帖子，感觉Scala非常有意思。键值对rdd求value最大值【 http://www.aboutyun.com/forum.php?mod=viewthread&tid=21747 】

map函数
map函数，你可以往里面放一些，在其它语言中的匿名函数。
源数据：（“人名”，年龄） val rdd = sc.parallelize(Array[(String,Int)](("Michael",29),("Andy",30),("Justin",19), ("Tom",10), ("Tonny",11), ("Bob",12)))
比如val result = rdd.map(x => x._2)
上面是什么意思？x是rdd中的元素，代表的是任何一个(String,Int)，比如("Michael",29)或则("Andy",30)等。x._2则是第二个元素。

与hadoop中map函数比较
hadoop的map函数，与Scala中map函数没有太大的关系。hadoop的map函数，主要用来分割数据。至于如何分割可以指定分隔符。

请到「今天看啥」查看全文

推荐文章

加拿大约克论坛 · 各国投资移民费用大比拼，加拿大这么贵居然仅排第六位！

8 年前

掌上太原 · “手上的动脉怎么找？”“别找了，我爱你”

8 年前

寻找中国创客 · 傅盛认知三部曲：如何通过认知的升级、管理寻找新的突破口

7 年前

槽边往事 · 我是和菜头

7 年前

大宗内参 · 独家专访丨石头：宏观面偏空VS产业面偏稳螺纹钢走势纠结

7 年前