MapReduce 的 Shuffle 过程

17 阅读 0 评论 0 点赞

MapReduce 的 Shuffle 过程指的是 MapTask 的后半程，以及ReduceTask的前半程，共同组成的。
从 MapTask 中的 map 方法结束，到 ReduceTask 中的 reduce 方法开始，这个中间的部分就是Shuffle。是MapReduce的核心，心脏。

map端：

1、map中的context.write方法，对外写出的时候，其实是写入到了一个环形缓冲区内（内存形式的），这个环形缓冲区大小是100M,可以通过参数设置。如果里面的数据大于80M,就开始溢写（从内存中将数据写入到磁盘上）。溢写的文件存放地址可以设置。

2、在溢写过程中，环形缓冲区不会停止工作，是会利用剩余的20%继续存入环形缓冲区的。除非是环形缓冲区的内存满了，map任务就被阻塞了。
在溢写出来的文件中，是排过序的，排序规则：快速排序算法。在排序之前，会根据分区的算法，对数据进行分区。在内存中，先分区，在每一个分区中再排序，接着溢写到磁盘上的。

3、溢写出来的小文件需要合并为一个大文件，因为每一个MapTask只能有一份数据。就将相同的分区文件合并，并且排序（此处是归并排序）。每次合并的时候是10个小文件合并为一个大文件，进行多次合并，最终每一个分区的文件只能有一份。
假如100个小文件，需要合并几次呢？
100 每10分合并一次，第一轮：100个文件合并为了10个文件，这10个文件又合并为一个大文件，总共合并了11次。

4、将内存中的数据，溢写到磁盘上，还可以指定是否需要压缩，以及压缩的算法是什么。

reduce端：

1、reduce端根据不同的分区，拉取每个服务器上的相同的分区的数据。
reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，但这个默认值可以修改，设置mapreduce.reduce.shuffle. parallelcopies 属性即可。

2、如果map上的数据非常的小，该数据会拉取到reduce端的内存中，如果数据量比较大，直接拉取到reduce端的硬盘上。

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » MapReduce 的 Shuffle 过程

点赞(0) 打赏

本文分类：文章资讯
本文标签：MapReduce 的 Shuffle 过程
浏览次数：17 次浏览
本文链接：https://freeymw.com/article/35904.html

上一篇 > 11月7日星期四今日早报简报微语报早读
下一篇 > 代码中的设计模式-策略模式

评论列表共有 0 条评论

暂无评论

MapReduce 的 Shuffle 过程

map端：

reduce端：

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复