Spark 2.X 上累加器(Accumulators)不能用了？原来如此

2019年6月8日 402次阅读来源: 俺是亮哥

本文基于Spark2.1.0版本

今天整理累加器的知识点时，发现实例化一个Accumulator对象，编译无法通过：

《Spark 2.X 上累加器(Accumulators)不能用了？原来如此》 Spark 2.x版本使用Accumulator类时编译出错，提示类过时

查了一下Spark2.x的API，发现对Accumulator类的定义发生了变化：

《Spark 2.X 上累加器(Accumulators)不能用了？原来如此》 2.0版本前的累加器的类定义
2.x版本的累加器类定义

新的累加器创建的方法如下：

《Spark 2.X 上累加器(Accumulators)不能用了？原来如此》

可以看出，新版的累加器有了如下的改良：
1，不用传初始化值参数，默认是从0开始；
2，创建累加器时，可以指定累加器的名字，这样在Driver 4040 Web UI的Task显示时，可以看到该名字的累加器在各Task中的实际的值（如果不指定累加器名字，则不会在Web UI上显示）– 这点我说的不准确，旧的累加器类也有这个功能，只不过我一直没用过，惭愧。。。
3，新增了reset方法，可以重置该累加器归零（还有几个新的方法，不一一举例）

So，按照API的指示，修改如下：

《Spark 2.X 上累加器(Accumulators)不能用了？原来如此》编译通过，功能正常