Spark入门-常用函数汇总

2019年6月8日 273次阅读来源: 学习之术

《Spark入门-常用函数汇总》 Photo by Simon Migaj from Pexels

Spark 是一个分布式的计算系统，而且函数式编程风格使在Spark上开发任务变得更有效率。

参加工作后使用Spark开发维护了四个算法，虽然算法不同但Spark代码中所用的几个函数却一样。对于新手入门Spark编程，掌握这几个函数就够了。

在介绍这几个函数之前，先介绍Spark最重要的两个概念。

1. RDD，即分布式数据集合

就相当于是把数据分成几份，分别存储在不同的机器上。很多操作是作用在数据集的单个元素上，所以可以让机器对各自拥有的数据做处理就行，这就大大加快了程序运行的时间。

2. 惰性求值

Spark操作分为两类，一是转化操作，二是行动操作。只有当出现行动操作时前面的转化操作才会被真正执行，而且不会将中间状态的数据保存在内存中。

比如有两个操作，大致表述成这样： a = 1, b = a+1, c = b+1, print(c)，这里就暂时让print作为执行操作存在。若是Python，则a、b、c都会占用内存资源，但在Spark中却不是的。当计算完c后，b就会被踢出去，而print(c)之后，c也会被踢出去，这就节省了大量的资源。

当然，若是你希望保留某个中间值以避免重复计算，Spark也提供支持函数。

常用函数

最基本的二个转化操作是 map、filter。

map 的作用是获得需要的字段或对单个元素进行操作。比如RDD[(Long, Long, Long)]类型的数据-即每一条记录有三个字段，每个字段的类型是长整型。我们只需要保留第一个字段，并转化成字符串类型，那么我们可以用过 .map(x => x._1.toString)来实现。

filter 的作用是过滤掉不需要的数据。比如我们只想保留上述数据集中第一个字段为正数的数据，那可以通过.filter(x => x._1 > 0)来实现。

有时我们需要合并两份相同类型的数据集，通过a.union(b)即可完成。

接下来介绍两个强大并且常用的函数 flatMap 和 reduceByKey。

flatMap 的作用是把一份数据集拆散压扁，常常和 split 函数共同使用。比如我们现在有一份数据RDD[String]，其中有些元素是以逗号分隔的字符，我们希望每一个被分隔的字符都能做为独立的数据存在。在 Spark 中我们只需要这么做：.flatMap(x => x.split(","))。x.split(",")将字符转化成一个数组，这和其它语言中一样，然后 flatMap 会把数组中每一个元素拆出来。

reduceByKey 是一个聚合函数，它会对拥有相同 key 的元素进行某些操作。像RDD[(String,String)]``的数据类型，第一个字段会被当做 key。所以 ``map可以通过调整字段的顺序来指定 key。

接着上面的函数讲，拆完之后，若是想统计每个字符出现的次数，我们就可能通过 reduceByKey 来实现。使用.map(x => (x, 1)).reduceByKey((a,b) => a+b)即可完成此操作。map 的目的是让每个字符作为一个 key ，然后 reduceByKey 来计数，a、b就是每个key当前统计的数量。

由于是分布式数据集，reduceByKey 会在各个机器上对当前的数据做计数操作，然后再合并各个机器上的数据。

在现实生活中，很多数据都是以 key-value 结构存在的，而有些操作只需要对value进行即可，比如RDD[(String,String)]``中，我们只想对第二个字段做 split 操作，原先我们可以通过.map(x => (x._1, x._2.split(“,”))实现。但Spark提供的更简便的方式：.mapValues( x => x.split(“,”))“`。后一种方式只对 value 做操作，而忽略 key。

同样，我们可以使用 flatMapValues 对value进行扁平化操作。

排序是始终绕不开的话题。Spark 中可以使用 sortBy 来进行排序。比如上文中提到的类型RDD[(Long, Long, Long)]，若是需要按第三个字段来降序排序，我们可以这么做： .sortBy(_._3, false)。

最常见的执行操作是 .collect()，它的作用仅仅是触发执行操作用，让前面的转化操作行动起来。比如RDD[String]类型的数据集，我们可以通过.map(x => (x, 1)).reduceByKey((a,b) => a+b).collect().foreach(x => println(x._1 + "的数量：" + x._2.toString ))来打印所有的字符的数量。若是拿掉 collect() 这个操作，该语句就不会被执行。

与collect有共样作用的函数是 take，但take只用获取你需要数据的元素，比如.map(x => (x, 1)).reduceByKey((a,b) => a+b).take(5).foreach(x => println(x._1 + "的数量：" + x._2.toString ))则最多会打印五条记录。

Spark为了节省内存资源，执行操作后不会保留中间数据，这可能会带来重复计算的问题。Spakr为了解决这个问题，提供了一个函数：cache，它能帮助你保留中间数据。

结语

由于采用函数式编程，代码会变得更便捷，但这可能会让新手看得云里雾里，觉得“难”就产生了抗拒，但其实只要熟悉了上面的几个函数后，就会觉得自己怎么没早点学Spark。

    原文作者：学习之术
    原文地址: https://www.jianshu.com/p/5696ecacce38
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。