spark中flatMap函数用法--spark学习（基础）

2024年1月8日 117次阅读来源: spark

spark中flatMap函数用法–spark学习（基础）

在spark中map函数和flatMap函数是两个比较常用的函数。其中
map：对集合中每个元素进行操作。
flatMap：对集合中每个元素进行操作然后再扁平化。
理解扁平化可以举个简单例子

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.flatmap(x=>(x._1+x._2)).foreach(println)

输出结果为

A
1 B 2 C 3

如果用map

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).foreach(println)

输出结果

A1
B2
C3

所以flatMap扁平话意思大概就是先用了一次map之后对全部数据再一次map。

这个场景是我曾经在写代码过程中遇到的难题，在字符串中如何统计相邻字符对出现的次数。意思就是如果有A;B;C;D;B;C字符串，则（A,B）,(C,D),(D,B)相邻字符对出现一次，(B,C)出现两次。
如有数据

A;B;C;D;B;D;C B;D;A;E;D;C A;B

统计相邻字符对出现次数代码如下

data.map(_.split(";")).flatMap(x=>{ for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1) }).reduceByKey(_+_).foreach(println)

输出结果为

(A,E,1) (E,D,1) (D,A,1) (C,D,1) (B,C,1) (B,D,2) (D,C,2) (D,B,1) (A,B,2)

此例子就是充分运用了flatMap的扁平化功能。

    原文作者：spark
    原文地址: https://www.cnblogs.com/devin-ou/p/8028261.html
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。