spark 数据文件读写

2019年6月8日 231次阅读来源: 起个什么呢称呢

本地文件系统的数据读写
val textFile=sc.textFile(“file:/// path”)

分布式文件系统HDFS的数据读写

《spark 数据文件读写》读取hdfs 文件的语法

执行上面语句后，就可以看到HDFS文件系统中（不是本地文件系统）的word.txt的第一行内容了。需要注意的是，sc.textFile(“hdfs://localhost:9000/user/hadoop/word.txt”)中，“hdfs://localhost:9000/”是前面介绍Hadoop安装内容时确定下来的端口地址9000。实际上，也可以省略不写，如下三条语句都是等价的：

《spark 数据文件读写》如图所示

不同文件格式的读写

文本文件

=======================================================

当我们给textFile()函数传递一个“包含完整路径的文件名”时，就会把这个文件加载到RDD中。如果我们给textFile()函数传递的不是文件名，而是一个目录，则该目录下的所有文件内容都会被读取到RDD中。

JSON

=======================================================

《spark 数据文件读写》 json

《spark 数据文件读写》读取json文件

从上面执行结果可以看出，people.json文件加载到RDD中以后，在RDD中存在三个字符串。我们下面要做的事情，就是把这三个JSON格式的字符串解析出来，比如说，第一个字符串{“name”:”Michael”}，经过解析后，解析得到key是”name”，value是”Michael”。

    原文作者：起个什么呢称呢
    原文地址: https://www.jianshu.com/p/f0426d35173e
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。