[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptkh01 ~]$ ha…
分类:Spark
Spark记录-Spark-Shell客户端操作读取Hive数据
1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务:hive –ser…
Spark中ml和mllib的区别
转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求…
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set(…
spark中flatMap函数用法--spark学习(基础)
spark中flatMap函数用法–spark学习(基础) 在spark中map函数和flatMap函数是两个比较常用的函数。其中 map:对集合中每个元素进行操作。&n…
自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持
SparkSQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], …)这种语法…
Spark Streaming实时流处理项目实战百度云网盘下载
1章 课程介绍 课程介绍 1-1 -导学- 1-2 -授课习惯和学习建议 1-3 -OOTB环境使用演示 1-4 -Linux环境及软件版本介绍 1-5 -Spark版本升级 第2章 初识实时流处理 本章节将从一个业务场…
Spark的日志配置
在測试spark计算时。将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的。由于作业是提交到yarn的集群上,so 去yarn集群上看日志是非常麻烦的…
Oracle12c:自动分区表
为什么要创建oracle分区表? 一般情况下,如果不分区,则每次查询的对象都是一整张表,如果采用了表分区,那么可以根据具体的分区字段当作条件来避免扫描整张表,减少IO的扫描以提高表的查询速度。 新建(按照日期自动分区)分…
使用spark DStream的foreachRDD时要注意哪些坑?
答案: 两个坑, 性能坑和线程坑 DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口…
Spark RDD 编程指南中文版 (三)
接上一章 曾革:Spark RDD 编程指南中文版(二)继续翻译 Spark 官方的英文文档。 你可以点击这个链接查看所有已翻译的内容: 曾革:Spark 中文文档目录汇总 Transformations 下面的表格列出…
Spark 快速教程及在线体验
本篇文档搭配了 Spark在线环境,可以直接在线体验。Apache Spark是为大规模数据处理而设计的快速通用的运算框架,最初由AMPLab所开发,使用了内存运算技术。相对于Hadoop的MapReduce会在运行完工…