分类：Spark

Spark+Hadoop+Hive集群上数据操作记录

[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptkh01 ~]$ ha…

1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务：hive –ser…

转载自：https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下： ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求…

def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set(…

spark中flatMap函数用法–spark学习（基础）在spark中map函数和flatMap函数是两个比较常用的函数。其中 map：对集合中每个元素进行操作。&n…

SparkSQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], …)这种语法…

1章课程介绍课程介绍 1-1 -导学- 1-2 -授课习惯和学习建议 1-3 -OOTB环境使用演示 1-4 -Linux环境及软件版本介绍 1-5 -Spark版本升级第2章初识实时流处理本章节将从一个业务场…

在測试spark计算时。将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的。由于作业是提交到yarn的集群上，so 去yarn集群上看日志是非常麻烦的…

为什么要创建oracle分区表？一般情况下，如果不分区，则每次查询的对象都是一整张表，如果采用了表分区，那么可以根据具体的分区字段当作条件来避免扫描整张表，减少IO的扫描以提高表的查询速度。新建(按照日期自动分区)分…

答案：两个坑，性能坑和线程坑 DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口…

接上一章曾革：Spark RDD 编程指南中文版（二）继续翻译 Spark 官方的英文文档。你可以点击这个链接查看所有已翻译的内容：曾革：Spark 中文文档目录汇总 Transformations 下面的表格列出…

本篇文档搭配了 Spark在线环境，可以直接在线体验。Apache Spark是为大规模数据处理而设计的快速通用的运算框架，最初由AMPLab所开发，使用了内存运算技术。相对于Hadoop的MapReduce会在运行完工…