标签：spark

hadoop/spark的一些总结

1、hadoop的mapereduce编程模型 map阶段：（1）读取文件系统中的文件（2）将键值对集合输入到mapper进行业务处理形成key-value的输出，（3）进行partition进行分区操作，默认式h…

使用scala 因为spark的源代码就是scala，想成为专家就必须会scala，尤其是RDD的代码大量的都是基于scala集合库的概念，并且immutable，lambda等scala相关的语言设计概念也是天生的体现…

Timestamp类型与日期类型之间的转化？ Timestamp timestamp = Timestamp.valueOf("2017-03-17 07:00:00"); Date date = new Date(ti…

[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptkh01 ~]$ ha…

1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务：hive –ser…

转载自：https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下： ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求…

def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set(…

spark中flatMap函数用法–spark学习（基础）在spark中map函数和flatMap函数是两个比较常用的函数。其中 map：对集合中每个元素进行操作。&n…

SparkSQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], …)这种语法…

在測试spark计算时。将作业提交到yarn（模式–master yarn-cluster）上，想查看print到控制台这是imposible的。由于作业是提交到yarn的集群上，so 去yarn集群上看日志是非常麻烦的…

为什么要创建oracle分区表？一般情况下，如果不分区，则每次查询的对象都是一整张表，如果采用了表分区，那么可以根据具体的分区字段当作条件来避免扫描整张表，减少IO的扫描以提高表的查询速度。新建(按照日期自动分区)分…

答案：两个坑，性能坑和线程坑 DStream是抽象类，它把连续的数据流拆成很多的小RDD数据块，这叫做“微批次”， spark的流式处理，都是“微批次处理”。 DStream内部实现上有批次处理时间间隔，滑动窗口…