1、hadoop的mapereduce编程模型 map阶段: (1)读取文件系统中的文件 (2)将键值对集合输入到mapper进行业务处理形成key-value的输出, (3)进行partition进行分区操作,默认式h…
标签:spark
高性能Spark: High Performance Spark 点滴总结完整篇
使用scala 因为spark的源代码就是scala,想成为专家就必须会scala,尤其是RDD的代码大量的都是基于scala集合库的概念,并且immutable,lambda等scala相关的语言设计概念也是天生的体现…
Java:日期类Date与Calendar
Timestamp类型与日期类型之间的转化? Timestamp timestamp = Timestamp.valueOf("2017-03-17 07:00:00"); Date date = new Date(ti…
Spark+Hadoop+Hive集群上数据操作记录
[rc@vq18ptkh01 ~]$ hadoop fs -ls / drwxr-xr-x+ - jc_rc supergroup 0 2016-11-03 11:46 /dt [rc@vq18ptkh01 ~]$ ha…
Spark记录-Spark-Shell客户端操作读取Hive数据
1.拷贝hive-site.xml到spark/conf下,拷贝mysql-connector-java-xxx-bin.jar到hive/lib下 2.开启hive元数据服务:hive –ser…
Spark中ml和mllib的区别
转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求…
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set(…
spark中flatMap函数用法--spark学习(基础)
spark中flatMap函数用法–spark学习(基础) 在spark中map函数和flatMap函数是两个比较常用的函数。其中 map:对集合中每个元素进行操作。&n…
自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持
SparkSQL从2.0开始已经不再支持ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], …)这种语法…
Spark的日志配置
在測试spark计算时。将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的。由于作业是提交到yarn的集群上,so 去yarn集群上看日志是非常麻烦的…
Oracle12c:自动分区表
为什么要创建oracle分区表? 一般情况下,如果不分区,则每次查询的对象都是一整张表,如果采用了表分区,那么可以根据具体的分区字段当作条件来避免扫描整张表,减少IO的扫描以提高表的查询速度。 新建(按照日期自动分区)分…
使用spark DStream的foreachRDD时要注意哪些坑?
答案: 两个坑, 性能坑和线程坑 DStream是抽象类,它把连续的数据流拆成很多的小RDD数据块, 这叫做“微批次”, spark的流式处理, 都是“微批次处理”。 DStream内部实现上有批次处理时间间隔,滑动窗口…