本文简单介绍两种往SQLContext、HiveContext中注册自定义函数方法。 下边以sqlContext为例,在spark-shell下操作示例: scala> sc res5: org.apache.sp…
分类:Spark
代数结构入门:群、环、域、向量空间
抽象代数研究对象是代数结构(集合+一套运算规则),以本人的理解方式整理了代数结构基础内容,旨在弄清群、环、域等代数结构间的关系。(之前很认真整理了这部分内容,后来装双系统把草稿给丢了,这会重新整理) PS:以下内容直接从…
Spark 2017 欧洲技术峰会摘要(人工智能)
下载全部视频和PPT,请关注公众号(bigdata_summit),并点击“视频下载”菜单 Apache Spark-and-Tensorflow-as-a-Service by Jim Dowling, KTH—Roy…
spark部分概述 - 校招准备
spark面试问题小结 此为spark系列第一篇文章, 后续还会依次更新 core/ sql /DStream/mllib等比较细节的东西 scala 语言有什么特点,相比java有什么优点? 函数式编程, 适合用来处理…
Spark Structured Streaming:将数据落地按照数据字段进行分区方案
方案一(使用ForeachWriter Sink方式): val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds)) .outputMode…
Spark分析之DAGScheduler
DAGScheduler概述:是一个面向Stage层面的调度器; 主要入参有: dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allow…
Spark中shuffle的触发和调度
Spark中的shuffle是在干嘛? Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。 但这只是…
SPark二次排序
package com.ali.scala.secondSortimport org.apache.spark.{SparkConf, SparkContext} /** * 二次排序的问题 * @param key* …
Kafka的ACK机制有三种,是哪三种
Kafka producer有三种ack机制 初始化producer时在config中进行配置 0 意味着producer不等待broker同步完成的确认,继续发送下一条(批)信息 提供…
解决多线程调用sql存储过程问题
场景: 我们程序现在改成多线程了,我现在需要把临时表中的数据给插入到TABLE_M中,但这时候可能其他的线程也在插入,我就不能用之前我们的方案了(select max(oid) from Tuning.TABLE_M。。…
Spark SQL -- Hive
使用Saprk SQL 操作Hive的数据 前提准备: 1、启动Hdfs,hive的数据存储在hdfs中; 2、启动hive -service metastore,元数据存储在远端,可以远程访问; 3、在s…
spark读取hbase数据
def main(args: Array[String]): Unit = { val hConf = HBaseConfiguration.create(); hConf.set("hbase.zookeeper.qu…