分类：Spark

SQLContext、HiveContext自定义函数注册

本文简单介绍两种往SQLContext、HiveContext中注册自定义函数方法。下边以sqlContext为例，在spark-shell下操作示例： scala> sc res5: org.apache.sp…

抽象代数研究对象是代数结构(集合+一套运算规则)，以本人的理解方式整理了代数结构基础内容，旨在弄清群、环、域等代数结构间的关系。(之前很认真整理了这部分内容，后来装双系统把草稿给丢了，这会重新整理) PS：以下内容直接从…

下载全部视频和PPT，请关注公众号(bigdata_summit)，并点击“视频下载”菜单 Apache Spark-and-Tensorflow-as-a-Service by Jim Dowling, KTH—Roy…

spark面试问题小结此为spark系列第一篇文章, 后续还会依次更新 core/ sql /DStream/mllib等比较细节的东西 scala 语言有什么特点，相比java有什么优点? 函数式编程, 适合用来处理…

方案一（使用ForeachWriter Sink方式）： val query = wordCounts.writeStream.trigger(ProcessingTime(5.seconds)) .outputMode…

DAGScheduler概述：是一个面向Stage层面的调度器；主要入参有： dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allow…

Spark中的shuffle是在干嘛？ Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区，从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。但这只是…

package com.ali.scala.secondSortimport org.apache.spark.{SparkConf, SparkContext} /** * 二次排序的问题 * @param key* …

Kafka producer有三种ack机制初始化producer时在config中进行配置 0 意味着producer不等待broker同步完成的确认，继续发送下一条(批)信息提供…

场景：我们程序现在改成多线程了，我现在需要把临时表中的数据给插入到TABLE_M中，但这时候可能其他的线程也在插入，我就不能用之前我们的方案了（select max(oid) from Tuning.TABLE_M。。…

使用Saprk SQL 操作Hive的数据前提准备： 1、启动Hdfs，hive的数据存储在hdfs中; 2、启动hive -service metastore，元数据存储在远端，可以远程访问; 3、在s…

def main(args: Array[String]): Unit = { val hConf = HBaseConfiguration.create(); hConf.set("hbase.zookeeper.qu…