一、join优化 ** Join查找操作的基本原则:** 应该将条目少的表/子查询放在 Join 操作符的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目…
标签:val
Spark 编程基础
RDD编程 RDD创建: 第一种:读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统 从文件系统中加载数据创建RDD 从本地加载: scala> val lines = sc.textFile(…
Spark-SQL之DataFrame基本操作
这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的,代码如下: val spark = SparkSession…
spark streamingcontext 一些注意点
有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new Stre…
Spark读取hive数据文件
spark 操作 hive[删除分区表] 1: 使用HiveServer 的方式 val tablename=”hive_tablename” def dropPartitions(tablena…
Spark 中的 --files 参数与 ConfigFactory 工厂方法
Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象 以前有个大数据项目做小程序统计,读取 HDFS 上的 Parquet 文件,统计完毕后,将结果写入到 MySQL…
Spark中存在的各种2G限制
motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…
elasticsearch-spark更新文档
先看源码: import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._ /** * Created by magn…
Spark在local模式下运行日志分析
本例以卡特门罗求Pi的计算模型的日志做分析。运行在local模式中,具体代码如下 val conf = new SparkConf().setAppName(“Spark Pi”).setMast…
ManagedSQLiteOpenHelper
kotlin 数据库 anko cursor 建表 package com.example.lostfond2.search object HistoryRecordContract { const val TABLE_…
Spark RDD的处理过程
闲来无事,研究一下Spark Rdd的处理过程。 以一个简单的例子看看: val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…
spark-streaming中使用spark-sql做关联查询
实现: 首先基于topic,创建出kafka的DStream流 val sparkConf = new SparkConf().setAppName(appParams.appName) val sc = new Spa…