标签：val

hive 查询性能优化总结

一、join优化 ** Join查找操作的基本原则：** 应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目…

RDD编程 RDD创建：第一种：读取一个外部数据集。比如，从本地文件加载数据集，或者从HDFS文件系统从文件系统中加载数据创建RDD 从本地加载： scala> val lines = sc.textFile(…

这篇文章将带大家一起学习Spark中DataFrame的基本操作。 1、创建DataFrame 本文所使用的DataFrame是通过读取mysql数据库获得的，代码如下: val spark = SparkSession…

有两种创建StreamingContext的方式： val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new Stre…

spark 操作 hive[删除分区表] 1：使用HiveServer 的方式 val tablename=”hive_tablename” def dropPartitions(tablena…

Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象以前有个大数据项目做小程序统计，读取 HDFS 上的 Parquet 文件，统计完毕后，将结果写入到 MySQL…

motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…

先看源码： import org.apache.spark.{SparkConf, SparkContext} import org.elasticsearch.spark._ /** * Created by magn…

本例以卡特门罗求Pi的计算模型的日志做分析。运行在local模式中，具体代码如下 val conf = new SparkConf().setAppName(“Spark Pi”).setMast…

kotlin 数据库 anko cursor 建表 package com.example.lostfond2.search object HistoryRecordContract { const val TABLE_…

闲来无事，研究一下Spark Rdd的处理过程。以一个简单的例子看看： val textRDD = sc.textFile("/home/ubuntu/people.txt") val filterRDD = text…

实现：首先基于topic，创建出kafka的DStream流 val sparkConf = new SparkConf().setAppName(appParams.appName) val sc = new Spa…