Spark 中的 –files 参数与 ConfigFactory 工厂方法 scala 对象 以前有个大数据项目做小程序统计,读取 HDFS 上的 Parquet 文件,统计完毕后,将结果写入到 MySQL…
标签:val
Spark中存在的各种2G限制
motivation 动机 The various 2G limit in Spark. Spark中存在的各种2G限制问题. When reading the data block is stored in the h…
Spark Sql Row 的解析
在Spark SQL 编程时,经常需要对获取的DataFrame 对象进行map 操作。map 基于的元素是Row. 那么如何操作Row呢? 1. 使用Row 提供的 get方法,获取需要的列 2. 使用类型匹配,显示的…
Spark处理HDFS数据,并将结果存储在Hive中
接昨天未完待续,继续: 首先,我要完成功能是:将下面的电影的links数据,在Spark上处理,处理结果存入到Hive中 image.png 这个是最后成功的图 image 功能流程如下图: image.png 涉及的代…
spark-streaming中使用spark-sql做关联查询
实现: 首先基于topic,创建出kafka的DStream流 val sparkConf = new SparkConf().setAppName(appParams.appName) val sc = new Spa…
【Spark】Job触发流程原理
1.通过例子分析下: val lines = sc.textFile() 首先,hadoopFile()方法的调用,会创建一个HadoopRDD,其中的…
Spark在local模式下运行日志分析
本例以卡特门罗求Pi的计算模型的日志做分析。运行在local模式中,具体代码如下 val conf = new SparkConf().setAppName(“Spark Pi”).setMast…
配置一台Hive + Mysql元数据库
1 目标与过程 2 在linux上卸载Mysql 3 在linux上安装Mysql 4 配置mysql作为Hive的元数据库 5 Spark处理HDFS数据,并将结果存储在Hive中 1 目标与过程 今天遇到个问题,下面…
hive 查询性能优化总结
一、join优化 ** Join查找操作的基本原则:** 应该将条目少的表/子查询放在 Join 操作符的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目…
Hive数据操作
Hive数据操作 Hive执行命令方式 cli,jdbc,hwi,beeline cli shell hive -help hive –help list,source 注:命令脚本必须在集群的节点或hive…
Hive Join详解
Join原理 Hive执行引擎会将HQL“翻译”成为MapReduce任务,如果多张表使用同一列做Join,将被“翻译”成一个MapReduce任务,否则会被“翻译”成多个MapReduce任务 例如:以下将被“翻译”成…
Spark读取hive数据文件
spark 操作 hive[删除分区表] 1: 使用HiveServer 的方式 val tablename=”hive_tablename” def dropPartitions(tablena…