文档及下周网址 官网 http://hive.apache.org 文档 https://cwiki.apache.org/confluence/display/Hive/GettingStarted https://c…
标签:org
Spark:读取mysql数据作为DataFrame
读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…
Spark的广播变量机制
Spark广播变量 什么是广播变量? 在同一个Execute共享同一份计算逻辑的变量 广播变量使用场景 我现在要在在这些内容中过滤java和object-c 过滤内容 使用广播变量过滤代码逻辑: package com.…
spark PairRDD 键值对操作
CombineByKey 基于键聚合 这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…
第一个spark程序:用maven实现WordCount
1.新建一个maven项目 2.填写GroupId和ArtifactId,然后点击Next 3.开启Auto-Import 4.编辑pom.xml <?xml version="1.0" encoding="UTF…
Spark整合ElasticSearch
spark整合elasticsearch两种方式 1.自己生成_id等元数据 2.使用ES默认生成 引入对应依赖 <dependency> <groupId>org.elasticsearch&l…
Spark Exceptions
Spark-Exceptions java.lang.NoClassDefFoundError: org/apache/spark/Logging spark_jar org.apache.spark.scheduler…
Spark将大量分区写入HDFS报错
对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区(170W条数据,因此每个分区数量只有几百条),此时使用parquet命令,将会往一个hdfs文件中同时写入了大量的碎文件。 提示(省略无用信息): W…
java读取hive的orc文件
hive API2 hive udf 读取HDFS的orc文件 package hive_udf_province; import org.apache.hadoop.conf.Configuration; import…
Hive Format异常分析
最近在执行Hive insert/select语句的过程碰到下面这种类型的异常: # 异常1: Caused by: java.lang.ClassCastException: org.apache.hadoop.io.…
idea用maven开发hive的udf详细过程
创建maven项目 file>new>project 2.添加依赖的jar包,第一次添加可能有点慢 <?xml version="1.0" encoding="UTF-8"?> <proje…
使用Eclipse开发php
下载一个Eclipse基础版 打开:https://www.eclipse.org/downloads/ 找到:Eclipse IDE for Java EE Developers,然后选择对应操作系统的版本即可。 下面…