标签：org

Hive安装使用

文档及下周网址官网 http://hive.apache.org 文档 https://cwiki.apache.org/confluence/display/Hive/GettingStarted https://c…

读取mysql数据作为DataFrame import java.text.SimpleDateFormat import java.util.{Calendar, Date} import com.iptv.domai…

Spark广播变量什么是广播变量？在同一个Execute共享同一份计算逻辑的变量广播变量使用场景我现在要在在这些内容中过滤java和object-c 过滤内容使用广播变量过滤代码逻辑： package com.…

CombineByKey 基于键聚合这是最基本的聚合操作, 很多封装的函数都是基于它, 但能用更方便的函数就不要使用它. package cn.zb; import lombok.extern.slf4j.Slf4j;…

1.新建一个maven项目 2.填写GroupId和ArtifactId,然后点击Next 3.开启Auto-Import 4.编辑pom.xml <?xml version="1.0" encoding="UTF…

spark整合elasticsearch两种方式 1.自己生成_id等元数据 2.使用ES默认生成引入对应依赖 <dependency> <groupId>org.elasticsearch&l…

Spark-Exceptions java.lang.NoClassDefFoundError: org/apache/spark/Logging spark_jar org.apache.spark.scheduler…

对大量的数据进行一系列的数据处理后DataFrame此时有2W个分区（170W条数据，因此每个分区数量只有几百条），此时使用parquet命令，将会往一个hdfs文件中同时写入了大量的碎文件。提示(省略无用信息): W…

hive API2 hive udf 读取HDFS的orc文件 package hive_udf_province; import org.apache.hadoop.conf.Configuration; import…

最近在执行Hive insert/select语句的过程碰到下面这种类型的异常： # 异常1： Caused by: java.lang.ClassCastException: org.apache.hadoop.io.…

创建maven项目 file>new>project 2.添加依赖的jar包，第一次添加可能有点慢 <?xml version="1.0" encoding="UTF-8"?> <proje…

下载一个Eclipse基础版打开：https://www.eclipse.org/downloads/ 找到：Eclipse IDE for Java EE Developers,然后选择对应操作系统的版本即可。下面…