配置maven的过程网上有很多这里就不写了。
UDF
用户自定义函数(user defined function)–针对单条记录。
创建函数流程
1、自定义一个Java类
2、继承UDF类
3、重写evaluate方法 (必须重写这个方法)
4、打成jar包
6、在hive执行add jar方法
7、在hive执行创建模板函数
8、hql中使用
package UDFDemo;//注意如果这里有包的等会儿会用到
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
import java.math.BigInteger;
public class int2inetaddress extends UDF{
//重写evaluate方法
//这里要注意,如果数据库的类型是bigint等还是要用text类型
public Text evaluate(Text input){
BigInteger one = new BigInteger(input.toString());
long intinput = one.longValue();
String ipStr =
String.format("%d.%d.%d.%d",
(intinput & 0xff),
(intinput >> 8 & 0xff),
(intinput >> 16 & 0xff),
(intinput >> 24 & 0xff));
return new Text(ipStr);
}
}
配置MAVEN的可以参考以下,将以下内容的 <dependencies>和 <build>放入自己的maven文件当中
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>cupid</groupId>
<artifactId>int2inetaddressUDF</artifactId>
<version>1.0-SNAPSHOT</version>
<!---->
<properties>
<project.build.sourceEncoding>UTF8</project.build.sourceEncoding>
<!--Hadoop版本更改成自己的版本-->
<hadoop.version>2.5.0-cdh5.2.0</hadoop.version>
<hive.version>1.1.0-cdh5.8.0</hive.version>
</properties>
<repositories>
<!--加入Hadoop原生态的maven仓库的地址-->
<repository>
<id>Apache Hadoop</id>
<name>Apache Hadoop</name>
<url>https://repo1.maven.org/maven2/</url>
</repository>
<!--加入cdh的maven仓库的地址-->
<repository>
<id>cloudera</id>
<name>cloudera</name>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
<dependencies>
<!--添加hadoop依赖-->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!--添加hive依赖-->
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>${hive.version}</version>
</dependency>
</dependencies>
<!--
下面是用于打包的插件,如果不用这个插件导出jar可能会出现问题
-->
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>1.4</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
<transformers>
<transformer
implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
<resource>META-INF/spring.handlers</resource>
</transformer>
<transformer
implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
<mainClass>com.neu.hive.UDF.ToUpperCaseUDF</mainClass>
</transformer>
<transformer
implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
<resource>META-INF/spring.schemas</resource>
</transformer>
</transformers>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
使用maven打包,打包过程可以参考视频。
打包后的文件在你的项目的target当中,上传那个几kb的original-int2inetaddressUDF-1.0-SNAPSHOT.jar那个文件,上传到服务器上随便一个目录
然后进入hive
添加jar包
add jar 你的文件路径/original-int2inetaddressUDF-1.0-SNAPSHOT.jar;
可以用list jars;查看是否添加成功
create temporary function myudf as “UDFDemo.int2inetaddress”;
然后就可以用了
select myudf(XXX) from xxxx