IDEA下写hive的udf(踩坑教程)

配置maven的过程网上有很多这里就不写了。
UDF
用户自定义函数(user defined function)–针对单条记录。
创建函数流程
1、自定义一个Java类
2、继承UDF类
3、重写evaluate方法 (必须重写这个方法)
4、打成jar包
6、在hive执行add jar方法
7、在hive执行创建模板函数
8、hql中使用

package UDFDemo;//注意如果这里有包的等会儿会用到
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

import java.math.BigInteger;

public class int2inetaddress extends UDF{
    //重写evaluate方法
  //这里要注意,如果数据库的类型是bigint等还是要用text类型
    public Text evaluate(Text input){
        BigInteger one =  new BigInteger(input.toString());
        long intinput = one.longValue();
        String ipStr =
                String.format("%d.%d.%d.%d",
                        (intinput & 0xff),
                        (intinput >> 8 & 0xff),
                        (intinput >> 16 & 0xff),
                        (intinput >> 24 & 0xff));
        return new Text(ipStr);
    }
}

配置MAVEN的可以参考以下,将以下内容的 <dependencies>和 <build>放入自己的maven文件当中


<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>cupid</groupId>
    <artifactId>int2inetaddressUDF</artifactId>
    <version>1.0-SNAPSHOT</version>

<!---->

    <properties>
        <project.build.sourceEncoding>UTF8</project.build.sourceEncoding>
        <!--Hadoop版本更改成自己的版本-->
        <hadoop.version>2.5.0-cdh5.2.0</hadoop.version>
        <hive.version>1.1.0-cdh5.8.0</hive.version>
    </properties>
<repositories>

    <!--加入Hadoop原生态的maven仓库的地址-->
    <repository>
        <id>Apache Hadoop</id>
        <name>Apache Hadoop</name>
        <url>https://repo1.maven.org/maven2/</url>
    </repository>
    <!--加入cdh的maven仓库的地址-->
    <repository>
        <id>cloudera</id>
        <name>cloudera</name>
        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
    </repository>
</repositories>

<dependencies>
<!--添加hadoop依赖-->
<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>${hadoop.version}</version>
</dependency>
<!--添加hive依赖-->
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>${hive.version}</version>
</dependency>
</dependencies>

<!--
下面是用于打包的插件,如果不用这个插件导出jar可能会出现问题
-->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>1.4</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>

                            <transformers>
                                <transformer
                                        implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                    <resource>META-INF/spring.handlers</resource>
                                </transformer>
                                <transformer
                                        implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    <mainClass>com.neu.hive.UDF.ToUpperCaseUDF</mainClass>
                                </transformer>
                                <transformer
                                        implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                    <resource>META-INF/spring.schemas</resource>
                                </transformer>
                            </transformers>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

使用maven打包,打包过程可以参考视频。

打包后的文件在你的项目的target当中,上传那个几kb的original-int2inetaddressUDF-1.0-SNAPSHOT.jar那个文件,上传到服务器上随便一个目录

然后进入hive

添加jar包

add jar 你的文件路径/original-int2inetaddressUDF-1.0-SNAPSHOT.jar;

可以用list jars;查看是否添加成功

create temporary function myudf as “UDFDemo.int2inetaddress”;

然后就可以用了

select myudf(XXX) from xxxx

可以参考这里的视频:
http://www.cnblogs.com/simuhunluo/p/7756250.html

    原文作者:wzhixin
    原文地址: https://www.jianshu.com/p/7860bfbcec39
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞