Kettle 7.1 链接Hadoop集群配置

背景

公司想把已有的老数据,放入数据仓库,进行数据分析,需要对数据进行抽取,转换处理,正好接触到了Kettle(ETL),正好记录一下Hadoop如何配置。

Kettle下载地址:

社区版下载地址
下拉到download,然后点击下载即可。

Kettle官网文档地址:

kettle 链接hadoop集群配置文档地址

每个版本有对应的Hadoop版本。
因为Hadoop集群同事已经搭建好了,这里我只直接创建链接配置,这里我采用的HDP 2.5的链接方式。

Step 1:

  • 拷贝Hadoop集群如下配置文件备用
    1. core-site.xml
    2. hdfs-site.xml
    3. mapred-site.xml
    4. yarn-site.xml
  • 把上列文件拷贝到plugin/pentaho-big-data-plugin/hadoop-configurations/hadoop/hdp25中。
    《Kettle 7.1 链接Hadoop集群配置》

Step 2:

  1. 启动Kettle
  2. 从菜单工具中选择Hadoop Distribution,这里我选择的hdp链接方式
    《Kettle 7.1 链接Hadoop集群配置》
  3. 点击OK
  4. 重启Kettle

Step 3

  1. 创建Hadoop cluster

    《Kettle 7.1 链接Hadoop集群配置》

  2. 写入相关配置,这里我使用的是HDFS,并且已经配置了相关hosts,所以直接填入了域名,如果没有配置hosts,需要采用ip方式

    《Kettle 7.1 链接Hadoop集群配置》

  3. 点击测试,查看是否连接成功,这里主要关注前三个选项。表示Hadoop连接成功。
    《Kettle 7.1 链接Hadoop集群配置》

遇到的坑:

  1. 在使用Hadoop output控件,向HDFS写入时,遇到无法写入错误。
Couldn't open file hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1.txt
Could not create file "hdfs://hdfs@hdp01.bsteelcloud.cc:8020/user/qqq/1_20171201.txt".

最后查明,是因为Kettle在写入时,对应的HDFS目录没有写入权限,需要开放整个目录权限。

    原文作者:罗启明
    原文地址: https://www.jianshu.com/p/01a77fb8cfaf
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞