设置Hadoop环境
在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。
复制core-site.xml文件
复制 Hadoop 环境下的的 core-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。
做完上面两步后,重新启动 Kettle。
测试Hadoop集群连接
- 添加一个Transformations。
- 在 View -> Transformations -> Hadoop clusters 添加一个新的 Hadoop 集群。配置大致如下:(修改后可以测试一下)
Cluster Name: myhdfs Storage: HDFS HDFS: (可以参考core-site.xml文件) Hostname: <ip> Port: 8020 Username: <user> Password: <password> JobTracker: Hostname: <ip> Port: 8032 Zookeeper: Hostname: <ip> Port: 2181
- 在工作区,拖拽一个 “Hadoop File Input” 和 “Hadoop File Output”,并建立关联。
- 修改“Hadoop File Input”
Environment: myhdfs File/Folder: /tmp/users.dat
- 修改“Hadoop File Output”
Hadoop cluster: myhdfs Folder/File: /tmp/users_new.dat
- 运行Transformations,然后检查结果。