kettle配置hadoop,hbaseoutput
版本
pdi-ce-8.3.0.0-371
这个连接hadoop的时候, 9.x版本有问题
下载并解压到电脑
配置hadoop集群
按照下图进行添加hadoop
点击测试hadoop集群
同步hadoop配置文件
hadoop
/hadoop-3.2.0/etc/hadoop
目录下配置:yarn-site.xml
,mapred-site.xml
,hdfs-site.xml
,core-site.xml
hbase
/hbase-2.4.9/conf
目录下:hbase-site.xml
全部覆盖到 \pdi-ce-8.3.0.0-371\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30
重启 kettle
测试是否能查看hdfs目录
拖拽一个 核心对象
> Big Data
> Hadoop file output
mysql 数据抽取到 hbase output
新建mysql数据库
如果没有驱动去oracle下载mysql驱动,然后放到\pdi-ce-8.3.0.0-371\data-integration\lib
,然后重启kettle
新增数据输入组件
数据库链接选择上一步中创建的数据库
可以点击预览查看数据
新增hbase output 组件
hadoop cluster
选择上面新建的hadoop
hbase-site.xml
选择上面的hbase
配置文件
增加hbase mapping映射关系
hbase中的每个表都可以创建多个映射关系,一对多的,想要导入数据就必须先表创建映射关系
- 为表创建mapping
- hbase库中的表
- 新创建的mapping表名,这个可以输入,也可以获取表中已经存在的mapping 就是修改
- 保存/修改mapping
- 获取表输入的字段
Alias
表输入的字段
Key
是否是主键,如果是在hbase
里面就是RowKey
Column family
hbase 列族
Column name
hbase 列名
Type
字段类型
配置hbase output 链接信息
Hbase table name
hbase表名,如果前面没有为这个表配置mapping,这里不显示
mapping name
hbase表的mapping
输出输入关系
按住shift 先点击输入组件再点击输出组件,如下图
开始执行
kettle配置hadoop,hbaseoutput
https://zhaops-hub.github.io/2021/11/30/hadoop/kettle配置hadoop,hbaseoutput/