kettle配置hadoop,hbaseoutput

版本

pdi-ce-8.3.0.0-371

这个连接hadoop的时候, 9.x版本有问题

下载并解压到电脑

下载链接

配置hadoop集群

按照下图进行添加hadoop

点击测试hadoop集群

同步hadoop配置文件

hadoop /hadoop-3.2.0/etc/hadoop 目录下配置:yarn-site.xmlmapred-site.xmlhdfs-site.xmlcore-site.xml

hbase /hbase-2.4.9/conf 目录下:hbase-site.xml

全部覆盖到 \pdi-ce-8.3.0.0-371\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30

重启 kettle

测试是否能查看hdfs目录

拖拽一个 核心对象 > Big Data > Hadoop file output

mysql 数据抽取到 hbase output

新建mysql数据库

如果没有驱动去oracle下载mysql驱动,然后放到\pdi-ce-8.3.0.0-371\data-integration\lib,然后重启kettle

新增数据输入组件

数据库链接选择上一步中创建的数据库

可以点击预览查看数据

新增hbase output 组件

hadoop cluster 选择上面新建的hadoop

hbase-site.xml 选择上面的hbase配置文件

增加hbase mapping映射关系

hbase中的每个表都可以创建多个映射关系,一对多的,想要导入数据就必须先表创建映射关系

  1. 为表创建mapping
  2. hbase库中的表
  3. 新创建的mapping表名,这个可以输入,也可以获取表中已经存在的mapping 就是修改
  4. 保存/修改mapping
  5. 获取表输入的字段

Alias 表输入的字段

Key 是否是主键,如果是在hbase里面就是RowKey

Column family hbase 列族

Column name hbase 列名

Type 字段类型

配置hbase output 链接信息

Hbase table name hbase表名,如果前面没有为这个表配置mapping,这里不显示

mapping name hbase表的mapping

输出输入关系

按住shift 先点击输入组件再点击输出组件,如下图

开始执行


kettle配置hadoop,hbaseoutput
https://zhaops-hub.github.io/2021/11/30/hadoop/kettle配置hadoop,hbaseoutput/
作者
赵培胜
发布于
2021年11月30日
许可协议