1.kettle 基础操作-安装
2.Kettle介绍
3.Pentaho Data Integration[kettle]笔记(1)-mysql/sqlite间数据迁移
4.07 Pentaho Data Integration(原Kettle)安装及上手体验
kettle 基础操作-安装
Kettle是一款开源ETL工具,全名是Pentaho Data Integration (PDI),由Matt Cutts开发。ETL过程包括数据抽取、转换和加载。Kettle主要由三大组件构成:Spoon作为图形界面转换/工作设计工具,扶风解析源码Kitchen为命令行工作执行器,Span为命令行转换执行器。它是一款国外开源的ETL工具,使用纯Java编写,无需安装即可运行,数据抽取效率高且稳定。
Kettle支持两种脚本文件:transformation和job。transformation用于基础数据转换,job用于控制整个工作流程。
最新版本为3.6,wpdx类似源码但建议安装3.2版本,下载链接为sourceforge.net/project...
下载后解压,将文件存放至D:\data-integration文件夹下,这时在该目录下能找到启动文件Kettle.exe或Spoon.bat。
点击启动文件,界面会逐步加载并最终显示Kettle主界面。
为了创建后台管理系统,首先点击新建,选择KETTLE后台管理数据库类型,并配置JDBC连接。设置完成后,点击创建或更新,数据库中将创建KETTLE后台管理数据表。设置名称并确认。
回到登陆界面,养成 社区 源码选择新建的资源库,输入默认账号密码(账号:admin,密码:admin),登录后即可进入Kettle的开发界面。
Kettle介绍
Kettle是一款备受青睐的开源ETL工具,完全由Java编写,适用于Windows、Linux和Unix等操作系统,它以其绿色、无需安装的特性而广受欢迎。这个工具被形象地称为“水壶”,其命名源于主程序员MATT的理念,他希望将各种数据整合到一个“壶”中,然后按照预设的格式进行输出。
作为Pentaho项目的cloudera源码分析核心组件,Kettle的功能强大,它专注于数据的管理和处理。通过图形化的用户界面,用户可以轻松描述他们想要完成的数据操作,而非深入到复杂的代码编写中。这种直观的界面设计使得数据抽取和转换过程既高效又稳定。
在Kettle中,有两种主要的脚本文件:transformation和job。transformation负责基础的数据转换操作,如清洗、整合等,而job则负责协调和管理整个工作流程,确保数据处理的顺畅进行。
近年来,随着国内项目对数据处理需求的netcore源码下载增长,Kettle在国内的应用场景逐渐增多,成为了数据集成和处理的重要工具。它的易用性和灵活性,使其在企业级数据处理中占据了一席之地。
Pentaho Data Integration[kettle]笔记(1)-mysql/sqlite间数据迁移
为了将sqlite3数据库中表SYL_COURSE_LIST的特定字段数据迁移至MySQL数据库表DST_COURSE_LIST,本文将详细指导操作步骤。首先,需明确两个数据库表的结构:
SYL_COURSE_LIST表结构如下:
CREATE TABLE SYL_COURSE_LIST(
COURSE_NAME CHAR() NOT NULL,
COURSE_DESC CHAR() NOT NULL,
COURSE_USERS CHAR() NOT NULL,
COURSE_URL CHAR() PRIMARY KEY,
COURSE_IMG CHAR() NOT NULL,
COURSE_TYPE CHAR() NOT NULL,
INDATE TIMESTAMP DEFAULT (datetime('now','localtime'))
);
DST_COURSE_LIST表结构如下:
CREATE TABLE `DST_COURSE_LIST` (
`COURSE_NAME` varchar() NOT NULL,
`COURSE_DESC` varchar() NOT NULL,
`COURSE_USERS` varchar() NOT NULL,
`id` int() NOT NULL AUTO_INCREMENT,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT= DEFAULT CHARSET=utf8;
接下来,通过Pentaho Data Integration (Kettle) 实现数据迁移操作,具体步骤如下:
1. 打开Spoon,拖入表输入和表输出步骤至工作区。
2. 配置表输入步骤,选择sqlite3数据库连接信息,确保正确填写URL、驱动类等参数。
3. 配置SQL语句,获取SYL_COURSE_LIST表中指定字段的数据。
4. 配置表输出步骤,连接MySQL数据库,正确输入数据库连接参数。
5. 在表输出步骤中,勾选“指定数据库字段”,并设置流字段与目标字段的映射关系。
6. 为了避免中文乱码,添加编码设置参数,确保数据正确解析。
7. 运行步骤,验证迁移结果。
在实施过程中,可能会遇到数据库连接错误,这是由于MySQL驱动未正确安装或配置。确保下载并安装MySQL JDBC驱动(可以从 dev.mysql.com/downloads... 获取),将文件复制至Kettle的lib目录下,重启Spoon并重新配置数据库连接。
最终,目标表DST_COURSE_LIST应包含迁移后的数据,确保迁移过程顺利进行。
欲了解更多原创内容,欢迎访问金笔头博客。
Pentaho Data Integration(原Kettle)安装及上手体验
Pentaho Data Integration (PDI) 是一个全面的ETL工具,提供数据仓库管理、数据集成、数据分析、管理软件和数据挖掘功能。无需编程,用户可以通过图形界面操作数据,定位类似 PowerBI。
下载 Pentaho Data Integration 需注意,官方链接提供的是数据库相关功能,而非完整ETL工具。若需完整ETL功能,应从 sourceforge 下载最新社区版。
目前提供的下载链接下载版本可能存在大小差异,9.3版本的压缩包名称相同,但大小不同,一个MB,另一个1GB。
这类工具多为商业软件,购买后通常会提供技术支持和官方教程。官方教程相对随意,可能未注重社区培养。
在安装两天后的体验中,PDI 上手简单,基础用户可以快速掌握。然而,对于复杂操作,可能需要掌握SQL或其他编程语言。
使用过程中,可能出现简单错误,缺乏基本提示。例如,将CSV文件转换为XLS,保存并运行流程后,如果修改了CSV中的数据,再次运行流程时,可能会生成空文件。推测,转换流程文件(后缀为ktr)在设置好后不会改变,输入输出的变化不会影响ktr文件。
总体而言,社区版PDI可以满足基本需求,虽然存在一些未知错误。若需要商业版功能但不希望支付额外技术支持费用,可考虑购买。