普元数据开发平台 普元数据开发平台
产品文档
Part I - 概念篇
Part II - 安装篇
Part III - 使用篇
Part IV - FAQ
  • 数据开发
  • 1. 创建项目及配置
  • 2. 数据开发及调试
  • 开发批处理作业
  • 开发流作业(实时作业)
  • 提交运行

# 数据开发

# 1. 创建项目及配置

  1. 点击上方菜单栏“数据开发”,在【数据开发】页面,点击创建项目。

  2. 在创建项目页面,输入必填项,数据层选择ODS、DWD层。

    本示例中创建的数据源分别属于ODS、DWD层,故该项目至少选择这两层

  3. 项目创建成功后,默认没有调度引擎及数据源,需要在【项目配置】中配置相关信息,点击项目配置操作。

  4. 在项目配置中包含:项目信息、项目成员管理、调度引擎配置、数据源配置、文件管理。

    • 项目成员管理,添加项目成员

    • 调度引擎管理,添加调度引擎

    • 数据源管理,添加数据源

  5. 重复上述步骤,创建生产项目。

    生产项目不需要配置数据源

# 2. 数据开发及调试

在【数据开发】页面中,点击开发项目的【项目开发】操作,选择ODS层,页面跳转到该项目ODS层的IDE开发页面。

  • # 开发批处理作业

    以下示例创建模型为 原表同步到目标表。目标表已创建,但无数据。

    1. 在IDE中依次点击【数据集成】->【批量】,点击【批量】右侧的...,选择【新建批量作业】。

    2. 在弹出的【新建批量作业】页面,输入作业名称、选择作业类型为离线转换,点击确定按钮。

    3. 页面显示离线转换作业的初始化界面如下图。作业为转换作业的算子,右上侧有【通用配置】、【版本】、【草稿】,右上方有【运行】、【停止】、【保存】、【提交】操作按钮。

    4. 在左侧算子中拖拽【关系型数据库输入】、【关系型数据库输出】算子

    5. 在已拖拽到画布中的【关系型数据库输入】中移动鼠标至图中位置,拖拽连线指向【关系型数据库输出】。

    6. 连线完成后的模型如图

    7. 编辑【关系型数据库输入】算子,选择数据源及获取SQL查询语句。

    8. 编辑sql语句,增加查询条件,条件使用变量传值;并勾选【替换SQL语句变量】。

    9. 编辑【关系型数据库输出】算子,选择数据源、库及表,并勾选【truncate表】、【指定数据库字段】。

    10. 点击【获取字段】

    11. 点击【列映射】

      同名字段可以自动映射,不同名字段可手动选择,点击添加到映射结果中。

    12. 点击【确定】按钮,保存模型

    13. 点击右侧【通用配置】,在命名参数中增加参数 date1,并点击确定保存。

    14. 点击右上方的【运行】按钮,在弹出的运行窗口中输入参数值,如2019-01-01。

    15. 点击确定按钮,批量作业可运行依次,调试查看是否运行成功。

      当作业运行状态如下图,则代表作业成功运行结束。

      查看目标库中数据成功入库。

  • # 开发流作业(实时作业)

    1. 在IDE中依次点击【数据集成】->【实时】,点击【实时】右侧的...,选择【新建实时作业】。

      ​

    2. 在弹出的【新建实时作业】页面,输入作业名称、选择作业类型为离线转换,点击确定按钮。

      ​

    3. 页面显示实时作业的初始化界面如下图。作业为实时作业的算子,右上侧有【通用配置】、【版本】、【草稿】,右上方有【运行】、【停止】、【保存】、【提交】操作按钮。

    4. 在左侧算子中拖拽【数据源-kafka】、【目标-关系型数据库】算子,并编辑算子信息如图。

      image-20231113161841954

    5. 保存模型,点击运行,查看运行结果

6. 当kafka中有数据时,流处理作业会将数据写入目标关系型数据库中。

image-20231113162426181

  • # 提交运行

  1. 分别将上述批处理作业和流处理作业提交

  2. 在【作业流】节点点击...,点击【新建作业流】,输入作业流名称并保存。

  3. 在作业流画布中,依次拖拽【转换】【实时作业】算子,并选择之前提交的批处理作业和流处理作业。

  4. 编辑作业流的【通用配置】,输入全局参数date1,点击【确定】按钮保存通用配置。

    该全局参数是批处理作业中的命名参数的传参

  5. 提交作业流

  6. 返回【数据开发】,选择对应的项目,点击”作业调度“操作,跳转到该项目使用的引擎已提交的作业流页面。

    image-20231113170659326

  7. 点击上线操作,作业流状态变更为“上线”

  8. 点击运行按钮,可运行该作业流。

  9. 点击定时可配置定时运行策略,启用后生效。

← 数据准备 投产及运维 →