主数据管理平台 主数据管理平台
产品介绍
产品安装指南
快速入门手册
用户操作手册
接口文档
开发文档
运维指南
  • 主数据数据采集问题排查指南
  • 排查指南详细说明
  • 场景一:调度引擎异常
  • 场景二:作业流管理异常
  • 场景三:作业流执行/实例异常
  • 场景四:作业流告警异常

# 主数据数据采集问题排查指南

# 排查指南详细说明

通用前置检查:

  • 确认版本:明确是MDM 7.3.0版本。
  • 检查依赖服务状态:
    • 调度引擎:数据采集作业流依赖调度引擎,确认引擎服务正常运行。
    • DWS服务:作业流管理功能依赖DWS(数据采集平台),确认DWS服务正常。
  • 检查数据源配置:确认作业流中配置的数据源是否可用。
  • 查看执行日志:通过作业流实例的“执行日志”查看详细错误信息。
  • 查阅补丁列表:优先检索官方已发布的补丁。您可以通过以下链接访问官方补丁列表:
    • MDM 7.3 补丁列表: 主数据7.3补丁列表 (opens new window)
    • DWS 7.1.0 补丁列表: DWS7.1补丁列表 (opens new window)

# 场景一:调度引擎异常

说明:调度引擎是数据采集作业流的基础,需先确保调度引擎正常才能使用作业流功能。调度引擎在“公共资源”模块中配置。

  • 问题现象:

    1. 新建调度引擎时,数据库连通性测试失败。
    2. 调度引擎创建后,执行资源状态显示异常。
    3. 作业流执行时提示“找不到调度引擎”或“引擎不可用”。
    4. 调度引擎数据库连接信息修改后不生效。
  • 排查步骤:

    1. 第一步:排除产品BUG。

      • 操作:在MDM/DWS官方补丁列表中,搜索关键词 调度引擎、引擎。
      • 相关补丁:
        • DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错问题)
        • DWS7.1.0_SERVER_20250807_P1(DWS服务端补丁)
      • 解决方案:若找到描述匹配的补丁,则申请并应用。
    2. 第二步:根据问题现象排查。

      • 现象:数据库连通性测试失败

        • 排查项:检查数据库连接信息(IP、端口、数据库名、用户名、密码)是否正确。
        • 排查项:确认数据库服务是否正常运行,网络是否互通。
        • 排查项:确认数据库驱动是否支持当前数据库版本。
        • 解决方案:
          • 修正数据库连接信息后重试。
          • 检查防火墙设置,确保端口开放。
      • 现象:执行资源状态异常

        • 排查项:检查调度引擎所在服务器资源(CPU、内存)是否充足。
        • 排查项:查看调度引擎日志,获取详细错误信息。
        • 解决方案:
          • 重启调度引擎服务。
          • 如资源不足,扩容服务器资源配置。
      • 现象:修改数据库连接信息后不生效

        • 排查项:修改信息后是否重启了调度引擎。
        • 解决方案:
          • 修改后需重启调度引擎服务使配置生效。
          • 同时需执行相关SQL更新应用中的调度引擎信息:
            -- 更新afcenter数据库,为项目管理员角色授权
            UPDATE AFC_R_PARTY_ROLE SET ROLE_ID = (SELECT ID FROM AFC_ROLE WHERE CODE = 'dws-role-project-manager') WHERE ID = 'mdm-03';
            
            -- 更新mdm数据库,将项目与调度引擎关联
            UPDATE DWS_PRJ_PROJECT SET SCHEDULE_CODE = '新建调度引擎时的引擎编码' WHERE ID = '4';
            

# 场景二:作业流管理异常

说明:此类问题发生在创建、配置数据采集作业流时,包括作业流无法创建、保存、上线等。

  • 问题现象:

    1. 新增作业流时保存失败。
    2. 作业流上线/下线失败。
    3. 作业流定时配置无法保存或Cron表达式解析错误。
    4. 字段映射配置后不生效。
    5. 数据源选择后,无法获取表或字段信息。
    6. 作业流模板选择后,相关配置项显示不全。
  • 排查步骤:

    1. 第一步:排除产品BUG。

      • 操作:在MDM/DWS官方补丁列表中,搜索关键词 作业流、定时、字段映射。
      • 相关补丁:
        • MDM_7.3_SERVER_20260128_P1(修复增量切换全量定时配置未删除、作业流实例问题数据查询问题)
        • MDM_7.3_UI_20260123_P1(修复作业流的定时配置无法直接粘贴cron表达式)
        • MDM_7.3_UI_20251121_P1(修复作业流详情页面SQL Server数据库选择库表后取消报错)
        • MDM_7.3_SERVER_20251114_P1(修复多数据库兼容性问题:MySQL5/SqlServer/OpenGauss/PostgreSql/DM执行报错)
        • DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错)
      • 解决方案:若找到描述匹配的补丁,则申请并应用。
    2. 第二步:根据问题现象排查。

      • 现象:作业流保存失败

        • 排查项:检查作业流名称、数据模型、作业流模板等必填项是否已填写。
        • 排查项:确认选择的调度引擎是否正常。
        • 排查项:浏览器控制台是否有JS报错。
        • 解决方案:
          • 补充完整必填项信息。
          • 确保调度引擎状态正常。
          • 清理浏览器缓存后重试。
      • 现象:作业流上线/下线失败

        • 排查项:确认作业流配置是否完整。
        • 排查项:检查调度引擎状态是否正常。
        • 解决方案:
          • 完成作业流所有必填配置。
          • 确保调度引擎正常运行。
      • 现象:定时配置异常

        • 排查项:只有“主数据增量同步(时间戳)”模板支持定时配置。
        • 排查项:Cron表达式格式是否正确。
        • 解决方案:
          • 确认作业流模板类型为增量同步。
          • 使用正确的Cron表达式,或通过界面选择时间。
          • 申请补丁 MDM_7.3_UI_20260123_P1 解决Cron表达式粘贴问题。
      • 现象:无法获取表或字段信息

        • 排查项:检查数据源配置是否正确,是否有访问该表的权限。
        • 排查项:对于SQL Server数据库,注意schema配置。
        • 排查项:确认数据源中是否存在该表。
        • 解决方案:
          • 在“公共资源”中测试数据源连接,确保可用。
          • 申请补丁 MDM_7.3_UI_20251121_P1 解决SQL Server相关问题。
      • 现象:字段映射不生效

        • 排查项:检查源表和目标表的字段是否已正确对应。
        • 排查项:确认字段类型是否兼容。
        • 解决方案:
          • 重新建立字段映射关系。
          • 对于类型不兼容的字段,考虑在同步前进行转换。

# 场景三:作业流执行/实例异常

说明:此类问题发生在作业流执行过程中,包括执行失败、实例状态异常、问题数据处理等。

  • 问题现象:

    1. 作业流执行失败,无数据同步。
    2. 作业流实例状态一直为“运行中”不结束。
    3. 作业流实例重跑、恢复失败、暂停、停止等操作失败。
    4. 同步的数据不完整或数据错误。
    5. 问题数据页面无法查看或查询。
    6. 全量覆盖模式下,旧数据未被正确覆盖。
  • 排查步骤:

    1. 第一步:排除产品BUG。

      • 操作:在MDM/DWS官方补丁列表中,搜索关键词 执行、实例、重跑、问题数据。
      • 相关补丁:
        • MDM_7.3_SERVER_20251114_P1(修复MySQL5/SqlServer/OpenGauss/PostgreSql/DM等数据库执行报错)
        • MDM_7.3_UI_20260209_P1(修复业务门户问题数据根据作业流名称查询未生效)
        • MDM_7.3_SERVER_20260128_P1(修复作业流实例问题数据查询未根据指定实例id查询)
        • DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错)
        • DWS7.1.0_SERVER_20250807_P1(DWS服务端补丁)
      • 解决方案:若找到描述匹配的补丁,则申请并应用。
    2. 第二步:根据问题现象排查。

      • 现象:作业流执行失败

        • 排查项:查看作业流实例的“执行日志”,获取具体错误信息。
        • 排查项:检查源表和目标表是否存在,字段映射是否正确。
        • 排查项:确认数据库用户是否有读写权限。
        • 排查项:检查“分割数据行数”设置是否过大,导致单次请求超时。
        • 解决方案:
          • 根据日志错误信息调整配置。
          • 修正字段映射关系。
          • 调整分割数据行数为较小值(如1000)。
          • 申请补丁解决数据库兼容性问题。
      • 现象:实例状态一直为“运行中”

        • 排查项:检查调度引擎服务是否正常。
        • 排查项:查看是否有死锁或长时间运行的SQL。
        • 排查项:检查数据库连接池是否已满。
        • 解决方案:
          • 重启调度引擎服务。
          • 在数据库中手动终止长时间运行的会话。
          • 申请补丁 MDM_7.3_SERVER_20260202_P1(JPA事务优化及数据库连接池断开问题)。
      • 现象:实例操作失败(重跑/恢复/暂停/停止)

        • 排查项:确认当前实例状态是否支持该操作。
          • 重跑:只有已终止的实例支持重跑。
          • 恢复失败:只有失败的实例支持恢复失败。
          • 暂停/停止:只有运行中的实例支持暂停/停止。
        • 解决方案:根据实例状态执行允许的操作。
      • 现象:同步数据不完整或错误

        • 排查项:检查作业流配置中的“数据添加方式”:
          • 全量覆盖:会覆盖该作业流之前同步的所有数据。
          • 追加数据:不会覆盖历史数据,追加同步新数据。
        • 排查项:对于增量同步,检查“时间字段”和“目标表时间字段”配置是否正确。
        • 排查项:查看问题数据列表,确认是否有数据被标记为问题数据。
        • 解决方案:
          • 根据业务需求选择正确的数据添加方式。
          • 修正时间字段配置,确保增量条件正确。
          • 处理问题数据后重新执行。
      • 现象:问题数据查询异常

        • 排查项:在作业流实例列表,点击“问题数据”查看。
        • 排查项:确认查询条件是否正确。
        • 解决方案:
          • 申请补丁 MDM_7.3_UI_20260209_P1 和 MDM_7.3_SERVER_20260128_P1。
          • 如问题持续,通过AME+发起工单。

# 场景四:作业流告警异常

说明:此类问题发生在配置作业流告警策略、告警组,以及接收告警通知时。告警功能用于在作业流执行成功或失败时发送通知。

  • 问题现象:

    1. 新增告警策略时保存失败。
    2. 配置的告警策略未触发通知。
    3. 邮件、HTTP、Script、WeChat等告警方式不生效。
    4. 告警记录页面无数据或显示不全。
    5. 告警组关联策略后不生效。
  • 排查步骤:

    1. 第一步:排除产品BUG。

      • 操作:在MDM官方补丁列表中,搜索关键词 告警、策略、通知。
      • 相关补丁:
        • MDM_7.3_UI_20260115_P1(修复告警策略配置无法弹窗新增、修改按钮)
        • MDM_7.3_UI_20251119_P1(修复编辑告警配置选择插件保存无效问题)
      • 解决方案:若找到描述匹配的补丁,则申请并应用。
    2. 第二步:根据问题现象排查。

      • 现象:告警策略保存失败

        • 排查项:检查告警策略名称、选择插件、通知条件等必填项是否已填写。
        • 排查项:根据所选插件类型,检查对应配置项是否完整。
        • 解决方案:
          • 补充完整必填项信息。
          • Email插件配置检查:
            • SMTP服务器地址和端口是否正确
            • 邮箱用户名和密码(或授权码)是否正确
            • 收件人地址格式是否正确
          • Http插件配置检查:
            • URL是否可访问
            • 请求方式(GET/POST)是否与接口匹配
            • 超时时间设置是否合理
          • Script插件配置检查:
            • 脚本路径是否为绝对路径
            • 脚本是否有执行权限(chmod +x)
            • 脚本执行用户是否有权限
          • WeChat插件配置检查:
            • 企业ID、密钥是否正确
            • 应用ID或群聊ID是否正确
            • 发送类型选择是否正确
      • 现象:告警未触发

        • 排查项:检查告警策略的“通知条件”是否匹配作业流执行状态。
          • 成功:只有执行成功才发通知
          • 失败:只有执行失败才发通知
          • 全部:成功和失败都发通知
        • 排查项:确认告警策略是否已关联到告警组。
        • 排查项:确认作业流是否已关联该告警组(在作业流“运行”或“定时”时选择)。
        • 排查项:查看“告警记录”,确认是否有触发记录及错误信息。
        • 解决方案:
          • 调整通知条件,确保与期望触发的状态匹配。
          • 将告警策略添加到告警组。
          • 在作业流执行时选择正确的告警组。
          • 根据告警记录中的错误信息调整配置。
      • 现象:邮件告警不生效

        • 详细排查:
          • SMTP服务器:检查地址和端口(常用:25、465、587)
          • 认证信息:确认用户名和密码正确,部分邮箱需使用授权码而非登录密码
          • 发件人:确认发件人地址格式正确
          • SSL/TLS:根据邮箱要求选择是否启用
          • 收件人:多个收件人用英文逗号分隔
        • 解决方案:
          • 测试SMTP服务器连通性:telnet smtp服务器地址 端口
          • 使用邮箱提供的授权码
          • 将收件人地址添加到白名单
          • 示例配置(QQ邮箱):
            SMTP服务器:smtp.qq.com
            SMTP端口:465
            用户:yourname@qq.com
            密码:授权码(非登录密码)
            SSL连接:YES
            
      • 现象:Http告警不生效

        • 详细排查:
          • URL:确认地址可访问,包含协议(http/https)
          • 请求方式:GET或POST,需与接口匹配
          • 请求头:JSON格式,如需要可添加Content-Type等
          • 请求体:POST方式时需要,JSON格式
          • 内容字段:放置告警信息的字段名称
          • 超时时间:设置合理的超时时间(毫秒)
        • 解决方案:
          • 使用Postman等工具测试接口,确保可正常访问
          • GET方式示例:
            URL:http://127.0.0.1:8080/api/alert?content=${msg}
            请求方式:GET
            内容字段:空(告警内容放在URL中)
            
          • POST方式示例:
            URL:http://127.0.0.1:8080/api/alert
            请求方式:POST
            请求体:{"name":"test", "content": "${msg}"}
            内容字段:content(告警内容会替换${msg})
            
      • 现象:Script告警不生效

        • 详细排查:
          • 脚本路径:必须为绝对路径,如/home/dws/alert.sh
          • 脚本权限:确认有执行权限(chmod +x 脚本路径)
          • 自定义参数:会作为参数传入脚本
          • 脚本内容:确保脚本能正确处理传入的参数
        • 解决方案:
          • 使用绝对路径配置脚本
          • 赋予脚本执行权限
          • 以dws用户测试手动执行脚本:/home/dws/alert.sh 参数1 参数2
          • 脚本示例:
            #!/bin/bash
            echo "告警时间:$(date)" >> /tmp/alert.log
            echo "告警内容:$1" >> /tmp/alert.log
            
      • 现象:WeChat告警不生效

        • 详细排查:
          • 企业ID:企业微信后台“我的企业”->“企业ID”
          • 密钥:应用详情页的Secret
          • 应用ID/群聊ID:应用ID或群聊ID
          • 发送类型:APP(应用)或 GROUP CHAT(群聊)
          • 群员:@all或指定成员账号
        • 解决方案:
          • 确认企业微信应用已创建且有权限
          • 确认密钥未过期
          • 测试应用是否能正常发送消息

← 平台权限与流程问题排查指南 数据清洗问题排查指南 →