# 主数据数据采集问题排查指南
# 排查指南详细说明
通用前置检查:
- 确认版本:明确是MDM 7.3.0版本。
- 检查依赖服务状态:
- 调度引擎:数据采集作业流依赖调度引擎,确认引擎服务正常运行。
- DWS服务:作业流管理功能依赖DWS(数据采集平台),确认DWS服务正常。
- 检查数据源配置:确认作业流中配置的数据源是否可用。
- 查看执行日志:通过作业流实例的“执行日志”查看详细错误信息。
- 查阅补丁列表:优先检索官方已发布的补丁。您可以通过以下链接访问官方补丁列表:
- MDM 7.3 补丁列表: 主数据7.3补丁列表 (opens new window)
- DWS 7.1.0 补丁列表: DWS7.1补丁列表 (opens new window)
# 场景一:调度引擎异常
说明:调度引擎是数据采集作业流的基础,需先确保调度引擎正常才能使用作业流功能。调度引擎在“公共资源”模块中配置。
问题现象:
- 新建调度引擎时,数据库连通性测试失败。
- 调度引擎创建后,执行资源状态显示异常。
- 作业流执行时提示“找不到调度引擎”或“引擎不可用”。
- 调度引擎数据库连接信息修改后不生效。
排查步骤:
第一步:排除产品BUG。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
调度引擎、引擎。 - 相关补丁:
DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错问题)DWS7.1.0_SERVER_20250807_P1(DWS服务端补丁)
- 解决方案:若找到描述匹配的补丁,则申请并应用。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
第二步:根据问题现象排查。
现象:数据库连通性测试失败
- 排查项:检查数据库连接信息(IP、端口、数据库名、用户名、密码)是否正确。
- 排查项:确认数据库服务是否正常运行,网络是否互通。
- 排查项:确认数据库驱动是否支持当前数据库版本。
- 解决方案:
- 修正数据库连接信息后重试。
- 检查防火墙设置,确保端口开放。
现象:执行资源状态异常
- 排查项:检查调度引擎所在服务器资源(CPU、内存)是否充足。
- 排查项:查看调度引擎日志,获取详细错误信息。
- 解决方案:
- 重启调度引擎服务。
- 如资源不足,扩容服务器资源配置。
现象:修改数据库连接信息后不生效
- 排查项:修改信息后是否重启了调度引擎。
- 解决方案:
- 修改后需重启调度引擎服务使配置生效。
- 同时需执行相关SQL更新应用中的调度引擎信息:
-- 更新afcenter数据库,为项目管理员角色授权 UPDATE AFC_R_PARTY_ROLE SET ROLE_ID = (SELECT ID FROM AFC_ROLE WHERE CODE = 'dws-role-project-manager') WHERE ID = 'mdm-03'; -- 更新mdm数据库,将项目与调度引擎关联 UPDATE DWS_PRJ_PROJECT SET SCHEDULE_CODE = '新建调度引擎时的引擎编码' WHERE ID = '4';
# 场景二:作业流管理异常
说明:此类问题发生在创建、配置数据采集作业流时,包括作业流无法创建、保存、上线等。
问题现象:
- 新增作业流时保存失败。
- 作业流上线/下线失败。
- 作业流定时配置无法保存或Cron表达式解析错误。
- 字段映射配置后不生效。
- 数据源选择后,无法获取表或字段信息。
- 作业流模板选择后,相关配置项显示不全。
排查步骤:
第一步:排除产品BUG。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
作业流、定时、字段映射。 - 相关补丁:
MDM_7.3_SERVER_20260128_P1(修复增量切换全量定时配置未删除、作业流实例问题数据查询问题)MDM_7.3_UI_20260123_P1(修复作业流的定时配置无法直接粘贴cron表达式)MDM_7.3_UI_20251121_P1(修复作业流详情页面SQL Server数据库选择库表后取消报错)MDM_7.3_SERVER_20251114_P1(修复多数据库兼容性问题:MySQL5/SqlServer/OpenGauss/PostgreSql/DM执行报错)DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错)
- 解决方案:若找到描述匹配的补丁,则申请并应用。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
第二步:根据问题现象排查。
现象:作业流保存失败
- 排查项:检查作业流名称、数据模型、作业流模板等必填项是否已填写。
- 排查项:确认选择的调度引擎是否正常。
- 排查项:浏览器控制台是否有JS报错。
- 解决方案:
- 补充完整必填项信息。
- 确保调度引擎状态正常。
- 清理浏览器缓存后重试。
现象:作业流上线/下线失败
- 排查项:确认作业流配置是否完整。
- 排查项:检查调度引擎状态是否正常。
- 解决方案:
- 完成作业流所有必填配置。
- 确保调度引擎正常运行。
现象:定时配置异常
- 排查项:只有“主数据增量同步(时间戳)”模板支持定时配置。
- 排查项:Cron表达式格式是否正确。
- 解决方案:
- 确认作业流模板类型为增量同步。
- 使用正确的Cron表达式,或通过界面选择时间。
- 申请补丁
MDM_7.3_UI_20260123_P1解决Cron表达式粘贴问题。
现象:无法获取表或字段信息
- 排查项:检查数据源配置是否正确,是否有访问该表的权限。
- 排查项:对于SQL Server数据库,注意schema配置。
- 排查项:确认数据源中是否存在该表。
- 解决方案:
- 在“公共资源”中测试数据源连接,确保可用。
- 申请补丁
MDM_7.3_UI_20251121_P1解决SQL Server相关问题。
现象:字段映射不生效
- 排查项:检查源表和目标表的字段是否已正确对应。
- 排查项:确认字段类型是否兼容。
- 解决方案:
- 重新建立字段映射关系。
- 对于类型不兼容的字段,考虑在同步前进行转换。
# 场景三:作业流执行/实例异常
说明:此类问题发生在作业流执行过程中,包括执行失败、实例状态异常、问题数据处理等。
问题现象:
- 作业流执行失败,无数据同步。
- 作业流实例状态一直为“运行中”不结束。
- 作业流实例重跑、恢复失败、暂停、停止等操作失败。
- 同步的数据不完整或数据错误。
- 问题数据页面无法查看或查询。
- 全量覆盖模式下,旧数据未被正确覆盖。
排查步骤:
第一步:排除产品BUG。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
执行、实例、重跑、问题数据。 - 相关补丁:
MDM_7.3_SERVER_20251114_P1(修复MySQL5/SqlServer/OpenGauss/PostgreSql/DM等数据库执行报错)MDM_7.3_UI_20260209_P1(修复业务门户问题数据根据作业流名称查询未生效)MDM_7.3_SERVER_20260128_P1(修复作业流实例问题数据查询未根据指定实例id查询)DWS7.1.0_SERVER_20250825_P1(修复数据采集作业执行报错)DWS7.1.0_SERVER_20250807_P1(DWS服务端补丁)
- 解决方案:若找到描述匹配的补丁,则申请并应用。
- 操作:在MDM/DWS官方补丁列表中,搜索关键词
第二步:根据问题现象排查。
现象:作业流执行失败
- 排查项:查看作业流实例的“执行日志”,获取具体错误信息。
- 排查项:检查源表和目标表是否存在,字段映射是否正确。
- 排查项:确认数据库用户是否有读写权限。
- 排查项:检查“分割数据行数”设置是否过大,导致单次请求超时。
- 解决方案:
- 根据日志错误信息调整配置。
- 修正字段映射关系。
- 调整分割数据行数为较小值(如1000)。
- 申请补丁解决数据库兼容性问题。
现象:实例状态一直为“运行中”
- 排查项:检查调度引擎服务是否正常。
- 排查项:查看是否有死锁或长时间运行的SQL。
- 排查项:检查数据库连接池是否已满。
- 解决方案:
- 重启调度引擎服务。
- 在数据库中手动终止长时间运行的会话。
- 申请补丁
MDM_7.3_SERVER_20260202_P1(JPA事务优化及数据库连接池断开问题)。
现象:实例操作失败(重跑/恢复/暂停/停止)
- 排查项:确认当前实例状态是否支持该操作。
- 重跑:只有已终止的实例支持重跑。
- 恢复失败:只有失败的实例支持恢复失败。
- 暂停/停止:只有运行中的实例支持暂停/停止。
- 解决方案:根据实例状态执行允许的操作。
- 排查项:确认当前实例状态是否支持该操作。
现象:同步数据不完整或错误
- 排查项:检查作业流配置中的“数据添加方式”:
- 全量覆盖:会覆盖该作业流之前同步的所有数据。
- 追加数据:不会覆盖历史数据,追加同步新数据。
- 排查项:对于增量同步,检查“时间字段”和“目标表时间字段”配置是否正确。
- 排查项:查看问题数据列表,确认是否有数据被标记为问题数据。
- 解决方案:
- 根据业务需求选择正确的数据添加方式。
- 修正时间字段配置,确保增量条件正确。
- 处理问题数据后重新执行。
- 排查项:检查作业流配置中的“数据添加方式”:
现象:问题数据查询异常
- 排查项:在作业流实例列表,点击“问题数据”查看。
- 排查项:确认查询条件是否正确。
- 解决方案:
- 申请补丁
MDM_7.3_UI_20260209_P1和MDM_7.3_SERVER_20260128_P1。 - 如问题持续,通过AME+发起工单。
- 申请补丁
# 场景四:作业流告警异常
说明:此类问题发生在配置作业流告警策略、告警组,以及接收告警通知时。告警功能用于在作业流执行成功或失败时发送通知。
问题现象:
- 新增告警策略时保存失败。
- 配置的告警策略未触发通知。
- 邮件、HTTP、Script、WeChat等告警方式不生效。
- 告警记录页面无数据或显示不全。
- 告警组关联策略后不生效。
排查步骤:
第一步:排除产品BUG。
- 操作:在MDM官方补丁列表中,搜索关键词
告警、策略、通知。 - 相关补丁:
MDM_7.3_UI_20260115_P1(修复告警策略配置无法弹窗新增、修改按钮)MDM_7.3_UI_20251119_P1(修复编辑告警配置选择插件保存无效问题)
- 解决方案:若找到描述匹配的补丁,则申请并应用。
- 操作:在MDM官方补丁列表中,搜索关键词
第二步:根据问题现象排查。
现象:告警策略保存失败
- 排查项:检查告警策略名称、选择插件、通知条件等必填项是否已填写。
- 排查项:根据所选插件类型,检查对应配置项是否完整。
- 解决方案:
- 补充完整必填项信息。
- Email插件配置检查:
- SMTP服务器地址和端口是否正确
- 邮箱用户名和密码(或授权码)是否正确
- 收件人地址格式是否正确
- Http插件配置检查:
- URL是否可访问
- 请求方式(GET/POST)是否与接口匹配
- 超时时间设置是否合理
- Script插件配置检查:
- 脚本路径是否为绝对路径
- 脚本是否有执行权限(chmod +x)
- 脚本执行用户是否有权限
- WeChat插件配置检查:
- 企业ID、密钥是否正确
- 应用ID或群聊ID是否正确
- 发送类型选择是否正确
现象:告警未触发
- 排查项:检查告警策略的“通知条件”是否匹配作业流执行状态。
- 成功:只有执行成功才发通知
- 失败:只有执行失败才发通知
- 全部:成功和失败都发通知
- 排查项:确认告警策略是否已关联到告警组。
- 排查项:确认作业流是否已关联该告警组(在作业流“运行”或“定时”时选择)。
- 排查项:查看“告警记录”,确认是否有触发记录及错误信息。
- 解决方案:
- 调整通知条件,确保与期望触发的状态匹配。
- 将告警策略添加到告警组。
- 在作业流执行时选择正确的告警组。
- 根据告警记录中的错误信息调整配置。
- 排查项:检查告警策略的“通知条件”是否匹配作业流执行状态。
现象:邮件告警不生效
- 详细排查:
- SMTP服务器:检查地址和端口(常用:25、465、587)
- 认证信息:确认用户名和密码正确,部分邮箱需使用授权码而非登录密码
- 发件人:确认发件人地址格式正确
- SSL/TLS:根据邮箱要求选择是否启用
- 收件人:多个收件人用英文逗号分隔
- 解决方案:
- 测试SMTP服务器连通性:
telnet smtp服务器地址 端口 - 使用邮箱提供的授权码
- 将收件人地址添加到白名单
- 示例配置(QQ邮箱):
SMTP服务器:smtp.qq.com SMTP端口:465 用户:yourname@qq.com 密码:授权码(非登录密码) SSL连接:YES
- 测试SMTP服务器连通性:
- 详细排查:
现象:Http告警不生效
- 详细排查:
- URL:确认地址可访问,包含协议(http/https)
- 请求方式:GET或POST,需与接口匹配
- 请求头:JSON格式,如需要可添加Content-Type等
- 请求体:POST方式时需要,JSON格式
- 内容字段:放置告警信息的字段名称
- 超时时间:设置合理的超时时间(毫秒)
- 解决方案:
- 使用Postman等工具测试接口,确保可正常访问
- GET方式示例:
URL:http://127.0.0.1:8080/api/alert?content=${msg} 请求方式:GET 内容字段:空(告警内容放在URL中) - POST方式示例:
URL:http://127.0.0.1:8080/api/alert 请求方式:POST 请求体:{"name":"test", "content": "${msg}"} 内容字段:content(告警内容会替换${msg})
- 详细排查:
现象:Script告警不生效
- 详细排查:
- 脚本路径:必须为绝对路径,如
/home/dws/alert.sh - 脚本权限:确认有执行权限(
chmod +x 脚本路径) - 自定义参数:会作为参数传入脚本
- 脚本内容:确保脚本能正确处理传入的参数
- 脚本路径:必须为绝对路径,如
- 解决方案:
- 使用绝对路径配置脚本
- 赋予脚本执行权限
- 以dws用户测试手动执行脚本:
/home/dws/alert.sh 参数1 参数2 - 脚本示例:
#!/bin/bash echo "告警时间:$(date)" >> /tmp/alert.log echo "告警内容:$1" >> /tmp/alert.log
- 详细排查:
现象:WeChat告警不生效
- 详细排查:
- 企业ID:企业微信后台“我的企业”->“企业ID”
- 密钥:应用详情页的Secret
- 应用ID/群聊ID:应用ID或群聊ID
- 发送类型:APP(应用)或 GROUP CHAT(群聊)
- 群员:
@all或指定成员账号
- 解决方案:
- 确认企业微信应用已创建且有权限
- 确认密钥未过期
- 测试应用是否能正常发送消息
- 详细排查: