EBpay钱包官网

睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额》报告中,陆续在四年蝉联数据治理解决方案市场份额第一。

在线免费试用 DEMO体验 视频介绍

一篇讲透主数据,建议收藏!

时间:2026-01-23来源:大鱼的数据人生浏览数:278

你们公司大概率发生过这两类"事故"。

第一类:同一个人/同一个客户,在公司里有好几个"身份"。

CRM里叫"张三",ERP里叫"张三(华东)",电商系统里叫"ZhangSan",财务系统里又挂在另一个"集团客户"下面。

于是你们会看到一堆荒诞现象:同一个客户被算成多个客户,销售重复跟进、重复返点;同一个供应商被拆成多个供应商,采购无法集中议价;同一个物料被建了多个编码,库存、BOM、成本全对不上。


第二类:业务问一句"到底哪个才是真的?"全场沉默。

"这个客户到底是不是同一家公司?" "这家供应商是不是同一控制人?" "这个物料是不是同一型号换了个名字?" "这笔交易归属哪个法人?谁说了算?"

你会发现:系统很多,数据很多,但"权威事实"很少。


而更可怕的是——大多数企业对此一无所知,还在继续制造更多的"多版本现实"。

主数据(MDM)的存在,就是为分析决这两类问题:企业级身份唯一,以及权威事实可裁决、可追责、可分发

在深入之前,先别谈平台、谈架构、谈厂商。请先回答三个问题。

问题1:你们公司到底有多少个"真实客户/真实供应商/真实物料"?

注意,我问的不是系统里有多少条记录。我问的是:去重、合并、穿透集团、穿透历史后,真实世界里到底有多少个实体?

大多数企业的答案是:不知道。


问题2:同一个客户改名/换证/并购后,你们能在24小时内让所有系统"同步变更"吗?

更残酷一点:你们能说清楚——哪些系统必须同步?哪些系统只读引用?哪些报表/接口会受影响?谁批准?谁回滚?谁背锅?

大多数企业的答案是:做不到,只能靠人肉通知+临时补丁。

问题3:当审计/监管问"这笔交易主体是谁、归属哪家法人、凭什么这么认定?"你能给出证据链吗?

注意,我问的不是"你能解释"。我问的是:你能否拿出可重复证明的证据链:ID映射、合并规则、审批记录、版本快照、变更日志。

大多数企业的答案是:解释靠人,证据靠翻。


如果这三个问题你一个都答不上来,那么恭喜你——你们其实没有主数据。你们只有"多套业务系统的多个版本的现实"。

一句话讲清主数据的本质——不是"重要数据",是"企业对关键实体的裁决系统" 四要素拆解主数据——实体、身份、裁决、分发,缺一不可 三个组织博弈场景——为什么主数据最难的不是技术,是"谁说了算" 四层能力模型——从可见性到分发服务,极简但闭环 动手体验——30分钟跑通一个客户主数据MVP 主数据与AI大模型——为什么说没有主数据,企业AI就是在"幻觉"上建楼 四步落地路线——每步都有明确验收口径,不再"建了平台就算完" 可直接复用的模板——数据模型MVP、匹配规则、存活规则、KPI看板 15个常见坑——很多企业倒在这里,你可以避开 


1.1 一句话定义

主数据(Master Data),是企业对"关键业务实体"(客户、供应商、产品/物料、组织、人员、地点、资产、科目……)建立唯一身份权威事实的一套能力体系。

讲透它,必须把"主数据"拆成四个要素:

一句话总结:主数据不是一张表,也不是一套清洗规则。主数据是企业对"关键实体事实"的裁决系统:能统一身份、能做权威判定、能把结果发出去、还能追责。


1.2 主数据和三类数据的边界

很多争论,本质是把不同数据类型混在一起。

一句话记忆:主数据是"名词",交易数据是"动词",参考数据是"形容词/枚举"。

你做数仓、做指标、做AI,如果"谁是谁"都不确定,你后面做的很多事都是在沙滩上盖楼。


1.3 主数据不是什么(四个误解)

这四个误解,几乎每个企业都踩过:

误解1:主数据就是把各系统导出来,拼一张"大宽表"。

不对。没有统一ID、没有裁决规则、没有变更流程、没有分发机制,那只是一次性汇总。

误解2:主数据就是数仓维度表。

不对。维度表是"分析用的影子";主数据是"业务运行用的权威"。维表可以晚到、可以补;主数据晚到会直接影响交易与管控。

误解3:主数据就是数据标准

不对。标准解决"应该长什么样";主数据解决"现实中到底是谁,并且谁说了算"。

误解4:买一个MDM平台就有主数据。

不对。平台是容器,主数据真正的难点在:数据从哪来、规则谁定、冲突谁裁、变更谁批、结果谁用。


1.4 主数据的"三性"特征与"五个超越"判断法

根据业界最佳实践,主数据具有三大核心特征:


"五个超越"判断法——如果一条数据同时满足以下五个"超越",它大概率就是主数据:

2.1 三条驱动力

驱动力1:系统越多,实体越碎。

CRM、ERP、SRM、PLM、MES、WMS、财务、OA、电商、渠道系统……系统越多,客户/物料/组织就越容易"多版本并存"。


驱动力2:合规与审计越来越"硬"。

你可以解释一两次,但监管/审计要的是证据链。主数据是"主体认定"的底座:客户主体、供应商主体、集团穿透、关联方识别,离不开统一身份。


驱动力3:AI时代放大了"身份混乱"的灾难半径。

你让模型做客户洞察、做供应商风险、做产品推荐,如果主数据不稳,模型会把"错误实体"当成事实,输出还会被业务当成"AI背书"。


当你的AI模型把"张三"和"ZhangSan"当成两个客户推荐了两套方案,你不仅损失客户,还损失了对AI的信任。


2.2 触目惊心的数据

 

2.3 真实的教训

 

一个判断:主数据正在从"数据治理项目"升级为"企业运营基础设施"。没有它:你做不稳经营分析,控不住风险,跑不通跨系统流程,更喂不出可靠AI。

你会很快遇到三个场景。

3.1 场景1:每个系统都觉得自己才是"权威"

销售说:CRM才是客户权威。 财务说:开票系统才是客户权威。 采购说:SRM才是供应商权威。 制造说:ERP物料才是权威,PLM那套别来。

如果你不先解决"决策权",你做的所有匹配与清洗,最后都会被一句话推翻:"我不认。"


3.2 场景2:业务不愿意承认"合并"会影响利益

客户合并意味着:线索归属要重新算、业绩可能要重分、返点可能要重算、坏账可能要穿透。

所以你会遇到最常见的拖延句式:"先别合并,等我核实一下。" 然后就没有然后。


3.3 场景3:对"100%正确"的荒诞要求

很多企业会要求:"合并不能错,一个错了就出事故,所以必须100%准确。"

这句话的实际含义是:那就永远别做主数据。

正确的做法是:把冲突显性化,把边界流程化。

机器处理大批量高确定性合并 人处理低置信度边界案例 所有决策留痕可追责


这三个场景揭示了一个真相:主数据80%的难度在组织和流程,20%在技术工具。

主数据的终局,不是"建了一个主数据平台",也不是"把客户去重了一次"。


主数据的终局是:任何一个关键实体,从出现的那一刻起,就自动进入它应有的"身份与命运"。


什么叫"身份与命运"?

新增客户:系统自动分配全局客户ID,自动做相似匹配,命中冲突则进入人工裁决流程 客户更名/换证:触发变更流程,审批顺利获得后自动分发到所有消费系统,并记录版本快照 客户合并/拆分:有明确的规则、责任人、审批链、影响范围、回滚点与审计证据 下游系统不再"自建编码":而是引用主数据ID,至少做到"同一实体同一身份"


强调三点:

主数据不是项目,是运营系统 主数据不是"看见",是"裁决+分发" 主数据治理的目标不是美观,是减少真实业务事故

企业主数据通常涵盖以下核心领域:

你不需要一上来就搞"全域主数据中心"。你需要的是一套极简但闭环的能力体系:四层就够

第1层:主数据可见性层(回答"各系统到底有哪些版本")

交付物:

关键系统清单(哪些系统产生/消费客户、供应商、物料、组织) 字段对齐与差异清单(关键属性在各系统长什么样) 重复率/缺失率/冲突率画像(先把脏相量化出来)

一句话:看不见全景,就别谈统一。

第2层:统一身份层(回答"谁是谁")


交付物:

全局唯一ID方案(ID规则、生命周期、不可变性) Crosswalk映射表(系统A的ID ↔ 主数据ID ↔ 系统B的ID) 匹配策略(确定性规则 + 相似度规则 + 置信度分档)

这是主数据的"骨架"。

第3层:权威裁决层(回答"冲突谁裁,按什么裁")


交付物:

Data Owner / Steward机制(谁负责定义与裁决) 合并/拆分/更名/挂靠流程(含审批、留痕、回滚) Survivorship规则(冲突时哪个来源优先、何时覆盖、何时保留多值)

这是主数据的"大脑"。

第4层:分发服务层(回答"权威结果如何被用起来")


交付物:

API / 订阅发布 / 批量下发 / CDC同步 回写机制(必要时把权威结果推回源头,减少继续变脏) 消费系统接入规范(谁必须用主数据ID,谁可以只做映射)


没有第4层,前三层就是"自嗨数据库"。

理论知识固然重要,但最好的学习方式是亲手实践。在本章中,我们将引导你用Python代码,从零开始构建一个"最小可用"的客户主数据能力。这个过程将让你直观地感受到:主数据不是高不可攀的平台工程,而是可以从小处起步的实用能力。


7.1 目标:做到两件事就算成功

在开始之前,先明确目标。一个"可用"的主数据MVP,需要支撑两个核心动作:

动作A:给定一个客户名称,识别出它是否已存在(匹配)

"新来一个客户叫'上海张三科技有限公司',它是不是和已有的'上海张三科技'是同一家?"

动作B:给定一个主数据ID,查出它在各系统的映射(Crosswalk)

"主数据ID是MC-000123,它在CRM里叫什么?在ERP里叫什么?"

只要这两件事能稳定发生,主数据就开始"值钱"了。


7.2 准备工作

第一时间安装必要的Python库:

pip install pandas fuzzywuzzy python-Levenshtein7.3 Step 1:创建Crosswalk映射表

Crosswalk是主数据的"骨架"——它记录了"同一个实体在不同系统里的ID是什么"。

import pandas as pdfrom datetime import datetime# 创建Crosswalk映射表结构defcreate_crosswalk_table():""" 创建主数据核心表:Crosswalk映射表 这张表回答:同一个客户在不同系统里的ID是什么? """ crosswalk_data = {'master_customer_id': [], # 全局唯一主数据ID'source_system': [], # 来源系统'source_customer_id': [], # 来源系统的本地ID'customer_name': [], # 客户名称'credit_code': [], # 统一社会信用代码'match_confidence': [], # 匹配置信度: High/Medium/Low'match_rule': [], # 命中的匹配规则'created_at': [], # 创建时间'updated_at': [] # 更新时间 }return pd.DataFrame(crosswalk_data)# 初始化并填充示例数据crosswalk_df = create_crosswalk_table()# 模拟:已有的主数据记录existing_records = [# MC-000001: 同一个客户在三个系统里的记录 ('MC-000001', 'CRM', 'CRM_10001', '上海张三科技有限公司', '91310000MA1FL8XX1A', 'High', 'credit_code_exact'), ('MC-000001', 'ERP', 'ERP_20001', '上海张三科技', '91310000MA1FL8XX1A', 'High', 'credit_code_exact'), ('MC-000001', 'ECOM', 'ECOM_30001', 'ZhangSan Tech', '91310000MA1FL8XX1A', 'High', 'credit_code_exact'),# MC-000002: 另一个客户 ('MC-000002', 'CRM', 'CRM_10002', '北京李四贸易有限公司', '91110000MA1ABC1234', 'High', 'credit_code_exact'), ('MC-000002', 'ERP', 'ERP_20002', '北京李四贸易', '91110000MA1ABC1234', 'High', 'credit_code_exact'),]now = datetime.now().isoformat()for record in existing_records: crosswalk_df.loc[len(crosswalk_df)] = list(record) + [now, now]print("=== Crosswalk映射表 ===")print(crosswalk_df.to_string(index=False))


运行结果:

=== Crosswalk映射表 ===master_customer_id source_system source_customer_id customer_name credit_code match_confidence match_rule created_at updated_at MC-000001 CRM CRM_10001 上海张三科技有限公司 91310000MA1FL8XX1A High credit_code_exact 2026-01-19T10:30:00 2026-01-19T10:30:00 MC-000001 ERP ERP_20001 上海张三科技 91310000MA1FL8XX1A High credit_code_exact 2026-01-19T10:30:00 2026-01-19T10:30:00 MC-000001 ECOM ECOM_30001 ZhangSan Tech 91310000MA1FL8XX1A High credit_code_exact 2026-01-19T10:30:00 2026-01-19T10:30:00 MC-000002 CRM CRM_10002 北京李四贸易有限公司 91110000MA1ABC1234 High credit_code_exact 2026-01-19T10:30:00 2026-01-19T10:30:00 MC-000002 ERP ERP_20002 北京李四贸易 91110000MA1ABC1234 High credit_code_exact 2026-01-19T10:30:00 2026-01-19T10:30:007.4 Step 2:实现匹配规则引擎

这是主数据的核心——判断"新来的客户是不是已经存在"。

from fuzzywuzzy import fuzzdefmatch_customer(new_customer, crosswalk_df):""" 主数据匹配引擎:判断新客户是否已存在 匹配规则(按优先级从高到低): R1 强匹配:统一社会信用代码完全一致 → 同一主体(自动合并) R2 中匹配:名称相似度≥95% → 待人工确认 R3 弱匹配:名称相似度≥85% → 待人工确认 """ new_name = new_customer.get('name', '') new_credit_code = new_customer.get('credit_code', '') matches = []# 获取已有的唯一客户列表(去重) unique_customers = crosswalk_df.drop_duplicates(subset=['master_customer_id'])for _, row in unique_customers.iterrows(): master_id = row['master_customer_id'] existing_name = row['customer_name'] existing_credit_code = row['credit_code']# R1: 统一社会信用代码精确匹配if new_credit_code and existing_credit_code and new_credit_code == existing_credit_code: matches.append({'master_customer_id': master_id,'existing_name': existing_name,'match_rule': 'R1_credit_code_exact','confidence': 'High','similarity': 100,'action': '自动合并' })continue# R2/R3: 名称相似度匹配if new_name and existing_name:# 使用多种相似度算法取最高值 ratio = fuzz.ratio(new_name, existing_name) partial_ratio = fuzz.partial_ratio(new_name, existing_name) token_sort_ratio = fuzz.token_sort_ratio(new_name, existing_name) similarity = max(ratio, partial_ratio, token_sort_ratio)if similarity >= 95: matches.append({'master_customer_id': master_id,'existing_name': existing_name,'match_rule': 'R2_name_sim_95','confidence': 'Medium','similarity': similarity,'action': '待人工确认' })elif similarity >= 85: matches.append({'master_customer_id': master_id,'existing_name': existing_name,'match_rule': 'R3_name_sim_85','confidence': 'Low','similarity': similarity,'action': '待人工确认' })return matches# 测试匹配引擎print("\\n=== 匹配测试 ===\\n")# 测试案例1:精确匹配(统一社会信用代码一致)test1 = {'name': '张三科技(上海)有限公司', 'credit_code': '91310000MA1FL8XX1A'}print(f"测试1 - 新客户: {test1['name']}")results1 = match_customer(test1, crosswalk_df)for r in results1: print(f" → 匹配到: {r['existing_name']} | 规则: {r['match_rule']} | 置信度: {r['confidence']} | 操作: {r['action']}")# 测试案例2:名称相似匹配test2 = {'name': '上海张三科技有限责任公司', 'credit_code': ''}print(f"\\n测试2 - 新客户: {test2['name']}")results2 = match_customer(test2, crosswalk_df)for r in results2: print(f" → 匹配到: {r['existing_name']} | 规则: {r['match_rule']} | 相似度: {r['similarity']}% | 操作: {r['action']}")# 测试案例3:无匹配test3 = {'name': '深圳王五信息技术有限公司', 'credit_code': '91440000XXXXXXXX'}print(f"\\n测试3 - 新客户: {test3['name']}")results3 = match_customer(test3, crosswalk_df)ifnot results3: print(" → 无匹配,建议创建新主数据ID")


运行结果:

=== 匹配测试 ===测试1 - 新客户: 张三科技(上海)有限公司 → 匹配到: 上海张三科技有限公司 | 规则: R1_credit_code_exact | 置信度: High | 操作: 自动合并测试2 - 新客户: 上海张三科技有限责任公司 → 匹配到: 上海张三科技有限公司 | 规则: R2_name_sim_95 | 相似度: 96% | 操作: 待人工确认测试3 - 新客户: 深圳王五信息技术有限公司 → 无匹配,建议创建新主数据ID7.5 Step 3:实现Crosswalk查询

这是主数据的"服务层"——给定一个ID,返回它在各系统的身份。

defget_crosswalk(master_id, crosswalk_df):""" Crosswalk查询:给定主数据ID,返回它在各系统的映射 这是分发服务的核心能力 """ records = crosswalk_df[crosswalk_df['master_customer_id'] == master_id]if records.empty:returnNone result = {'master_customer_id': master_id,'golden_name': records.iloc[]['customer_name'], # 取第一条作为黄金记录名称'credit_code': records.iloc[]['credit_code'],'system_mappings': [] }for _, row in records.iterrows(): result['system_mappings'].append({'system': row['source_system'],'local_id': row['source_customer_id'],'local_name': row['customer_name'] })return result# 测试Crosswalk查询print("\\n=== Crosswalk查询测试 ===\\n")crosswalk_result = get_crosswalk('MC-000001', crosswalk_df)print(f"主数据ID: {crosswalk_result['master_customer_id']}")print(f"黄金记录名称: {crosswalk_result['golden_name']}")print(f"统一社会信用代码: {crosswalk_result['credit_code']}")print(f"系统映射:")for mapping in crosswalk_result['system_mappings']: print(f" - {mapping['system']}: {mapping['local_id']} ({mapping['local_name']})")

运行结果:

=== Crosswalk查询测试 ===主数据ID: MC-000001黄金记录名称: 上海张三科技有限公司统一社会信用代码: 91310000MA1FL8XX1A系统映射: - CRM: CRM_10001 (上海张三科技有限公司) - ERP: ERP_20001 (上海张三科技) - ECOM: ECOM_30001 (ZhangSan Tech)7.6 你必须知道的现实边界

在动手之前,必须先接受几个现实:

边界1:名称相似度匹配有误判

"上海张三科技"和"上海张三贸易"相似度可能很高,但是两家不同的公司。所以中低置信度的匹配必须进入人工审核。

边界2:统一社会信用代码也有例外

有些企业换证后代码变了,有些个体户没有统一代码。所以不能只靠单一标识。

边界3:需要"置信度"和"人工校正入口"

好的主数据系统,会给每条匹配结果标注置信度(High/Medium/Low),并给予人工校正入口。机器自动处理80%,人工审核20%,这才是可持续的模式。


7.7 本章小结

顺利获得以上步骤,我们构建了一个完整的、可运行的主数据MVP。其核心在于:

Crosswalk表是主数据的骨架——记录同一实体在不同系统的身份 匹配规则引擎是主数据的大脑——判断新实体是否已存在 置信度分档是主数据的灵魂——把机器能做的和人该做的分开

这个30分钟的Demo,浓缩了主数据项目的核心逻辑。你可以在此基础上扩展:增加更多匹配规则、接入真实数据源、增加审批流程、实现API服务。


8.1 AI时代的新命题

当企业开始构建AI应用(知识库、RAG、智能体、Copilot)时,主数据的角色发生了根本性变化:

从"数据治理项目"变成"AI可靠性基础设施"。

为什么这么说?因为AI大模型的三大核心应用场景,每一个都依赖主数据:

8.2 一个触目惊心的场景

想象这个场景:

你的销售AI助手被问到:"帮我查一下张三科技最近的采购历史和信用情况"。

没有主数据的情况:

AI在CRM找到"上海张三科技有限公司"的线索记录,在ERP找到"上海张三科技"的采购记录,在财务系统找到"张三科技(华东)"的应付账款。

AI不知道这三个是同一家公司,于是:

要么只返回部分数据(不完整) 要么把三家公司的数据混在一起(混淆) 要么自信地告诉你"系统里没有张三科技的完整记录"(错误)


有主数据的情况:

AI第一时间查询主数据系统,得知"上海张三科技有限公司"的主数据ID是MC-000001,它在CRM、ERP、财务系统的本地ID分别是什么。然后AI用这些ID去各系统精确查询,最后汇总出完整、准确、可追溯的360度视图。

这就是主数据作为"AI护栏"的价值:让AI知道"谁是谁",而不是让AI去猜。


8.3 三件必须做对的事

知识图谱的核心是"实体-关系-属性"三元组。如果实体都没有统一身份,图谱就是一堆孤岛。

主数据给予的价值:

实体去重:确保同一个客户/产品/组织在图谱中只有一个节点 关系可靠:客户A和供应商B的关联,基于统一ID而非模糊匹配 属性权威:实体的关键属性来自权威来源,而非多系统冲突

当AI检索企业内部知识时,检索结果必须能关联到统一实体。

错误做法:直接用自然语言查询向量数据库,返回一堆相关文档,但不知道这些文档说的是不是同一个客户。


正确做法:

用户问"张三科技的合同条款" 先查主数据,确定用户说的是哪个"张三科技"(MC-000001) 用主数据ID去检索,确保返回的文档都是关于同一家公司 返回结果时,明确标注"以下信息来自客户MC-000001:上海张三科技有限公司"

当AI Agent被授权执行业务动作(比如下单、查询、审批)时,它调用的实体信息必须来自权威来源。


典型风险:

Agent调用了一个"已注销"的客户ID,发起了一笔不应该发生的交易 Agent把两个客户的信息混在一起,生成了一份错误的报告 Agent基于过时的产品信息,给出了错误的定价建议

主数据给予的保障:

实体状态实时同步:客户是否有效、供应商是否在黑名单、产品是否下架 权威属性API:Agent需要客户信息时,调用主数据API而非直接查各业务系统 审计追溯:AI的每次实体调用都有迹可循 8.4 一句话结论

AI能力的天花板,是你主数据的质量。

没有主数据的企业做AI,就像让一个记不住人脸的销售去做客户关系管理——他可能很能说、很热情,但他永远不知道面前这个人到底是谁、之前发生过什么。

主数据不是AI的"附加项",是AI的"前置条件"。

别一上来就追求"全量字段"。主数据数据模型的第一目标,是支撑四件事:唯一身份、冲突裁决、关系管理、可追溯分发

下面给一个可直接落地的MVP(以客户为例)。

9.1 身份与映射表(Identity & Crosswalk)

 

9.2 黄金记录表(Golden Record)

9.3 变更与审计表(Change & Audit)

 

如果你现在就想开干,先把这三类表跑通:Identity、Golden、Audit,90%的"主数据事故"就能明显减少。

主数据不是只有一种"中央库"做法。常见五种模式:

多数企业最现实的路线是:登记册止血 → 汇聚形成黄金记录 → 关键域逐步共存/事务化。

别从"全公司客户主数据"开始,那基本等于找死。正确路线是:从最痛、最容易出事故、最能换来组织授权的地方开始。

Step 1:选一个域 + 定决策权

产出物:

域范围与边界(哪些字段归主数据裁决,哪些留在业务系统) Data Owner / Steward名单 合并/拆分/更名的决策权与责任

验收口径:权责不清,后面都别做。

Step 2:跑通"统一身份"

产出物:

全局ID方案 Crosswalk表 匹配规则与置信度分档 人工裁决入口(最简也行)

验收口径:同一实体能被识别出来,冲突能被挂起并流转。

Step 3:形成"黄金记录"并被至少两个系统消费

产出物:

黄金记录(字段不求全,但求权威) 下发机制(API/批量/订阅任选其一) 消费改造(至少两个系统改为引用主数据ID)

验收口径:主数据不是"建出来",是"用起来"。

Step 4:把"变更"纳入流程与审计

产出物:

更名/合并/拆分流程 审计留痕与版本快照 影响范围通知(至少能通知关键消费系统Owner)

验收口径:出事时能追溯,变更前能评估影响。

12.1 主数据域优先级评分表

 

使用方法:总分高者优先做试点域。

12.2 匹配规则模板(可运营版) 对象:企业客户匹配规则(从强到弱):R1 强匹配:统一社会信用代码完全一致 → 同一主体(自动合并) → MatchConfidence = HighR2 中匹配:主体名称相似度≥0.95 且 法人姓名一致 → 待人工确认 → MatchConfidence = MediumR3 弱匹配:主体名称相似度≥0.90 且 注册地址相似度≥0.90 → 待人工确认 → MatchConfidence = Low合并策略:- 进入人工工作台的记录必须保留"证据":命中规则、相似度、字段差异- 合并必须可回滚:保留合并前快照与版本号- 所有决策记录MatchRule字段,便于后续规则调优12.3 存活规则模板(Survivorship Rules)

 

12.4 数据质量规则模板

 

12.5 KPI看板模板(别再用"建了平台"验收)

   

场景1:客户一号通——一个销售撞单的真实故事

【背景】

某快消企业,全国3000+销售,CRM、ERP、经销商系统各自为战。

【事故】

2024年Q3,华东区销售小王发现了一个"新客户"——"上海张三商贸有限公司",兴冲冲地跟进了三个月,眼看要签下200万年度框架协议。

就在合同即将签署的前一天,华北区销售老李打来电话:"兄弟,你抢我客户了。"

原来,这家公司在华北区的ERP里叫"张三商贸(上海)",是老李去年签的老客户,今年还有50万的应收账款没结清。

更要命的是,财务发现这家公司在开票系统里又是另一个名字——"上海张三集团",去年还有一笔坏账核销记录。

【根因分析】

CRM、ERP、开票系统各自建客户档案,没有统一身份 同一家公司在三个系统里有三个名字、三个ID 销售只能看到自己系统的数据,无法穿透

【上主数据系统后】

统一身份:基于统一社会信用代码,识别出三个系统的记录是同一家公司,分配主数据ID:MC-000567 集团穿透:发现"上海张三商贸"的母公司是"张三集团控股",与另外5家关联公司形成集团客户视图 360度视图:合并后的客户画像显示:年采购额800万、应收账款50万、历史坏账1笔、信用评级B 规则执行:新的销售机会自动分配给原客户Owner老李,小王取得协助奖励

【收益】

营销触达成本下降30%(不再重复触达同一客户) 销售撞单率下降90% 客户信用评估准确率提升,坏账率下降2个百分点 场景2:供应商主数据(合规准入 + 关联方识别)

场景3:物料主数据(编码统一 + BOM/库存/成本一致)

 

场景4:组织主数据(法人/部门/成本中心一致)

 

场景5:产品主数据(商品中心/价格/渠道一致)

   

14.1 RACI责任矩阵(可直接复用)

 

说明:R=负责执行,A=最终负责拍板,C=参与协作,I=知会。

14.2 关键角色职责

业务Data Owner:定义口径与裁决权威,对本领域数据质量最终负责,管理领域内争议。

Data Steward:日常维护与冲突处理,工单处理、质量运营、例外闭环。

IT/数据团队:MDM服务、接口/订阅、运行监控,把规则固化成系统能力。

风控/合规/审计:抽检与证据链要求,审计规则、证据链模板、整改跟踪。

14.3 制度产物(最少要有) 主数据域边界与字段权威表 ID规则与映射策略 合并/拆分/更名流程与审批链 冲突裁决与例外处理机制 分发与消费接入规范(谁必须用主数据ID) 概念与定位的坑

坑1:把主数据当成"数仓维度表"

维表是结果形态,主数据是"权威定义+流程治理+分发服务"。只建维表,源头还是乱。

坑2:一上来就想做"全域统一"

对象域越多,争议越多。先选1个高价值域跑通闭环,再扩展。

坑3:只做一次性去重,不做持续治理

去重只是开始。没有新增/变更流程,重复会以更快速度回潮。

技术实现的坑

坑4:规则只写在PPT上,没固化到系统能力

没有自动校验、审批、审计、版本,治理只能靠喊口号。

坑5:忽视层级与关系

不做层级(集团-子公司、品类-SKU),你的组织分析、商品分析、权限控制都会长期补课。

坑6:合并不可解释、不可回滚

误合并是高风险事件。一定要支持证据、审批、回滚。

坑7:分发方式单一

只做批量同步,会限制实时应用;只做API,不做订阅会增加耦合。建议两条腿走路。

组织协同的坑

坑8:没有定义"权威来源"

多源冲突时谁说了算不明确,最终变成跨部门扯皮。

坑9:把数据团队当"唯一责任方"

业务Owner不拍板,规则永远落不了地。

坑10:缺乏高层支持

MDM涉及跨部门利益协调,没有高层背书,阻力重重。

坑11:对"100%正确"有荒诞期待

要求"合并不能错一个",实际含义是"那就永远别做"。正确做法是分档处理+人工裁决+可回滚。

运营维护的坑

坑12:没有运营指标

没有KPI就无法持续投入与迭代,项目很容易"热启动、冷收尾"。

坑13:缺乏持续维护投入

MDM不是"一劳永逸"的项目,业务变化需要MDM团队迅速响应。

坑14:培训宣传不足

业务人员不理解为什么要按新标准录入数据,执行打折扣。

坑15:忽视安全与合规

集中管理的数据泄露影响面更大,"把所有鸡蛋放一个篮子"需要更严格的安全措施。

主数据最有价值的一句话,不是"我们也上了MDM"。

而是:

同一个实体,全公司只有一个身份 发生冲突,有机制裁决、有证据追溯 权威结果,能分发、能被用、能回写止血 变更可控,责任可落,审计可证

当你把它做到这四件事,主数据才真正从"概念"变成"企业能力"。

在AI时代,这个能力更加关键——没有主数据的企业做AI,就是用错误的身份喂养一个不知轻重的黑盒

主数据不是锦上添花,是雪中送炭。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询

联系客服

扫描下方二维码,添加客服

亿信微信二维码

扫码添加好友,获取专业咨询服务