前言

过了一遍学习笔记01,发现很多内容都是在介绍治理框架。毕竟数据治理研究的内容就是提出一套自己的管理理念概念框架,早期的研究也是拿别的管理框架套用到数据上。“治理”的概念补全了,那“数据”在概念上又可以如何划分呢?如果说“治理”是经典管理类学科的理论底座,那“数据”则是连接现代化企业运营、信息技术底座的重要纽带。所以在正式进入元数据管理、主数据管理章节之前,我们先理清数据可以如何分类。

企业与数据

首先数据治理涉及的数据都是企业级数据,数据作为企业的生产要素/战略资产存在。先简单回顾一下数据治理,Data Governance 是怎么在国外发展起来的。在1990年数据仓库的理念被提出后,数据治理就经常以“数据”加上“治理”的词语组合方式被提及。早期的数据治理没有形成理论体系也不能作为术语,是一个商业化的词语组合出现在许多公司的咨询类、商务类文档中。1995年, IBM梳理并制定了业务数据标准, 定义了15大类业务标准、79个分类子业务标准, 这样公司看到的是一个统一的业务定义;2004 年,IBM制定了数据责任人体系,并联合业界多家公司和学术研究机构,成立了数据治理论坛,制定包括四大领域11个要素的数据治理框架和方法,来指导数据治理工作的开展。 2005年成立了数据治理委员会,之后又成立数据审核委员会。通过数据治理,IBM 简化了基础架构,并降低了管理的复杂度。同样在上世纪末,摩托罗拉提出了六西格玛管理策略,包含定义、测量、分析、改进、控制的 DMAIC流程,初期用于解决产品/服务质量问题,后来也在解决数据质量方面得到 很好的应用。2014 年,CMMI 协会(CMM institute)发布企业数据管理能力成熟度模型 Data Management Maturity(DMM)。该模型的基本原则、结构和证明方法沿用了能力 成熟度集成模型(CMMI)的重要内容。其主要思路是提供标准化、结构化的的实 践框架,让组织建立自己的数据管理成熟度路线图,并使用这个路线图来 评估企 业或组织的数据管理整体水平,提升数据管理关键环节的能力, 帮助企业或组织 架起业务与 IT 之间的桥梁,有效地组织和管理其关键数据资产,从而强化企业数 据治理能力,促进企业数据管理水平的提升。随后一些学者将实际问题进一步抽象,转换为学术问题进行研究。然而这些早期的文档和研究虽然都冠以数据治理的名称,其中的研究内容和研究对象不尽相同。大多数数据治理研究可以达成共识的是,数据治理的根本目的是提高企业的运营效率。

本篇笔记中的定义和内容以《华为数据之道》为主线,再去笔记01中其他文献材料查缺补漏。《华为数据之道》的英文名就是 ENTERPRISE DATA AT HUAWEI 。虽然在上篇笔记中吐槽过华为在书中的祈使句,但就数据治理理论体系这一块比较下来的确华为的内容和理念最精细、最成体系。华为的目录也写的比较理性,看目录能明白每一章是在讲什么有些书的目录就比较感性章节名称像小说段落名。就像华为在书中说的,华为是非数字原生企业(不是互联网公司),在数字化转型过程中面临更大的挑战,也有着更丰富的经验。

另外让我比较舒服的一点是,书中没有拿数据治理去碰瓷大数据:数据治理就是数据治理,大数据就是大数据。不是数据量大就是大数据,大多数公司的实际情况也是更需要数据治理而不是大数据技术。现在看到大数据这三个字都有些PTSD了,这本书多读几遍还是让人觉得亲近随和的。

数据分类

对数据进行分类的目的是正对不同特性的数据采取不同的管理策略,以期实现最大的投入产出比。华为的数据分类管理框架如下表:

数据分类名称 定义 特征 举例
External Data(外部数据) 公共领域获取的数据 客观存在,其产生、修改不受我司的影响 国家、币种、汇率
Internal Data(内部数据) 企业内经营产生的数据 在企业的业务流程中产生或在业务管理规定中定义,受企业经营影响 合同、项目、组织
Structured Data(结构化数据) 可以存储在关系数据库里,用二维表结构来表达实现的数据 1.可以用关系型数据库存储
2. 先有数据结构,再产生数据
国家、币种、组织、产品、客户
Unstructured Data(非结构化数据) 形式相对不固定,不方便使用数据库而为逻辑表来表现的数据 1.形式多样,无法使用关系型数据库存储
2.数据量通常较大
网页、图片、视频、音频、XML
Reference Data(基础数据) 用结构化的语言描述属性,用于分类或目录整编的数据,也称作参考数据 1.通常有一个有限的允许/可选值范围
2.静态数据,非常稳定,可以用作业务/IT的开关、职责/权限的划分或统计报告的维度
合同类型、职位、国家、币种
Master Data(主数据) 具有高业务价值的、可以在企业内跨流程跨系统被重复使用的数据,具有唯一、准确、权威的数据源 1.通常是业务事件的参与方,可以在企业内跨流程、跨系统重复调用
2.取值不受限于预先定义的数据范围
3.在业务事件发生之前就客观存在,比较稳定
4.主数据的补充描述可归入主数据范畴
实体型组织、客户、人员基础配置
Transactional Data(事务数据) 用于记录企业经营过程中产生的业务时间,其实质是主数据之间活动产生的数据 1.有较强的时效性,通常是一次性的
2.事务数据无法脱离主数据独立存在
报价单、支付指令、主生产计划
Observational Data(观测数据) 观测者通过观测工具获取观测对象行为/过程的记录数据 1.通常数据量较大
2.数据是过程性的,主要用作监控分析
3.可以由机器自动采集
系统日志、物联网数据、运输过程中产生的GPS数据
Conditional Data(规则数据) 结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据 1.规则数据不可实例化,只以逻辑实体形式存在
2.规则数据的结构在纵向和横向两个维度上相对稳定,变化形式多为内容刷新
3.规则数据的变更对业务活动的影响是大范围的
员工报销遵从性评分规则、出差补助规则
Report Data(报告数据) 是指对数据进行处理加工后,用作业务决策依据的数据 1.通常需要对数据进行加工处理
2.通常需要将不同来源的数据进行清洗、转换、整合、以便更好地进行分析
3.维度、指标值都可归入报告数据
收入、成本
Meta-data(元数据) 定义数据的数据、是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息 是描述性标签,描述了数据(如数据库、数据元素、数据模型)、相关概念(如业务流程、应用系统、软件代码、技术架构)以及它们之间的联系(关系) 数据标准、业务术语、指标定义

表格中数据的分类并不是按照一个维度来进行划分的。外部数据/内部数据,结构化数据/非结构化数据,分别为两个分类维度,默认基础数据、主数据、事务数据、观测数据、规则数据、报告数据都为结构化数据。元数据是表格中比较特殊的一类,是定义数据的数据比如表格中的“定义”,“特征”这类列名,在下篇笔记中再详细介绍。以这张表格为例,因为可以被二维表结构来表现,所以这张表格是结构化数据,第一行的列名是元数据。单独看每一列的单元格中数据,“数据分类名称”这一列的数据有有限的取值范围,属于基础数据。如果把这张网页作为数据的话,那这张网页就是非结构化数据(其实更符合半结构化数据的定义)。可以给这张网页打上标签,比如说“网页”,“博客”,“笔记”,那这些标签就是非结构化数据的元数据。至于为什么不能被算作规则数据,会在规则数据的小节中介绍。

内部数据/外部数据

大多数研究都是针对内部数据展开的,笔记01中的文献没有研究外部数据治理。在华为的理论中,外部数据治理和内部数据治理的目的不同,内部数据聚焦成本效率,外部数据治理的出发点是合规。外部数据治理的原则是:

  • 合规有限
  • 责任明确
  • 有效流动
  • 可审计、可追溯原则
  • 受控审批
    这五条除了有效流动是指外部数据要在企业内部流动共享,其他都是合规的体现。外部数据的责任主体有权决定外部数据是否进入数据湖/数据中台,同时要告诉数据使用方使用规则/约束。

结构化数据/非结构化数据

非结构化数据的存储、检索、数据分析、元数据管理都是目前比较前瞻的领域。也正是非结构化数据将本来“数据xx”的研究升级为“大数据xx”。而且对非结构化数据的研究,一般也会具体到图像的研究,音频的研究,文档的研究。笔记01的文献没有研究非结构化数据治理。华为定义非结构化数据治理的核心是对其基本特征与内容进行提取,并通过元数据落地来展开。元数据依托数据地图,可以实现企业对非结构化数据的搜索、查询。

特征内容提取,往计算机技术上来说的话,就牵扯到计算机视觉,自然语言处理等技术了。华为的元数据管理平台通过两条线来实现非结构化数据的元数据管理和使用。

第一条是“基本特征元数据流”。在采集元数据后按照管理规范存储在元数据管理平台。第二条是“内容增强类元数据流”。基于非结构化数据内容的上下文语境,由数据分析项目组解析目标的数据内容,再通过“基本特征元数据流”的步骤将元数据存放在元数据管理平台。第二条比第一条在流程图上多了自然语言处理模块,其实在我的理解里由摄像头,麦克风等采集的非结构化数据是没有上下文可以给到自然语言处理模块机进行数据分析的。另外从华为物联管理平台的资料中得知,终端数据采集设备采集到的非结构化数据有两条处理途径。一种是直接存储在对象存储中;另一种会通过图像分析设备和视频分析设备从非结构化数据中得到分析结果,再通过边缘物联代理,物联管理平台接入数据中台。那这时候接入数据中台的数据可能就是包含上下文的非结构化数据或者结构化数据了。在这本书中,非结构化数据是通过虚拟连接技术实现统一入湖/数据中台。我在书中和互联网上并没有找到华为对虚拟连接技术的定义。

非结构化数据的数据治理落地的案例应该比较少,让我想到了最近比较火的另外一个概念 DAM 内容中台。以后有机会可以多查阅一些文献资料,来介绍这类模式。

结构化数据又可以分为基础数据、主数据、事务数据、观测数据、规则数据、报告数据。

基础数据

基础数据是预先定义的分类数据,可选值有限可以作为业务或程序的开关和判断条件,举例有合同类型、国家、币种。基础数据在笔记01阿里系的数据中没有提及,在英文文献中属于 Data scope 的研究范围没有展开。华为系认为基础数据治理的重点在于变更管理和统一标准管控。因为基础数据作为开关和判断条件在其取值发生变化时,业务流程和 IT 系统都要进行相应修改。

基础数据

华为给了两张图,分别是不像实例的案例分析和只有框架的框架图。因为没有实例我也不去猜他的意思了,如何落地就仁者见仁了。

主数据

主数据管理是数据治理的最重要的组成部分之一,也是企业的高价值业务数据。在一些数据治理的理论和框架中可能数据治理只分为主数据管理和元数据管理。阿里中台的理念“OneData”,华为的“数出一孔”都是围绕主数据展开的。阿里“OneData”致力于实现数据的标准和统一,让数据真正成为资本而非成本。华为主数据管理的核心是确保同源多用和重点进行数据内容的校验。主数据管理也等到下次的笔记中详细展开介绍。

事务数据

事务数据是业务数据的记录,特点是具有较强时效性通常事件结束后不再更新,举例有报价单、支付指令。基础数据在笔记01阿里系的数据中没有提及,在英文文献中属于 Data scope 的研究范围没有展开。华为系认为基础数据治理的重点是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。

华为的书里对事务数据的篇幅也很短。事务数据治理需要明确的是哪些属性是引用其他业务对象的,哪些是自身特有的。另外引用的数据要尽可能调用而不是重新创建。

观测数据

观测数据在华为以外的资料中都没有被提及。华为对观测数据的定义是是通过观测工具获取,其实我觉得无论描述还是举例,观测数据都更像是非结构化数据。华为认为观测数据治理的核心是观测对象要定义成业务对象进行管理。比如销售页面埋点的观测数据管理方案要遵从相关业务部门的管理方案;页面点击量的观测数据管理要归属到IT部门。

华为将观测数据的感知方式分为软感知和硬感知。软感知是软件收集数据(埋点、日志收集、爬虫),硬感知是通过硬件收集数据(传感器,视频监控器)。这个定义其实蛮奇怪的,如果爬虫收集的数据,不应该是遵从外部数据管理么。硬感知的话,视频图像数据也是非结构化数据管理。不过的确书在这里也说了,观测数据治理的核心是根据感知方式不同采用不同的管理方案。总之单独列出一个观测数据的分类同时算在结构化数据里,我觉得有些奇怪。可能对于大多数数据都是观测数据的基础设施类企业或者运维类业务,观测数据治理有非常成熟的方案了并且是公司的核心制度之一。但是对于一些商务公司销售类企业,观测数据很少所以要使用不同感知方式或者不同部门的管理方法。

规则数据

规则数据在华为以外的资料中都没有被提及。华为认为观测数据治理的核心是数据必须有唯一的数据 Owner,其负责展开规则数据的信息架构建设与维护、数据质量的监控与保障、数据服务建设、数据安全授权于定密等工作。也就是说只能有一套权威的规则,并且明确有人为这个规则站台。

规则数据的特征是:

  1. 规则数据不可实例化
  2. 规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据
  3. 规则数据的结构在列和行两个维度上相对稳定,变化形式多为内容刷新
  4. 规则数据的变更对业务活动的影响是大范围的。

因为这个特征2,所以本文中数据分类的表不能被算作规则数据,因为表内只有决策结果(属于结构化数据,非结构化数据)但是并没有判断条件(比如数据是否可以用二维表表现)。对于规则数据不可实例化这一点,我不太清楚如何在数据治理的范围内去解释,目前也找不到能进行解释的材料。另外华为还定义了业务规则,规则变量一系列的概念。业务规则可能就是本文表格中说的大白话,通过抽象为规则变量(我理解为判断条件),就可以结构化为规则数据。书中给的实例是:

  • 业务规则:员工报销遵从性评分规则
  • 规则变量:员工报销遵从性评分卡
  • 规则数据:员工报销遵从性规则数据
    华为定义一个业务规则可以包含零个、一个或者多个规则数据,一个规则数据在信息架构上对应一个逻辑数据实体、在物理实现上一般对应一个物理表。都有对应的物理表了规则数据还不可实例化,所以我也不太理解这个定义和特征,后续也找不到解释的资料了。

报告数据

最后一个出场的报告数据依旧只存在于华为体系中。报告数据是指对数据进行处理加工后用作业务决策依据的数据,支持报告和报表的生成。具体可以分为用于报表项数据生成的事实表、指标数据、维度和用于报表项统计和计算的统计函数、趋势函数及报告规则等。这些概念我觉得有些抽象,书里也没给实例以及具体的治理方案。鉴于这篇笔记是数据治理学习笔记,这些概念我就不再搬过来介绍了,

总结

其实在很多数据治理理论和实践中只有元数据管理和主数据管理这两块。华为梳理的最细列出了各种数据分类,其实一些内容在别的理论框架中也能被整合入元数据管理和主数据管理。整理下来发现其实非结构化数据和外部数据也是非常值得下钻的,毕竟这两个和大数据的范围完美契合。前瞻性的研究很多,会需要调查很多文献和材料,以后有机会也详细介绍下这两块的研究情况吧。下次笔记的内容应该是元数据管理了。

Q.E.D.