前言

Lies, damned lies, and statistics. --Benjamin Disraeli

如果在中文搜索引擎中搜索这段话的翻译”谎言,该死的谎言和统计数据”,形形色色的中文网页会告诉你这句话是马克吐温的名言。然而在英文搜索引擎中搜索原文,可以发现这句话其实出自19世纪英国政治家本杰明·迪斯雷利。甚至马克吐温在写下这句话的时候都标明了出处:

The remark attributed to Disraeli would often apply with justice and force: 'There are three kinds of lies: lies, damned lies, and statistics。

信息的错误很多时候会闹笑话。而数据(这里我把数据定义为生产业务中使用的信息)的错误,知识的错误则会带来更大的灾难。

数据治理是最近炙手可热的一个概念。概念是什么?概念是帮助我们认识事物进行实践的工具。在我看来这个概念往上提炼有数字化转型的顶层设计,往下落地有数据中台这样的实践手段。然而新概念最让我担忧的一点,是知识错误的传播以及与之带来的坎坷学习路径。现在是信息泛滥的时代,三人成虎。知识错误的传播一方面的原因可能是一些人在求知路上没有认真思考选择盲从,另一方面则是“专家”大显神通,胡乱套用概念并自己造词。

陈丹青说在他的圈子里“专家”这个词的背后是权力和压迫。在计算机的圈子尤其是学术圈下,我认为专家这个词的背后多了一层对科学的背弃。我不反感很多技术和理念在引入国内后得到加工和重新定义。我反感的是“专家”为了自己的利益也好,或是无知自大也好对新概念的解释权进行垄断。这和写作要求以及工作性质无关,和实事求是的根本原则,以及个人道德信仰有关。

我希望能在求学路上保持严谨的态度认真思考,同时整合资料查漏补缺。所以有了这个系列想记录下我在求知过程中的心路历程,并将我的成果与大家分享交流,共同进步少走弯路。因为这是系列的第一篇,所以定义类的内容会多一些。若文中有错误请联系到我,感谢。

数据治理的定义

不同于理工科中很多术语有明确的定义以及数学表达,“数据治理”在不同的文章材料中有不同的定义。我选择了四个不同的环境/检索渠道来查阅数据治理相关资料:知网/百度学术,英文维基,谷歌学术,国内互联网大厂材料,以探寻这些不同的“数据治理”理论中的思想和定义。这其中没有个人博客和商业产品介绍,因为前者大多数是从以上四种环境摘抄下来的,后者大多数没有营养远不如大厂的材料。其实我觉得很多工作环境下,可以直接参考该环境下的白皮书/官方文档的定义。这里以学习和求知为主,也就不考虑这种情况了。

现在还有一种很 fashion 的方法,就是用数据挖掘技术以及自然语言处理技术来进行统计分析,比如抓取“数据治理”相关的文本进行分析提炼。这里我不想使用这种方法,一方面的原因是正如本文开头所说的数据在很多情况下并不可信(比如对于论文,我无法定义不同论文的权重,高引论文中的概念并不一定正确),另一方面的原因是我觉得思考、表达的价值是要大于直接套用技术的,同时我也只是初窥门径并不需要调查清楚数据治理的研究范围。接下来我会介绍上述四种环境/检索渠道下的“数据治理”。

知网/百度学术

在知网和百度学术页面中,我挑选了9篇被引量高且发表在核心期刊(C刊)中的论文进行阅读。这些文章大多数来自图书与情报专业期刊,也有计算机专业的期刊。这些文章在我看来的共同点是都很像理工科专业中的综述文章。提出方法的文章在我看来也没有对本文方法验证可行性。图情专业我不了解不好评判,理工科专业的文章就多少让我有些迷惑了,当然了计算机专业高质量的中文材料也很少会走这个渠道。不过这次我也是以了解数据治理的理论和定义为主,主要汲取理论知识所以主要的阅读求证内容也都是在文章的研究背景和提出理论相关章节。

部分文章在介绍研究背景/国内外研究情况时,列举的英文文章我谷歌学术查下来引用量很低。我将这些英文文章作者和 Data governance 一并谷歌检索也检索不到交叉信息,可见这些英文文章对于数据治理研究的参考价值很低。

这篇文章。

推荐文献(2017)

数据治理研究述评
张宁, 袁勤俭. 数据治理研究述评[J]. 情报杂志, 2017, 36(5):7.

这篇文章介绍引用的英文文章我检索下来都有一定的引用量及认可度。同时文字表达清晰,简洁明了,不像一些文章中文表达晦涩难懂,抓不住文章的重点。我觉得全篇文章没有废话,这里我直接引用该文章的两段内容。
首先是文章的摘要部分:

  • [目的/意义]数据治理是数据科学时代关注的研究课题,对数据治理的概念、体系、内容和应用的相关研究进行述评,以期将数据治理研究引向深入。
  • [方法/过程]采用文献调研法,对国内外文献进行系统脉络梳理和整体内容述评。
  • [结果/结论]目前研究主要集中在“框架模型的设计”“价值的探讨”和“不同领域的应用”等,现有研究存在“实证研究较少”“数据治理框架模型的设计欠缺优化”等问题,“框架体系”“政策标准”“成熟度模型”“数据质量”等仍是未来研究应关注的重点领域,海量异质数据的治理是未来最值得关注的新兴研究领域。

然后是文章对于数据治理的定义介绍:
“数据治理是组织中涉及数据使用的一整套管理行为。相关研究机构发布了各种有关数据治理的定义,由于切入视角的不同,一些国外学者从法案遵循的角度提出数据治理是一系列的政策和规则的定义,而一些学者强调数据治理是有关组织数据资产的决策制定和职责划分,也有诸多学者综合考虑了数据管理控制活动中的过程、技术和责任等,认为数据治理是集中人、过程和信息技术的数据管护过程或方法,能够确保组织数据资产得到合理的使用。因此,Begg 和 Caira将早期的数据治理定义总结为政策、流程、技术和职责的统一,而后期的定义中更强调角色支持和商业结构。
国内对于数据管理的有关研究活动始于 2010 年左右,类似的名词出现有数据监护、数据管理、数据策展、数据管护等,一直以来,国内在概念界定上都较为模糊,虽然都涉及数据的控制、保护和利用,但与数据治理的核心要义还是有一定的区别,除少数以外,多数学者在应用时对数据治理的概念均不加以解释和说明,认为数据治理与数据管理类似,都是有关数据生命周期的诸如采集、加工、控制、传输、保存等活动。
由此发现国外的概念虽然在表述上有一定的差别,但核心内容上均具有一些共同点,而国内的概念使用却较为混乱,相关学者还未达到共识,并且多数研究都未触及数据治理的本质。数据治理不仅是通过数据的管理提升数据质量,更强调流程设定和权责划分,我们认为数据治理是围绕数据资产展开的系列工作,以服务组织各层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合。”

以上这段文字很好地介绍了国内外关于数据治理的定义。这是一篇2017年的文章,这个时间点互联网圈数据中台的概念正悄然升起(2016年阿里巴巴率先提出数据中台)。我查了一下文章发表的期刊《情报杂志》属于图情专业B类核心期刊(是C刊),文章的质量我觉得比其他几篇A类核心期刊的文章要好很多。如果想了解数据治理的研究情况强烈推荐阅读这篇文章。

定义

数据治理是组织中涉及数据使用的一整套管理行为。数据治理不仅是通过数据的管理提升数据质量,更强调流程设定和权责划分,我们认为数据治理是围绕数据资产展开的系列工作,以服务组织各层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合。

英文维基

定义

Data governance encompasses the people, processes, and information technology required to create a consistent and proper handling of an organization’s data across the business enterprise. It provides all data management practices with the necessary foundation, strategy, and structure needed to ensure that data is managed as an asset and transformed into meaningful information.

数据治理的学科

数据治理是商业企业的成套管理手段,目标是让数据能作为资产管理。词条中只有在上述语句中提及信息技术(information technology),也没有提及任何 computer science,data science,software,big data。而词条中大量提到了管理(management)以及一些管理学方法,比如大名鼎鼎的 Six Sigma。也就是说“数据治理”是作为一个管理专业术语和方向,注重管理学中的方法理论。而国内很多资料喜欢把数据治理和大数据技术混为一谈,是属于一次性把所有热度都蹭到了。当然我觉得如果缝合能解决实际问题也未尝不可,只是需要注意国内外以及学术圈内外对于“数据治理”定义表述的区别。然而真正解决了问题的互联网公司对于名称术语的使用都会非常严谨,反倒是本该严谨的学术圈有时会乱用术语。毕竟前者很多是先做好产品再编写文档资料,后者很多是凭空写出资料。

谷歌学术

在谷歌学术检索结果中我挑选了以下几篇具有代表性的文章/书籍进行介绍。挑选的依据是引用量、内容、发表的期刊。对于并不熟悉的领域,我觉得引用量和期刊是一个很好的参考指标。《数据治理研究述评》这篇文章中也有介绍2017年前的国外研究情况。

推荐文献(2010)

Designing data governance
Khatri V, Brown C V. Designing data governance[J]. Communications of the ACM, 2010, 53(1): 148-152.

Data governance 下引用量最高,远远超过其他文章。文章虽然发表在计算机科学学科下的期刊,但是内容在我看来是管理学范畴的。一作的单位是凯莱商学院 (Kelley School of Business at Indiana University)。考虑到这篇文章的经典地位,这里展开介绍文章内容。

从文章中可以看出 “data governance” 2010年左右可能更接近 data 和 governance 两个单词的组合,而不是一个研究方向或者一套成熟的理论体系。类似的还有 “data wharehouse governance”、“information governmance”、“IT governmance”,这些的重点都在 governance。同时作者认为企业 governance 不仅在于提升经济效率和经济增长,更在于加强公司企业信心(corporate confidence)。

在进入正题之前作者先对一些概念做了定义和区分。治理(governance)强调应该做什么样的决策以及谁去做决策;管理(management)强调执行决策。IT 资产(IT asset)定义为设备和技术;信息资产(information asset)定义为有价值的文档,在本篇文章中信息和数据是等价的,也就是说数据资产(data asset)等价于信息资产(information asset)。作者这里提到的这些概念,是为了从旧的研究(比如 IT governance,data management)中继往开来,提出对于数据资产的数据治理模式。作者强调流程中要确定每个步骤的责任人,责任点(locus of accountability)这个词贯穿文章始终同时用斜体打印。

文章的核心内容是把数据治理研究抽象了为五个域,图片如下:
designing data governance

整理除了每个域存在的问题/研究内容,并拟定了责任点(locus of accountability)/需要负责的角色。这里就不一一展开了。作者还给出了数据治理中心化和去中心化的建议,如图:
governance matrix

像数据治理原则(Data Principles)这样的核心规则,作者建议要在企业内部高度集中管理,统一制定规则;而数据治理,元数据这样对于不同业务部门专业性较强的内容,建议分权交给各个部门管理制定规则。最后作者建议要配合适当的激励手段和奖励机制,让数据治理可以在公司的个部门下执行下去。

这篇文章虽然经典,但是能从作者的措辞用语中看出更多的是在探索阶段,比如全文最后一句话:
“The proposed framework also provides a common terminology that can be used by researchers to share their findings with other members of the IS community.”

文章中也多次提到了信息系统(information system,IS),在我看来很多框架的设计都是为了适配当时的信息系统,毕竟文中提到的数据也好,信息也好,都是信息系统中的产物。然而信息系统这几年的迭代升级突飞猛进,所以如果抱着寻找落地实践方法的心态来这篇文章中寻找答案,给予到的帮助可能有限。但是这篇文章我仍觉得是有意义的,读者可以从中感受到企业逐渐重视数据的启蒙阶段,了解到最初的数据治理框架思想。

定义

Data governance refers to who holds the decision rights and is held accountable for an organization’s decision-making about its data assets.

推荐文献(2020)

Data governance: Organizing data for trustworthy Artificial Intelligence
Janssen M, Brous P, Estevez E, et al. Data governance: Organizing data for trustworthy Artificial Intelligence[J]. Government Information Quarterly, 2020, 37(3): 101493.

挑选这篇文章的原因是摘要乍一看要素齐全:data governance,big data,AI。同时是最近两年(2020年后)引用量最高的文章。再读内容也不错,文章在数据治理的经典定义中引入了数据和算法。认为管理的视野除了聚焦在数据上,还要吃透存储数据的系统以及使用数据的算法。
Data governance should focus not just on data, but on the systems through which data is collected, managed and used.

要注意这篇文章依旧是一篇管理学的文章,文章后续的内容也都是管理学相关的。期刊 Government Information Quarterly 的 Cite Score 排名优秀。
Government Information Quarterly

中科院分区下属于图情专业(INFORMATION SCIENCE & LIBRARY SCIENCE)2区非top期刊。Cite Score专业排名第一第二在中科院是2区非top也是蛮神奇的。在中文搜索引擎下找不到对于这个期刊的讨论,应该是国人很少投稿的期刊。非理工科类的期刊情况我也不太了解。

文章介绍的AI算法大数据系统下的数据治理框架,这里就不展开了。我觉得类似内容如果牵扯到实践的话,也是企业的材料更有说服力。

定义

Data governance is about allocating authority and control over data and the exercise of such authority through decision-making in data-related matters.
We define data governance as: organizations and their personnel defining, applying and monitoring the patterns of rules and authorities for directing the proper functioning of, and ensuring the accountability for, the entire life-cycle of data and algorithms within and across organizations.
This definition takes into account both data and data processing by AI and other algorithms, considers that both data and algorithms change during their respective life-cycles, accounts for the personnel responsible for creating and use of data and algorithms, and adopts a systems (multi-organizational) view.

推荐文献(2019)

Data governance: A conceptual framework, structured review, and research agenda
Abraham R, Schneider J, Vom Brocke J. Data governance: A conceptual framework, structured review, and research agenda[J]. International Journal of Information Management, 2019, 49: 424-438.

2019年后引用量最高的文章。作者的学校也是第一次听说,列支敦士登大学(University of Liechtenstein)。上一篇的 Government Information Quarterly 期刊是图情专业排名第二,这篇的期刊 International Journal of Information Management 排名第一的来了。这次是中科院分区下图情专业(INFORMATION SCIENCE & LIBRARY SCIENCE)1区top期刊了。
INTERNATIONAL JOURNAL OF INFORMATION MANAGEMENT

这篇文章厉害了,摘要中:
“Despite data governance gaining in importance in recent years, a holistic view on data governance, which could guide both practitioners and researchers, is missing. In this review paper, we aim to close this gap and develop a conceptual framework for data governance, synthesize the literature, and provide a research agenda. ”

开篇就指出目前数据治理的概念在全局观上有缺失,同时提出文章的三个目标:提出数据治理的概念框架;整合文献;勾勒研究议程。文章先进行的内容是整合文献,使用了应该是图情专业的检索统计技术,挑选2001年~2019年4月时间范围内145篇有价值的数据治理文献进行整合分析。下图是这些文献的时间分布:
Fig. 2. Number of publications per year

下面的表格是具体的文献名单,作者按照科学(理论)类和实践类进行了分类。
Table 2 Sources for state-of-the-art analysis

科学类是发表在期刊和会议上的文章,实践类是是书籍以及协会机构,软件供应商发表的材料。

在这些文献中,作者并未找到统一的“数据治理”定义。作者分析了每一篇文献的定义,最后得出了自己的总结:数据治理特指以企业数据作为战略资产管理为目标,所需要的跨部门数据管理框架。为了达成这个目标,数据治理要求在数据决策的生产工作过程中,将决策权和责任落实到人。此外,数据治理需要相应的数据政策、标准、程序正式化并监控流程执行的合规性。这段定义我可能翻译的不太好,英文原文还是比较容易理解的放在本小节最后的定义中了。

同时作者将文献中所有的“数据治理”的定义按照特征/元素分为六类,并附上了对应文献的摘抄和出处。

Table 3 Definition elements of data governance.

这六个类别的特征/元素分别是:

  • Cross-functional 数据治理是跨部门的
  • Framework 数据治理是一种框架
  • Data as a strategic enterprise asset 数据治理认为数据是企业的战略性资产
  • Decision rights and accountabilities for an organization’s decision-making about its data 关系企业决策
  • Data policies, standards, and procedures 数据相关政策、标准、流程
  • Compliance monitoring 流程执行合规性监控

对于这六个特征,原文中也要详细的解析这里先不展开了。之后作者提出了数据治理的概念框架,如下图。
Fig. 4. Concepts within the conceptual framework for data governance.

这张图也是根据挑选出的145篇文献进行整理制成。作者提出概念框架,是为了拆分出数据治理的基本要素(building blocks of data governance)。这张图可以理解为数据治理研究概念被划分为六个维度:

  • Antecedents 数据治理的前置因素
  • Organizational scope 数据治理的组织范围,可扩张性
  • Governance mechanisms 数据治理的核心架构
  • Data scope 数据治理的数据类型
  • Domain scope 数据治理的数据域
  • Consequence 数据治理的成果体现

我翻译的不一定准确,其实看图中的细分范围更容易理解这六个维度的内容。著名的研究内容比如元数据(Meta data)在 Domain scope 维度下,主数据( Mastwe data )在Data scope 下,核心的 Governance mechanisms 包含了很多管理学的内容。作者后续对图中列出的每一个研究内容进行了介绍,内容主要是145篇文献的研究情况,这里不再展开。作者认为提出的概念框架还可以帮助实践,比如可以按照上图中的顺序按部就班地对自己公司的状况进行分析研究。

最后作者勾勒了数据治理的研究议程:
Table4Research agenda for data governance.

可以看到这是对之前概念框架六个维度的压缩(合并了三个范围)。作者认为这四个是将来数据治理的研究范围,并且对每个范围提出了现存问题作为有潜力的研究内容。可以说这篇文章清晰细致地剖析了“数据治理”的研究内容并用专业的技术对其抽象重构。后人面对海量参差不齐的文献和似是而非的概念时,可以根据概念框架站在巨人的肩膀上获得全局视角,是做到了这篇学习笔记想做但是没能力做到的事情。这篇文章还是非常值得一读的。

定义

Data governance specifies a cross-functional framework for managing data as a strategic enterprise asset. In doing so, data governance specifies decision rights and accountabilities for an organization’s decision making about its data. Furthermore, data governance formalizes data policies, standards, and procedures and monitors compliance.

国内大厂材料

在阅读完各类文章文献后,可以切实地感受到数据治理是出自企业实际生产管理需要的。那高分的答卷必然需要由企业提交。同时我们身处国内的环境讨论数据治理实践方法,肯定是国内大厂的材料最具参考价值。网上能找到很多大厂的材料,我这里简单分享下自己阅读过的相关材料。另外这部分内容中,没有数据治理的定义同时数据中台多次出现。因为这些大厂都是将数据治理和数据中台作为方法论和实践办法一并打包销售推广的,也避开了数据治理的定义毕竟每个客户心中都有自己的数据治理。可以说在这些场景下数据中台等于数据治理最佳实践。就像开篇提的那样,我认为在数据治理往上提炼是数字化转型的顶层设计,往下落地是数据中台作为实践手段。比如说经过对学界文献的阅读我们可以知道确定数据在各个流程的责任人很重要,那数据中台的权限管理模块就可以直接将相关的管理理论落地。

阿里

阿里应该是国内最早推广数据治理+数据中台理念的大厂了。在数据中台方面,阿里在2016年时就提出了 OneData 和 OneService 这样的核心方法论领跑业界(暂不清楚国外的状况是怎么样的)。OneData和OneService 的意思是数据只加工一次同时数据即服务,没有趟数据治理理论的浑水而是自己提出了实践体系。对于数据治理理论中强调的数据资产属性,OneData也是给出了自己的答卷:数据按照统一规范标准只加工一次,即成为资产而不是成本。资产和成本的差别在于资产是可以沉淀,可以被复用的,而成本是消耗性质的、是临时的、是无法被服用的。

阿里有一套阿里巴巴集团技术丛书,其中和数据治理相关的内容在《大数据之路》这本书的第三篇数据管理篇,本书其他篇章都是技术实现相关内容。阿里另外还有一本《大数据大创新:阿里巴巴云上数据中台之道》,介绍了数据中台的设计理念。书籍的目录可以在豆瓣找到。顺带一提阿里的书定价和外文书籍接近,也算是国际接轨了。

网易

网易我找到的材料是数据中台相关的,极客时间郭忆的专栏。这篇专栏按照作者的说法提供了:

  • 一线互联网公司数据中台的实践经验
  • 大量实践案例讲解如何躲过数据中台建设的那些坑
  • 可落地执行的数据中台建设方法
  • 经过实践的数据中台支撑技术体系

在这篇专栏中,作者认为数据治理,是数据中台建设中的一部分。数据中台的核心包括OneData和OneService(阿里的提出的理念),而OneData的内容很大程度与数据治理的内容是重叠的。在我看来专栏作者应该是不了解学界对于数据治理(data governnance)的定义,考虑到这些定义我的看法是数据治理和数据中台在概念上是相交的两个集合。

专栏使用的语言通俗易懂结合大量实例,我最先读了华为的数据治理理论一头雾水,读完这篇数据中台相关内容的专栏后就觉得豁然开朗。专栏中认定数据治理模块作为数据中台的核心组成部分。该模块以元数据中心为基础,在统一了企业所有数据源的元数据基础上,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理。元数据中心提供数据治理必须的数据支撑。

专栏还有让我比较舒服的一点是介绍了从数据仓库发展数据中台的环境变化,这里就不展开了。另外作者也提到了想要推进数据中台,各个部门尤其是和业务部门之间的协作很重要。

华为

学习的材料是《华为数据之道》。这本书序言中对自身的定位是:从数字化转型的角度切入,输出数据治理方法论,推销了自家数据湖的产品,可谓是要素齐全了。这里引用下原文:“本书是华为视角的数据治理总结,其中的内容都是华为在数字化转型实践中的经验和教训。”这本书内容的抽象程度我觉得比学界的论文还要高。华为对于数据治理提出了三项重点建设和三项关键能力。重点建设信息架构、数据底座、数据服务,打造数据的全量感知能力、综合质量提升、可控共享。数字化转型x项举措,其中最关键的数据治理x项原则,类似概念性的条例实在太多了有时候会觉得这本书是不是设计出来给自家员工考试用的。我这里就挑这本书中和数据治理相关可以出选择题的语句进行摘抄。

  • 2.1.3“数据同源是华为数据治理的核心观点之一”,但是数据治理其他的核心观点是什么,我找遍了全书也没找到。
  • 2.1.4“数据质量的持续提升是华为数据治理的核心目标”。
  • 6.2.1“数据地图作为数据治理成果的集散地”。
  • 6.4.3“数据治理达到了数据清洁的目标”。
  • 9.2“数据进底座、生成“数据地图”“数据随需共享”,成了华为数据治理的主要目标,让数据充分共享并为业务带来价值则是数据治理的主题。”
  • 10.4.1“本书前面谈到的数据治理,其核心应该是在一个企业内部对如何描述业务的数据语言形成统一的认知,遵守统一的原则,这样可以大幅降低企业的数据处理成本,提升交流沟通效率,促进对未知事物的认知。”

调侃归调侃,但是我的确不知道如何更好地介绍这本书的内容以及思想,因为这本书的确有太多的祈使句了。当然我是以计算机专业背景,理工科的角度来看这本书。不同的角度读这本书的收获可能会不同。建议不要以理工科的角度来读这本书,我觉得这本书也不能被分类在计算机科学与技术下,毕竟书的读者对象是企业管理者,IT架构师

阅读本书时我的建议是前几次不用跟着顺序阅读,看着目录需要补充哪方面的知识就直接翻到那一页否则容易被各种概念定义绕晕。这本书给我的感觉也是反复阅读揣摩多次之后一次比一次更清晰一些。同时必须聚焦在一两个个小节进行阅读,就当这本书只有这一小节先不要把全局的概念带入。对我来说这本书是在反复阅读才能逐渐清晰起来的。等到我继续多读了几遍后,再以专题的形式解读相关内容吧。

总结

这篇笔记从各个角度切入,整理了数据治理的定义和概念。如果真的想准确地定义数据治理是什么,我觉得答案取决于你所在环境。毕竟在学界和业界,哪怕是不同公司内数据治理可以说是被赋予了不同的涵义。对于我个人,我心中最佳的答案还是

Data governance specifies a cross-functional framework for managing data as a strategic enterprise asset. In doing so, data governance specifies decision rights and accountabilities for an organization’s decision making about its data. Furthermore, data governance formalizes data policies, standards, and procedures and monitors compliance.

这段话。

我不喜欢过于抽象的理论,尤其是当这个理论具有重要实践价值的时候。理论的抽象程度拉高了这门理论的逼格以及入门的门槛,但是若这门理论有实践意义时,必定会有许多新人加入理论的学习同时他们的焦点在于如何实践而不是浮于表面。过于抽象的表述会阻碍知识的传播,会让一些人对理论的态度变得简单粗暴,就像在学校中时一些学科需要靠死记硬背通过考试。

当然我觉得无论我们怎么去定义数据治理,给我们的工作成果取什么样的名字,核心还是在于使用的理论和技术是否解决了问题。这篇笔记在概念层对很多文献材料进行了阅读比较,可以说是帮助笔者自己理清了数据治理的概念。这一期的笔记整理了数据治理的定义,下一期笔记就要进入数据治理的具体工作了,暂定先从元数据和主数据着手。如果你也在研究数据治理相关的内容,欢迎一起交流探讨,谢谢!

Q.E.D.