随着企业IT信息化建设如火如荼的进行了数十年,大多数企业逐渐拥有了ERP、CRM、SCM等系统。在企业的这些分散的业务系统里存放着大量珍贵的数据,而这些数据对于企业而言,恰似深埋在大地中的宝藏一样,会对企业的未来发展产生至关重要的作用。于是乎企业挖“宝藏”的工作全面展开了,而这就是商业智能(Business Intelligence)。
可现实情况是这些“宝藏”零散的深埋于浩如烟海的数据之中,并非因企业有了激情和想法就能轻易获得。由于原来企业各业务系统建设的出发点,都只考虑单系统自身的完整性和一致性,当企业想从全局层次上把这些分散的系统有机的集成起来的时候,人们会发现这种工作的难度比挖矿本身还难。人们无论怎么去努力,但离“智能”的境界总是有不小的差距。在人们不断探索解决问题的过程中,元数据的出现,为那些挖掘数据宝藏者们提供了有力的支撑。
元数据(Meta Data)是关于数据的数据。当人们描述现实世界的现象时,就会产生抽象信息,这些抽象信息便可以看作是元数据;元数据主要用来描述数据的上下文信息。通俗的来讲,假若图书馆的每本书中的内容是数据的话,那么找到每本书的索引则是元数据。
元数据之所以有其它方法无法比拟的优势,就在于它可以帮助人们更好的理解数据,发现和描述数据的来龙去脉,特别是那些即将要从OLTP系统上升到DW/BI体系建设的企业,元数据可以帮他们形成清晰直观的数据流图。
元数据的概念虽然在国内刚刚被人们熟悉起来,但在国外他已经历了较长的发展历史。从上世纪60年代,人们认识到元数据的需要,到数据字典、CASE工具的应用,以及上世纪90年代数据仓库体系中元数据存储库的出现,直到现阶段国外企业以元数据为驱动的IT系统建设的方法论流行。企业对于元数据的价值越来越有深刻的体会。
元数据按其描述对象的不同可以分三大类:技术元数据、业务元数据和管理元数据。技术元数据主要用是用来描述数据实体和数据处理过程中的技术细节和处理规则。比如我们所熟知的表结构、ETL映射关系等,这类元数据主要是系统建设的技术人员使用。业务元数据主要是对IT系统的数据实体和数据处理的业务化描述,包括业务规则、业务术语、统计口径、信息分类等。我们经常提及的KPI定义和报表统计规则等就属于此类元数据。业务元数据主要的使用者是业务人员和公司决策人员。管理类元数据主要是对项目管理、IT运维、IT资源设备等相关信息的描述。这类元数据主要是企业IT部门的管理人员使用。利用此类元数据可以进行工作分配、网络资源等方面的管理。
元数据的管理方式有三种:集中式、分布式和混合式。集中式的管理方式是把原有系统中的元数据抽取出来,用一个独立的系统来集中管理。此类管理方式优点是:可高效存取信息、独立于被集成的系统和具备存储附加元数据的能力;缺点是:由于额外的执行和维护降低了ROI和实时性。
分布式管理方式是不具备独立的元数据存储库,系统实时的连接到原有的系统。这种方式的优点是:适时性比较好和能保证元数据的质量;缺点是:过度依赖于集成系统和不能存储附加元数据。
混合式元数据管理既有独立的元数据存储库又可实时的连接到原有的系统。混合式管理方式克服了集中式和分布式管理的各自缺点,同时集成了前两种管理方式的优点,既能适时的捕获和反映原有系统元数据的情况,又能让用户扩展和定义附加的元数据。图1所示为混合式元数据管理方式,目前国内元数据工具中,广州石竹计算机软件有限公司的MetaOne产品完全实现了混合式元数据管理的架构。
元数据管理目前遵循的规范为CWM(Common Warehouse Model)。该规范是由OMG组织制定的,此规范目的是能在不同的系统之中可以自由、便捷的交换元数据。CWM核心的技术有三个:UML(United Modeling Language)、MOF(Metadata Object Facility)和XMI(XML Metadata Interchange)。UML主要用来定义元模型;MOF用来提供操作元数据接口;XMI用来定义交换元数据的机制。具体的讲CWM标准包含五个包,若干个类。其构成如图2所示。
1
2
3
下一页>>