处理非结构化数据的5个步骤
相对于结构化数据而言,非结构化数据量更加巨大。非结构化数据可以粗略分为数字媒体类和文档类两种,数字媒体类主要包括声音、图像、视频等多媒体数据;而文档类主要包括文档、传真、演示文稿等数据。
据Unisys中国区客户解决方案部高级项目经理王立生介绍,企业的非结构化数据处理过程包含采集、存储、管理、展现及归档5个步骤,它们各有不同的作业目标,配套的信息技术也大相径庭,但每个环节却又互相影响,可谓牵一发动全身。采集阶段的工作目标是尽量扩大数据收集的途径,确保企业能够捕捉宝贵的信息,因此采用的技术包括影像扫描、输入设计、文字识别、聚合、索引及分类等。采集数据量大增,自然对下一个阶段“存储”构成压力。而存储的首要任务是按照数据的重要性来分类,然后分配有关的存储资源,近年来讨论甚多的“信息生命周期”或“分层式数据存储”就是用于这个步骤的一些技术方法。
头痛医头 脚痛医脚
企业不利用信息技术对数据进行有序的管理,不但不能发挥数据应有的商业价值,更有可能被海量数据“淹死”;但如果投资信息技术不得其法,又会造成公司资源浪费,数据管理效果也将事倍功半。
王立生表示,现在企业的IT和业务部门大多明白它们需要采用信息技术来管理日益庞大的商业数据,但通病是没有整体的规划,对数据处理程序的各个步骤采用“头痛医头、脚痛医脚”的治理方针,结果导致各个环节互不衔接。例如发现采集程序有纰漏,就马上增加有关的数据采集工具,而存储程序却没有相应增加资源,造成增添的数据流失;或者是管理步骤采用了新技术以提高数据的共享、交流和利用,可是展现步骤的安全技术没有跟上,使得企业的数据使用安全出现漏洞。
“假如企业对数据处理程序所作的IT投入出现资源错配的情况,公司将难以看到数据所带来的商业利益,IT投资无法取得理想的回报。问题的症结是没有一个平台让CIO站在总揽全局的高度,通盘审视如何采用信息技术优化非结构化数据的处理过程。”
头痛医头 脚痛医脚
企业不利用信息技术对数据进行有序的管理,不但不能发挥数据应有的商业价值,更有可能被海量数据“淹死”;但如果投资信息技术不得其法,又会造成公司资源浪费,数据管理效果也将事倍功半。
王立生表示,现在企业的IT和业务部门大多明白它们需要采用信息技术来管理日益庞大的商业数据,但通病是没有整体的规划,对数据处理程序的各个步骤采用“头痛医头、脚痛医脚”的治理方针,结果导致各个环节互不衔接。例如发现采集程序有纰漏,就马上增加有关的数据采集工具,而存储程序却没有相应增加资源,造成增添的数据流失;或者是管理步骤采用了新技术以提高数据的共享、交流和利用,可是展现步骤的安全技术没有跟上,使得企业的数据使用安全出现漏洞。
“假如企业对数据处理程序所作的IT投入出现资源错配的情况,公司将难以看到数据所带来的商业利益,IT投资无法取得理想的回报。问题的症结是没有一个平台让CIO站在总揽全局的高度,通盘审视如何采用信息技术优化非结构化数据的处理过程。”(T228)