面对证券行业的激烈竞争,满足内部办公自动化和部门间便捷沟通的信息系统,已不能适应上海证券交易所的业务发展需要。2000年底, 上证所开始考虑利用交易所的独有数据,发挥其潜在价值。上证所采用两期项目从而实现了这个目的。
历史数据的加载和清洗
项目一期2002年10月~2003年10月
上证所希望通过数据仓库及数据挖掘平台的建设,提升交易所的信息化水平,有效地提高决策支持水平、市场监管水平和服务水平,促进证券市场产品创新,并更好地服务于证券信息产品的所有相关环节。
2002年10月,上证所启动数据仓库一期工程。作为上证所三大重要项目之一,数据仓库起着承上启下的作用,将与新一代交易系统、消息总线、新网站、3GSS等共同构成未来交易所的IT基础架构。上海证券交易所总经理助理、总工程师,新信息项目组组长白硕说,2002年中期,上证所开始进行严格的性能测试和专家评审。性能测试可以看作是整个项目实施过程的预演(概念验证)。本次测试数据量是国内同类测试中数据量最大的一次。通过这次测试,将来在系统建设、生产过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,降低了将来项目的实施风险。最终,上证所采用了NCR Teradata的海量并行处理技术和先进的数据仓库实施方法论。
上证所抽调精兵强将组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等,专门设立项目管理委员会,所有重大事项均通过管理委员会进行决策。根据项目内容,划分了介质、数据分析、加载、应用等多条主线。全部实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。
在科学的逻辑数据模型基础上,上证所通过恢复历史备份的数千张光盘和磁带,完成了1990年至2003年这13年交易历史数据的整合与存储。通过对多个交易相关业务子系统的处理,完成了交易相关上市公司、会员、基金、债券、指数、板块、统计数据等信息的整合。通过设计对非结构化数据的整合方案,完成了交易所7大业务部门长期积累的数百万页非结构化文档信息的存储,并且通过建立数据自动加载机制,完成了对于以后日常业务增量信息的自动加载处理。数据仓库一期完成了上证所基本信息平台的搭建。通过集中、统一的数据中心对所有结构化信息和非结构化信息的整合机制,最大程度地保证了上证所自建所以来所积累的全部历史信息,以及以后新增的所有有价值数据的完整性和可用性。这为未来数据深度挖掘分析、信息经营提供了数据来源。
1
2
下一页>>