计算机管理信息系统在浙江省国税系统应用已经有了10余年的历史了,随着税收信息化建设步伐的不断加快,国税机关的数据库中积累了大量的税源数据(如早期的ZT97和如今的CTAIS软件、金税工程数据等),同时征管数据的分布也由原来的区县集中过渡到地市集中,并将在年内实现全省集中。这些数据既客观地反映了企业的生产经营历史情况和现状,同时也蕴藏着企业乃至整个国民经济的发展规律和趋势。国税部门如果能以数据分析为切入点,通过对纳税人数据信息的综合分析,科学地分析税源发展的内在规律,可以预测税源发展趋势,发现税源管理中存在的问题和不足。
一、数据的分析应用存在的问题
自从实行税收征管电子化以来,特别是浙江省推行CTAIS软件以来,税收管理软件不断得到成熟与完善,但数据的分析应用程度仍然较低:
一是税收电子信息数据综合利用率较低,仅限于分类统计、静态查询的层面上,潜在效能远远没有发挥出来;
二是企业涉税信息分散在ZT97 、CTAIS1.05、CTAIS2.0、防伪税控、进出口管理等多个管理系统中,整合度不高。同时,系统所显示的信息,不能够从区域、行业等角度进行动态对比、分析;
三是税收电子信息数据格式不统一、不规范,各类应用采用了不同的数据库产品,信息交互困难,对税收 指标口径的理解各不相同,给科学利用历史数据带来不便;
四是纳税评估软件信息源不足 ,对象确定的难度和工作量成倍增加。如:新办的商贸企业用票情况、“四小票”的进项 抵扣额占同期全部进项税额50%以上的纳税户等信息,现有的管理软件都不能准确提供,影响了评估效能的发挥。
二、如何实现数据信息共享
如何以一种有效的方式逐步整理各个业务处理系统中积累下来的历史数据,并通过灵活有效的方式为各级业务人员提供统一的信息视图,从而在整个系统内实现真正的信息共享,一个比较好的办法就是先分步骤完成数据仓库的建设,再逐步开 展数据挖掘应用。
从技术上讲,浙江省国税局开展数据挖掘的条件已经成熟。因为该局已经建设了大集中系统,业务集中提供了统一的业务规范和可靠的数据质量,这为数据挖掘的实现准备了良好的数据环境。
在国外数据仓库技术在税务领域成功应用的案例为数不少,比如IBM帮助新西兰国税实施了CRM;1998年帮助加州税务启动了基于IBM DB2数据库软件的综合逃税人监察项目数据仓库解决方案(INC)项目,使加州税务能够在超过2.2亿项的独立税务信息中利用商业智能技术进行业务分析。又比如NCR Teradata已经成功地实施了包括美国国家税务局(IRS)、澳洲国家税务局(ATO )等在内的数据仓库和数据挖掘项目。数据仓库的效益仅1996年就帮助美国国家税务局追回补交税款两亿笔、增收200亿美元的税金和罚款,并进行了120万笔帐目审计。
数据仓库概念始于上世纪80年代中期,随着人们对大型数据库系统研究、管理、维护等方面的深 刻认识和不断完善,为数据仓库提出了更为精确的定义,即“数据仓库是在企业管理和决 策中面向主题的、综合的、于时间相关的、不可修改的数据集合”。以国税系统业务为例 :管理型系统围绕功能进行设计:税务登记、申请文书、购买发票、纳税申报缴款、税务 稽查等。数据仓库则针对主体:纳税人、购票纪录、缴款纪录、稽查结果等。主题的排列 次序关系数据仓库的设计和实现。管理型系统需要考虑过程的设计,而数据仓库不需要决 策分析所不需要的数据。数据挖掘是指从大量的数据库中抽取出此前还没发现的有效实用 的信息,并且此后使用此信 息来帮助制定关键的商业决策的过程。在实施过程中应充分考虑数据仓库与数据挖掘的关系:数据仓库是基础,数据挖掘是数据仓库之上的高层应用。二者需整体规划、分步实施。
针对浙江省国税系统的实际情况,将数据仓库从逻辑上分五个层面,即:源数据层、数据导入层 、数据存储与管理层、中间服务层和前端应用层。
1.源数据层包括该局的业务数据(征管系统、金税系统、出口退税系统等)、外部数据(包括工商、地税、海关等有关单位信息)和其他数据等。
2.数据导入层主要完成源数据向数据仓库系统的抽取、传输、转换和加 载,需要配备数据加载转换(ETL)服务器。由于系统涉及到数据源较多且模式复杂,需要对源数据作一些比较复杂的转换与清洗工作,较为理想的方法是在中央数据仓库中设置 一部分存储空间来作为数据转换与缓冲区,借助数据仓库引擎强大的复杂查询处理能力,通过SQL实现数据的转换与清洗。
3.数据存储与管理层是整个系统的核心,通过数据仓库统一存储和管理各种数据,这些数据通过逻辑数据模型(LDM)进行组织和重构;为了数据挖掘的需要,还可以在该层根据用户层的不同,建立相应的数据集市。
4.中间服务层主 要包括OLAP(联机分析系统)服务器、数据挖掘服务器等,OLAP技术主要通过多维的方式 来对当前的和历史数据进行分析、查询,能够很快地向业务人员提供一定范围内灵活的多 维分析报表,比传统的通过编程来生成报表的方式要快捷得多,从而实现访问方式的多样 化和信息存取的透明化。
5.应用层主要包括决策分析用户和数据挖掘用户:决策分析用户主要访问OLAP服务器或直接对数据仓库进行存取,实现随机查询、统计报表和决策分析功能;数据挖掘用户则需要利用专用的数据挖掘工具进行前端访问和开发。
该系统从用户岗位上分为基层数据处理和决策层数据处理两层。基层数据处理岗位侧重于微观数据分析处理,根据上级部门数据分析结果对单户纳税人进行纳税评估、企业信用等级评定等,偏重于税源监控分析。一是运用“税收负担率”这个指标,纵向监控企业发展变化情况,对企业的长期和短期经济情况进行分析,掌握企业的税负情况和变化趋势,发现企业 在某一时期的纳税异常问题,为税源管理提供依据;二是横向监控行业税负。在同一行业 中选择三年或三年以上通过税务稽查未发现偷逃骗税行为的依法纳税并且正常经营的企业 ,计算其税负,并作为本行业内的税负标准,与行业内其余企业的税负情况进行对比,如果高于或者低于这个比率,则说明企业纳税存在异常。然后把筛选出的税负异常的企业,运用数学统计的原理,测算出税负的偏离率,对偏离标准税负率较大的企业进行监控分析,为税源监控管理人员提供实时的相关数据,认真分析企业税负异常的原因,看看是否存在偷税行为或征过头税的行为,极大地提高了税源监控管理的针对性。
决策层数据处理侧重于宏观数据、行业数据、重点税源分析。一是进行区域税收收入形势发展预测,把握工作主动权。在数据采集过程中,要进一步扩大了信息数据来源,把统计部门的宏观经济指标纳入数据信息范围,并通过分析各类宏观经济指标,如对GDP、社会消费品零售总额、工业增加值、工业用电量等每一经济分指标,建立模型进行预测,测出单个指标对税收指标的影响,再用基于BP神经网络-回归的线性神经网络组合模型进行预测,测出多个经济指标分别对税收指标的影响,然后,再通过数学模型来确定每个经济指标对税 收指标的影响程度,综合分析这些指标和税收指标的相关弹性系数,研究宏观经济和税收之间的关联度,通过经济的发展趋势来预测税收的发展趋势, 预测一个地区或者行业的纳税能力,从而使组织税收收入工作建立在客观经济税源的基础上,把“依法治税,依率计征,坚决不收过头税”的组织收入原则落实到税源管理工作中。
数据仓库是在螺旋式开发方法学的指导下开发的,需要一个持久的过程,业部门在业务的开展过程中会不断提出新的需求,也就是说模型的开发同样也是无止境的,这将是一个不断探索、不断完善的循序渐进的过程。(作者单位:杭州市国家税务局)
(T121)