数据仓库与智能卡应用系统
来源:中国一卡通网 作者:创峰金安公司 杨升 发布时间:2007-05-23 10:00:27 字体:[大 中 小]
关键字:数据仓库 智能卡
摘 要:数据仓库是近年来兴起的一种新的数据库应用。“数据仓库”一词最早出现于20世纪90年代初,目前已趋于成熟。据IDC调查,数据仓库的平均投资回报率(ROI)已超过400%。数据仓库技术与互联网技术一样,正在成为最快的IT增长点,并日益紧密地与智能卡应用技术相结合。
1.前言
随着全球一体化进程的加剧和我国加入世贸组织,对我国政府及企业的管理工作提出了更高的要求。因此,充分利用现代信息科技技术,自动快速获取有用的决策信息,为企业提供及时、准确的决策支持,已成为大多数成功企业及政府部门的共识。
数据仓库是近年来兴起的一种新的数据库应用。“数据仓库”一词最早出现于20世纪90年代初,目前已趋于成熟。据IDC调查,数据仓库的平均投资回报率(ROI)已超过400%。数据仓库技术与互联网技术一样,正在成为最快的IT增长点,并日益紧密地与智能卡应用技术相结合。
2.数据仓库
传统的数据库技术是以单一的数据资源,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。
随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术。作为决策支持系统,数据仓库系统包括:
1)数据仓库技术;
数据仓库是适合知识发现的过程的结构。数据仓库的处理过程是从“数据清理/整合——>数据仓库——>数据选择——>数据挖掘——>模式评价——>知识”不断循环的过程
2)联机分析处理技术;
联机分析处理是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
3)数据挖掘技术;
从大量的、不完全的、有噪声的、模糊的、随机的实际应有数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是在没有明确假设的前提下去挖掘信息、发现知识。
数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
数据仓库概念始于本世纪80年代中期,第一次出现是在号称“数据仓库之父”William H.Inmon的《建立数据仓库》一书中。随着人们对大型数据系统研究、管理、维护等方面的深刻认识和不断完善,在总结、丰富、集中各行业,企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。
数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为数据的抽取、存储与管理以及数据的表现等三个基本方面。
1) 数据的抽取:
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。
2) 存储和管理:
数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。
3) 数据的表现:
数据表现实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式,近几年来由于互联网的发展,使得多维分析领域的工具和产品更加注重提供基于Web前端联机分析界面,而不仅仅是在网上发布数据。
数据仓库技术应用领域非常广,凡是涉及到数据分析,报表汇总,决策支持等与数据有关的信息系统,都是其应用的范围。
3.智能卡
智能卡即IC卡,就是集成电路卡。它的显著特征就是自身嵌装有微处理器及大容量存储器等集成电路芯片。IC卡是伴随着半导体技术的发展和社会对信息安全性等要求的日益提高而应运而生的,经过近几十年的发展,其技术日趋成熟,目前在国内外均已经得到了很广泛的应用。由于IC卡采用了当今最先进的半导体制造技术和信息安全技术,相对于其他卡具,如磁卡等,主要有以下优点:
① 存储容量大:因其内部有集成电路存储器芯片,存储容量可达几兆字节,为磁卡的几千至几万倍。IC卡的存储器可以分成若干应用区,分别存储文字、声音、图形、图像等各种信息,便于一卡多用,方便保管。
② 安全性能高:加密IC卡从硬件和软件等几个方面实施其安全策略,可以控制卡内不同存储区域的存取特性。IC卡本身具有安全密码,卡内的信息加密后不可复制。只有密码核对正确后才能对卡内的信息进行读写操作,对安全密码核对错误时,卡片具有自毁功能;而磁卡等一般只能用功能较弱的软件加密措施,存储信息很容易被复制,安全性较差。
③ IC卡防磁、防一定强度的静电,一般至少可重复读写十万次以上,使用寿命长,可靠性比磁卡高。且IC卡体积小、重量轻,便于携带,易于使用。
④ IC卡的读写机构比磁卡的读写机构简单可靠、造价便宜,维护方便,推广容易。 正是由于这些优点,IC卡越来越受重视,其市场迅速遍及世界各地,而其应用领域也从最初单一的银行信用卡领域,渗透到包括税务征收、付费电话、健康记录、身份认证、宾馆旅游等多个领域。
IC卡的使用,应该说还有很大的扩展空间,上面所说,只是其中一部分,推而广之,各行业中的办公自动化(OA)系统、考勤系统、甚至人员的工资等,均可用IC卡作为身份认证、数据查询及数据存储,真正实现一卡多用。
即将开始试验使用的我国第二代身份证采用非接触IC卡技术,是最大的IC卡应用项目。它的使用,对加强我国人口信息化的安全性和高效性将起到十分重要的作用。
4.二者的结合
智能IC卡作为与信息系统的接口,大量业务数据的产生与它有关。包括银行,电信,税务,海关等积累了大量的数据,业务人员与决策人员都希望能够从中发现可利用的,有价值的信息。在这样的需求下,数据仓库技术便在智能卡应用领域迅速的推广开来。
以烟草行业为例,基于Sybase(美国数据库供应商)数据仓库技术的烟草商业信息系统。分为五个版本:为国家专卖局(烟草总公司)、省烟草公司(省烟草专卖局)、地区级烟草公司(烟草专卖局)也叫烟草分公司(分公司烟草专卖局)、县烟草公司(烟草专卖局)、烟草批发部。数据是垂直分布,并且是有关联性的。以便完成购销业务、汇总处理和查询功能。
针对烟草行业的业务特点,系统分为八个子系统进行设计:日常业务管理子系统、仓储管理子系统、商品帐核算子系统、专卖管理子系统、价格管理子系统、通用报表子系统、综合查询子系统、移动访销、配送、稽查系统。
灵活的IC卡销售及专卖管理是其中的一个重要子系统。门店销售时系统在商户IC卡上记录销售数据,送货时通过移动式IC卡读写器对商户作卷烟销售,销售记录同时记入商户IC卡和IC卡读写器,并自动上传到MIS系统;专卖检查人员也可以通过移动式IC卡读写器对商户进行专卖检查,将检查结构同时记入商户IC卡和IC卡读写器,自动上传到MIS系统。并抽取到数据仓库数据服务器供决策支持使用。
整个系统结合了数据仓库和智能IC卡的特点。充分考虑到系统的融合与独立性。实现了如下的一些特点:
1.实现数据的采集
2.高效的IC卡专卖的管理
3.高效率的存储和查询
这样的系统充分集合了数据仓库与智能卡二者的优点,使整个体系有了完整的信息化流程。
中国是人口大国,人口的管理一直是国家非常重视的。作为人口系统化的重要部分,我国第一代身份证以其保密性差,易仿造等诸多缺点,已经不能满足未来的需要。即将取而代之的第二代身份证将采用非接触IC卡技术,在防伪性、保密性等方面将有质的飞跃。
人口信息系统最大的特点是数据量大,每年的调查格式不尽相同。以中等城市人口统计数据为例,许多历年的、大量的人口调查原始资料多以纸介质、软盘、磁带等形式存储在资料库里,这些宝贵的资料,一方面面临外部环境对传统保存方式数据安全性的挑战,另一方面各业务部门和相关单位也有充分利用、进行数据挖掘的迫切需求。而数据仓库的应用,是一种最佳解决之道。
举例来说,某市人口约900万,第四次人口普查数据加上近十年的人口调查资料、劳动力情况调查资料和社区情况调查资料,原始数据量约10GB。针对人口系统的特点,采用了数据仓库技术并面向主题设计了最佳数据模型和数据字典。人口数据的整理需要一定的时间,在项目的实施过程中数据整理工作和数据加载工作同步进行。第四次人口普查900万条数据和1990年至今近十年的抽样调查数据已全部加载到人口数据仓库。
人口信息数据大,对数据仓库引擎和数据加载工具有极高的性能要求。NCR(作为以硬件为主的的数据仓库解决方案提供商)它的Teradata数据仓库是完全并行的数据库,速度非常之快;NCR的FastLoad数据加载工具也是并行的,可以启动多个会话进程,加载900万人口数据仅需15分钟,这对其它数据库来说是不可想象的。
人口系统的应用特点是各年度的绝对调查指标之间缺少可比性,要对原始数据进行加工整理,在原始数据基础之上派生各种相对分析指标,如人口分布、年龄结构、生育结构、家庭结构、婚姻状况等以满足各年度之间的分析研究。考虑到通用性和便于统计业务人员进行分析,我们设计了一个通用的、功能强大的、灵活的派生数据模块,利用后台处理和Teradata快速的特点,能将原始数据生成相对通用的派生数据。派生数据已将指标代码转化成汉字属性,并计算和产生了许多新的属性字段,在派生数据基础之上,利用报表工具(如Brio工具),统计业务人员和人口研究人口可以随机产生各种报表,可以作各种各样的联机分析处理这将大大提高了工作效率。加上未来第二代身份证采用非接触IC卡技术,在安全性、唯一性方面有强有力的保障。使人口信息系统在数据识别,信息交互方面以及与底层数据通讯速度方面都将有很大的提高。
5.前景展望
数据仓库工程是一个复杂的信息集成工程,需要有事先周密的规划。通过对数据仓库工程进行规划, 要明确分析信息的需求和现状,提出如何通过采用相应技术,实施可行的工程化步骤,达到工程项目的预期目标。随着数据仓库技术和智能卡在各行业及企业的应用,二者的结合也将趋于成熟。为政府,企业决策提供更先进的技术手段,必将进一步加强政府,企业的管理和决策职能。数据仓库技术在不远的将来,必将在我国的信息化的建设中发挥重要作用。
新闻投稿合作邮箱:yktchina-admin@163.com 字体[大 中 小] [收藏] [进入论坛]