来源:中国一卡通网 作者:黄志成 发布时间:2010-07-29 10:34:18 字体:[大 中 小]
摘 要:针对当前高校一卡通数字化校园,提出以数据仓库技术为核心、以联机分析处理技术和数据挖掘技术为手段, 整合一卡通应用系统的核心业务数据, 分析并挖掘数据隐藏关系,提取有用信息,供管理员辅助决策,并供其他应用系统共享,产生联动。
引言
随着校园信息化的不断推进和深入,越来越多的校园领域实施数字化管理。虽然当前很多学校已启用校园一卡通系统, 但只是作为简单业务平台应用,没有实现资源整合与分析, 不能给管理层带来决策知识。为解决以上问题,并结合本校实践经验,提出整合校园一卡通资源,并使用数据挖掘技术构建一卡通决策支持系统。
1 研究内容
当前校园一卡通应用主要在以下两个大方面:消费应用方面,例如热水消费、智能电控缴费、上机管理消费、校园网缴费、饭堂消费、超市消费、银行转帐等;教学教辅应用方面,例如借还书管理、多媒体课室管理、课室电子课表管理、迎新离校管理、就业跟踪管理等。各应用系统的数据在业务上是独立的,各应用系统的数据就不能以一种统一集中的宏观决策信息呈现。再则,一卡通系统的不断应用将会积累越来越大量的数据,传统操作型数据库已不能处理这些海量历史数据,使用数据仓库技术进行存储,并使用联机分析处理技术进行分析,显得十分必要。联机处理分析可以从多种角度、多种粒度、多个维度上分析微观或宏观信息,更好地辅助高层管理人员决策。同时,在联机分析处理基础上,通过数据挖掘技术,挖掘和发现数据隐藏关系和趋势,从而提前制定决策。
数据挖掘系统不仅仅作为一个知识呈现的工具,而更应发挥其智能辅助决策的作用。数据挖掘系统还应把发现的知识, 提供给其他有需要的应用系统共享,实现跨系统之间联动,使决策更加智能化。
2 系统架构
本决策支持系统包含数据源、数据存储与管理、OLAP 服务、前端工具与应用、决策支持应用5 个部分。数据源是整个决策支持系统的数据基础;数据的存储与管理是整个决策支持系统最复杂部分。在现有数据源的基础上,对数据进行抽取(Extract)、转换和清洗(Transform)、装载(Load),并有效集成操作( 即ETL 处理),按照主题进行重新组织,构建数据仓库;联机分析处理(OLAP)按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析;前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具与应用;决策支持应用综合挖掘系统发现的知识,综合知识库经验,辅助管理人员进行决策,并且向其他应用系统提供发掘的知识,实现联动。系统采用SQL Server 2005 为数据仓库和数据挖掘解决方案,总体结构如图1 所示。
图1 决策支持总体架构
3 系统设计
3.1 数据仓库设计[1]
数据仓库模型采用三层数据建模方式:概念模型设计、逻辑模型设计和物理模型设计。概念模型设计主要在原有数据库的基础上建立较为稳固的概念模型,确定主题域及内容,以及界定系统的边界,数据围绕主题进行组织。逻辑模型设计阶段要进行的主要工作是分析主题域、确定当前要装载的主题,设计维度表和事实表,并确定维度的粒度层次和数据分割策略等。维度表和事实表组织采用雪花模型组织。物理模型设计主要确定数据存储结构、存储位置、容量、更新频率和索引策略等。
数据仓库的结构设计好后,ETL 过程首先从异构数据源抽取数据,然后按照数据仓库的维度表和事实表设计要求进行转换处理, 对所有脏数据进行清洗。数据转换与清洗按图2 所示的W.H.Inmon 博士[2]提出的6 个步骤进行。
图2 ETL 过程的6 个步骤
数据经过ETL 处理后装入数据仓库, 从建造面向某个部门(或某个应用)特定的数据集市开始,逐步扩充数据仓库所包含的主题和范围,最后形成一个能反映全貌的企业级数据仓库。数据仓库构建后,进行联机分析处理,通过灵活的多维浏览,结合上卷、下钻等操作,宏观或微观上提取有用的信息,作为高层管理人员决策支持和依据。同时,通过一系列的报表分析,更加直观地显示数据统计信息。
3.2 数据挖掘设计[3~4]
在数据仓库建成后,使用数据挖掘技术构建相应挖掘模型。每种挖掘类型完成某种特定功能。关联规则挖掘模型通过分析学生属性、消费金额、消费时间、消费地点等之间的关联, 来分析个体学生消费行为;时序挖掘模型可以月为周期挖掘超市日消费数据的序列,并作出预测;聚类挖掘模型可以用于总体饭堂消费或用电消费值的分类,以了解学生总体的消费区间;决策树挖掘模型通过分析学生专业、年级、住址、家庭情况等属性对饭堂消费或用电消费的影响,以发现决定影响消费的重要属性,形成决策树。
数据挖掘模型的数据源主要从数据仓库中抽取,但并不是数据仓库中的数据百分百满足模型的要求。很多时候, 还要对数据仓库中的数据进行二次处理,以适应模型要求,装入挖掘模型。SQL Server 2005 提供有前端展示工具,用于解释模型数据。
3.3 系统联动设计
SQL Server 2005 提供有Data Mining Access ObjectsAPI 接口[5]来访问数据仓库与数据挖掘模型。通过DMAO 接口, 可以方便地操作数据仓库和数据挖掘模型, 从而实现数据仓库和数据挖掘模型的监控。配合知识库经验,把发掘的知识作为预警信息分发到相应的应用系统, 其他应用系统收到预警信息后,作出相应的联动处理[6]。
例如,关联规则挖掘模型根据知识库经验,把满足知识库阈值的饭堂消费和学生宿舍用电消费关联规则,以预警的形式向学生助学贷款系统和学生勤工助学系统发送消息。例如,某学生申请了助学贷款,但通过挖掘其历史消费数据,发现该学生经常产生较大消费金额,与其贫困的家庭生活状况不太适应,可能有欺骗嫌疑,则数据挖掘模型向助学贷款管理系统产生一条预警信息,让助学贷款系统作相应处理。总体结构如图所示。
图3 数据挖掘与应用系统间联动
数据仓库的建设是一个系统工程,是一个不断建立、发展、完善的过程。因此,决策支持系统的建设也是一个不断发展的过程。
4 结语
本文提出并设计了应用数据仓库与数据挖掘技术的校园一卡通决策支持方案,对本校一卡通数据作了深入分析,得出了有用的决策信息,在一定程度上辅助管理人员进行决策。数据挖掘系统与其他应用系统之间的联动是一个有益的尝试,并且是一个有相当挑战性的课题。本系统仍需不断发展和改进完善。
推荐文章
论坛热帖