== 发布时间:2012年03月20日 ==
您现在位置:首页-招考研究-数据挖掘技术在自考信息库中的应用

数据挖掘技术在自考信息库中的应用

李冠利

 

    随着高校招生规模不断扩大、办学模式的多元化,我省自学考试考生报考规模呈现下降的态势。如何利用自考信息库,并结合先进的技术手段,从中找到有价值的信息,以此促进自考事业的稳定发展,是当前自考工作者面临的一项新课题。本文介绍了采用微软Analysis挖掘工具对自考报考信息库的挖掘实施过程,并从中获得了一些有价值的信息。

关键词  自学考试 信息库数据挖掘

面对多年积累的大批量的自考数据,需要使用高效的方法分析处理数据,才能将纷乱的数据规范化,并从中挖掘出有价值的信息。传统的EXCEL等数据汇总处理方式往往无法实现这样的需求,而数据挖掘技术恰好可以对大批量的数据进行分析。目前,数据挖掘技术在教育管理领域内的研究尚不成熟,在挖掘方法和挖掘技术选取上也相对薄弱。把数据挖掘技术应用于自考数据管理中,是数据挖掘技术在又一个领域的应用尝试。

数据挖掘工具有许多种,这里我们采用微软Analysis Services挖掘工具,主要基于以下两点考虑:1、历年的自考数据信息存储在微软SqlServer数据库中,采用微软Analysis Services挖掘工具,对于挖掘数据的采集非常方便。2、本次研究侧重于实际应用,并不是数据挖掘算法的研究,微软Analysis Services 挖掘工具的执行效率较高,具有良好的操作界面与挖掘结果展示界面,对于模型的创建、修改、查看等都非常方便,易于操作。

本次实施数据挖掘的目的是:一、试图找出课程开考安排中考生报考时选报的课程间的关系。合理的课程开考计划可以方便考生的报考,同时一定程度上可以提高报考规模,减少开考课程安排不合理造成的考试资源浪费。二、分析参加自考考生构成,试图找到报考自考考生的相关要素。摸清了考生结构的基础后,可以更有针对性地做好考生宣传工作。

一、课程报考数据挖掘的实现

课程报考数据挖掘中,主要试图找出各专业学生报考的课程间存在的关系。挖掘中使用了关联规则算法。

1. 数据准备

研究的对象是各次考生课程报考的数据,将各专业考生报考数据及相关考生信息进行按专业分别提取,并分别存储在指定数据表中。这里我们以09年下半年护理本科专业考生报考信息作为挖掘对象进行研究。提取出09(下)护理本科段考生信息及报考信息分别存储在表ksxx1ksbk1,在表ksxx1中,主要有zkzh(准考证号)xm(姓名)字段,zkzh作为主键。在表ksbk1中,主要包括:zkzh(准考证号)xm(姓名)kmqc(报考课程)等字段,其中zkzh作为外键与表ksxx1进行关联。

2. 挖掘过程及结果分析

启动SQL Server Business Intelligence Development Studio,选择“商业智能项目”创建项目“课程报考挖掘”,在该项目资源管理器窗口建立数据源、建立数据视图、建立挖掘结构。数据视图建立过程中,需要对ksxx1ksbk1建立关系。ksxx1作为源数据表,ksbk1作为目的标,并设置ksxx1zkzk作为主键字段。

建立挖掘结构,选择创建挖掘结构定义使用的的方法“从现有关系数据库或数据仓库”,选择数据挖掘技术“Microsoft 关联规则”,选择新建的数据源,指定分析时要使用的表的类型:表“ksxx1”为事例表,表“ksbk1”为嵌套表。

将表ksxx1字段zkzh及表ksbk1字段kmqc设定为key列;将表ksbk1字段kmqc设为输入列;将表ksbk1字段kmqc设为可预测列。得到课程报考数据挖掘结构及挖掘模型,图1示。

设置关联规则算法的参数。因为我们规定的单次报考最大课程门上限是8门,所以将最大项集容量(MAXIMUM_ITEMSET_SIZE)设置成8,我们认为至少有两次相同的项集出现生成规则才有意义,所以设置最小支持度(MINIMUM_SUPPORT)2。参数设定后,对课程报考数据挖掘结构及挖掘模型进行处理。通过挖掘模型查看器,可以看到获得项集、规则、依赖关系网络。调整规则最小概率及最低重要性,我们获得了护理本科段考生课程报考数据中存在的依赖关系。如图2示。

   从上图可以看出,该专业考生,报考中国文化概论、医疗保险学、公共关系学这三门课程中任意一或二门的,另外二或一门课程极有可能报考。所以,在课程考试计划安排时可以将这三门课程同时开考,这样有利于学生的报考。从依赖关系网络(如图3示)中可以更加直观的看到他们间的依赖关系。此规则,对课程计划部门进行合理的安排开考课程计划,将具有非常大的参考价值。

 

 

二、考生结构挖掘的实现

考生结构挖掘中,主要找出各专业考生的结构情况,从中发现各专业对于具有什么特性的考生更具有吸引力。挖掘中使用了决策树算法。

本挖掘模型的建立,试图从中找出各专业报考考生与考生固有特性间的关系。比如:考生选择的报考专业与考生的学历、职业、性别间是否存在一定关系。通过模型的建立而发觉的知识,必定为寻找考生生源有很重要的作用。

1. 数据准备

将行政管理本科段考生自然信息作为研究对象。从系统数据库中进行提取,存储在xgzy表中,共有8610条数据。该表中主要有字段Ks_Zkz(准考证号),Ks_Xm(姓名),Zhiy_Dm(职业),Ks_Xb(性别),Xl_Dm(学历)等。

.挖掘过程及结果分析

首先,创建项目“考生结构”,然后创建数据源Ksbmk。接着创建数据源视图xgzy。此数据源视图仅选择xgzy1单个表。添加数据源视图后,将为考生数据信息创建挖掘结构和挖掘模型。

挖掘模型中,Ks_XbXl_DmZhi_Dm字段属性为Predict属性。Ks_zkz 字段属性为 key属性。如4示。

 

 

Microsoft分类算法设置参数后,进行处理挖掘结构和挖掘模型,生成挖掘模型决策树。本挖掘模型中多个列设置为可预测列,我们可以对每个可预测列生成一个单独的决策树。比如:Zhiy_Dm决策树,如图5示。

 

 

   与决策树相应的挖掘图例,更直观显示出该专业报考学生的组成情况。以报考考生职业属性作为预测列的挖掘图例(图6),显示该专业考生中工作性质为“学生”的占85.09%

 

 

以报考考生学历属性作为预测列的挖掘图例7,说明76.60%的考生学历为大专。

由此,我们可以得出结论:具有“大专学历”的“学生”是报考自考行政管理本科段的主要生源。因此,可以将各高校专科段学生,作为我们自考行政管理本科段报考的重点宣传工作对象。

三、从挖掘中得到的启示

通过对自考报考信息库的数据挖掘,我们从中获得了几点有价值的信息:一、采用微软关联规则算法,获得了自考生报考课程间的若干关系规则,可以为开考课程计划的安排有参考价值。一个科学的开考课程计划既可以方便考生报考,同时也提高课程报考规模;二、通过微软决策树分类算法分析,得到各专业报考生源的结构。为有针对性的利用自考报考宣传资源进行宣传工作提供了参考依据。

由于本区的数据资源有限,数据挖掘中必然存在一定的局限性。我相信,如若对全省的自考信息库实施相关的挖掘技术,必可以从中获得更多有价值的信息。总之,数据挖掘技术的引用,将会使现有的数据库资源发挥更大的价值。

 

1、赵岩.  数据挖掘中的关联规则技术研究.西安电子科技大学.2008.1

2、孔芳.  数据挖掘技术中关联规则算法的研究.江南大学.2008.8

3、马冰冰.学生信息管理与数据挖掘的应用.山东大学.2008.4

4、袁小玲.数据挖掘在学生成绩管理中的应用研究.华东师范大学.2009.4

5、刘薇.  数据挖掘中决策树方法研究及其在房地产中介的应用.西安电子科技大学.2006.1

(作者单位:南京市玄武区自考办)

 


院校风采