== 发布时间:2016年08月08日 ==
您现在位置:首页-科研与评价-用增值的理念评价地区学业水平进步

用增值的理念评价地区学业水平进步

 

      本文借鉴增值评价的理念,探讨以教育效能为核心价值的评价模式。对我省高中学业水平测试的实证研究,表明该方法可以更加科学合理地评价地区的教育效能。通过深度发掘考试数据的内在含义,实现从考试到评价的跃升,为考试服务于评价,评价促进教育教学发展探索新途径。

关键词 学业水平测试  教育效能  增值评价

 

一、变指挥棒体检单

我省普通高中学业水平测试(以下简称学测,包括选修科目和必修科目两部分)自2007年施行以来,极大地推动了新课程的教学改革。学测作为现行高考方案的重要组成部分,受到政府、学校和学生的高度重视。每年参加学测的考生人数多达几十万,事实表明,作为大规模的教育考试,学测对教学的引导作用和反拨作用都十分直接,而且效果也很明显。与其它高利害考试一样,学测也是一根能对高中教学产生影响力的指挥棒。事实上,这根指挥棒让人既爱又恨。爱它,是因为它对各类教学活动很管用,一抓就灵;恨它,是因为它太管用,是一把双刃剑,一旦抓偏,也会产生不少消极后果。前几年,成都市实验外国语学校的校长在高档酒店设宴,与全年级排名靠前的同学共进晚餐,此举受到部分同学和家长的称赞。不得不说,唯分数论已经根深蒂固在教育的方方面面。过度追逐考试分数,必定会让教育教学管理偏离正常轨道。

为了正确发挥考试对教育的促进作用,江苏省教育考试院自2009年始着手研究和开发高中学业水平测试评价指标。学测评价的目的,除了为改进我们的命题服务,也是从考试评价的视角,推动考试从选拔和甄别的单一功能向教育评价跃升。简要地说,这个指标体系的设计建立在现代教育理论的基础上,借鉴当今国内外先进的教育评价框架。它将考试分数信息与考生信息和录取信息链接起来,将成绩比较与对学生、学校、试卷(题)、地理区域和年度等多维度因素的分析相结合,在系统化的比较和分析中充分挖掘考试分数的内在意义。通过提供一系列多层面的数据统计分析报告,达到评价促进教育教学的目的。学测评价实际是为教育开出了一份体检单,帮助教育主管部门和学校多视角地厘清成绩差异究竟产生在何处,为寻找差异产生的可能原因提供必要的数据参考,开出体检单的同时,将指挥棒交还给应当行使的各方。

本文将就该学测评价指标中地区进步评价的理论依据和方法进行探讨,以实证分析的方法说明进步评价基于增值理念,可以更加科学合理地评价地区的学业进步,是一种以教育效能为核心价值的评价模式。

二、地区评价传统模式的缺陷及后果

我们在设计如何评价地区的学业水平时发现,长期以来,是以考试成绩的高低作为指标,例如以中考和高考的分数、上线率、升学率等的排名来评价地区、学校和学生的教育结果。具体地说,或横向比较彼此的平均分、上线率或升学率的高低多寡,或纵向比较本地在这些指标的年度起伏涨落,以此作为衡量教育质量和进行奖惩的最重要标准。存在于教育体系中的教育强市明星学校也都是这一传统评价模式下的产物。然而,传统评价模式存在一些严重缺陷。

首先,它重视目标达成度,是一种终结性评价。强调结果而忽视发展过程,缺乏对投入与产出效益的比较,只考虑地区产出差距而较少考虑地区的投入差距,如生源质量、教育经费、学校办学条件和学校师资水平等方面的不同。我省有13个地级市,虽然同处经济文化都较发达的东南沿海地区,教育的总体水平较高,但彼此间也存在或多或少的差异,有些差异甚至比较大。例如,一些地区间某些学测科目的平均分相差甚至超过20分。正如近两轮《PISA中国试测研究报告》指出的,我省教育发展的不均衡性客观存在。评价目的仅看重选拔和甄别功能,势必导致评价结果不公平,根本起不到激励作用,忽视了评价对教育的改进功能。

缺陷其次源于考试本身。众所周知,考试分数不仅取决于学生的学业水平,也取决于试卷本身的难易。可能出于某些现实需要,例如政策调整、学情变化、招生政策,甚至自然灾害等,试卷的难易会有所调整。加之经验型命题对试卷难度的把握也很难十分精确,必然会导致试卷难度起伏。今年的80分与去年的80分不等价,因此,简单地纵向比较平均分的年度变化不可靠,不能正确地反映学业水平进步与否。

由此可见,在进行地区评价时,若仍采用传统模式,以分论英雄,无论纵向还是横向的比较结果都不够可靠,也不尽合理,还会产生诸多负面后果。首先是导致片面追求升学率。为了缩小差距、赶超先进,有些地方盲目攀比高考成绩,热衷追逐升学率,教育决策违反实际情况。有些学校还加班加点,不计成本,甚至以牺牲学生全面发展为代价换取考试高分。其次是绩效管理或行政问责不公平。哀叹在生源和资源等不利的社会历史因素中,唯分数论极大地挫伤地区教育主管部门和学校改进教育教学管理的积极性,甚至会让不少地区和学校产生悲观情绪,不思锐意进取。第三,可能会造成误判。缺乏参照标准的纵向比较很难清楚地反映学业水平的真实变化,甚至还会让管理部门产生一些错觉。在一些地区,教育增长的势头放缓了,甚至是负增长,但真相被原有的高分数掩盖,如果不能及时发觉,不做出相应的政策调整,经年累月,领先优势将逐步丧失掉。

三、地区进步评价的方法和理论依据

为了克服传统模式的上述缺陷,我们借鉴现代评价理念中的增值模式(Value-added Model),设计了地区进步评价,用于对全省地级市的学测水平进步的评价。

简单地说,地区进步评价仍以考试分数为依据,承认地区差异和试卷难度变化,通过数学统计技术将学测成绩的净增长从这些差异和变化中剥离出来,实现科学合理地评价地区教育效能的目的。具体操作时,以各地级市前一年的学测成绩为输入变量,以当年的学测成绩为输出变量,利用简单线性回归,计算出每个地级市学测成绩的预测值。实际分数和预测值的差值即为进步增量,表示该年度学测水平的增值。进步增量是评价地区教育效能的指标。从增值理念看,去年分数高的地区今年分数也应该高,各地区之间比的不是谁,而是比谁在上增加得更多、增长得更快。与纯粹以分数论高低的传统模式不同,进步评价是通过增量来评价地区教育效能的模式。

进步评价模式具有考试测量学的理论依据。如果假定地区间基础不同会导致成绩差异的命题成立,那么,各地区的成绩就可以作为地区基础差异的操作变量。也就是说,如果好的基础能产生好的成绩,那么,成绩好也就能表示基础好。正如之前分析传统横向比较的缺陷时指出的那样,这是确实存在的事实。

同时,进步评价也具有对教育效能评价的理论依据。地区教育主管部门,例如教育局、教育研究科学院或教学研究室等,其教育效能应表现为实施正确地教育决策和进行合理地教育投入,从而有效增量本地区教育水平。将增量作为效能评价的指标最早发端于詹姆斯·科尔曼1966年向美国国会提交的《教育机会平等性的报告》(Coleman Report),该报告在随后的近二十年时间内引发了热烈的讨论,并催生了学校效能增值性评价。事实说明,以教育增量评价地区进步具有合理性。

进步评价的目的在于有效地引导地区教育管理政策从重投入到重过程、从重生源到重培养、从单纯注重结果到关注教育全过程的评价。对于那些各方面基础条件较差、长期在不利条件下仍然做出了大量工作的地区,增值评价能够充分反映出他们的努力程度,从而科学合理地反映他们的教育效能。进步评价有助于建立科学的地区教育发展观,公平合理、科学全面地评价地区教育,促进地方教育特色建设,从而促进地区教育均衡发展。

四、进步评价的实际效果

实证研究采用我省20122013两年化学(选修科目)学测的全样本,对照分析进步评价和传统评价两种模式。相关数据中,以字母A~M随机代表我省的13个地级市。

1.地区进步评价的横向比较

在传统评价模式下,化学学测成绩的地区横向比较结果如图1所示。在20122013两年中,M市的化学成绩都比较差,A市的都最好,两市的平均分相差接近30分。在这两年中,除了个别市外,成绩位次没有大的变化。总的说来,13个市的化学成绩分为三类:A~E市的相对平均分高,领先优势明显;相比而言,KLM三市的相对平均分低,通常被视为化学成绩的薄弱市。

另外,图1显示各市2013年的成绩均比2012年的低,似乎化学的学业水平都退步了。然后,分数减少的原因一方面可能是各市教育的确都有所退步,学校成绩降低,生源质量变差,另一方面,也可能是试卷难度升高导致的。结合与其他科目的对比分析,我们认为后者的可能性更高,因此,不宜贸然从分数波动就得出地区学业水平都退步了的结论。

1  传统模式下化学学测的地区评价横向比较。图中相对平均分是指以某一指定的分数为基准分,平均分相对基准分的差值。

2012年和2013年化学成绩的线性回归如图2a)所示,图中的直线为线性回归线,表示以2012年成绩为依据时,2013年成绩的预期值。位于直线上侧的点表示实际成绩大于预期值,例如CDEGIL市,他们相对于2012年的成绩取得了进步,增量为正。相反,其他处于直线下方的点所代表市的成绩有所退步。为了更直观地描述进步或退步的程度,由线性回归的计算结果作出图2,柱状图表示各市实际成绩与预测值的差值。

进步评价模式将各市原有成绩的差别考虑进来,而且是相对比较,因此,消除掉了起点差异和试卷难度的影响。在进步评价中,GELDCI市的化学成绩增量为正值,是正增长,其中G地区的增长最显著。对照传统评价的结果,L市化学学测的平均成绩虽然比较薄弱,主要是原有基础不算好,起点低,然而,该市的成绩提升明显,比预期值提高了1.77分,教育效能显著。相反地,处在传统评价优势地位的A市和B市,虽然化学成绩仍然领先,但是比预期值少了1.24分和2.56分,有退步的趋势。两市化学平均分的优势可能更多地得益于原有的高起点,因此,他们有必要认真地寻找教育效能下降的原因。有些市,例如MK,在两种评价模式下都相对落后,对于他们,如何借鉴和吸收先进地区的经验,通过合理的教育政策干预,尽快提高学校效能,从而提高成绩应当成为今后工作的重点。

2  进步评价模式下化学成绩的横向评价结果

2.地区进步评价的纵向比较

对多个科目的进步评价进行综合分析,还可以帮助我们更全面地认识本地区的优势和短板。以H市为例,该市的化学成绩在传统评价和进步评价中均处于中游位置。该市各学测科目(选修科目)的年度纵向比较如图3所示。在雷达图中,2013年围出的面积明显地大于2012年,说明该市在总体上2013年六门学测科目的进步比2012年的大,教育效能比较高。从学科维度上看,政治和生物的进步幅度变化不大,维持在每年0.5分的程度上,而物理、历史和地理的进步幅度非常显著,都从2012年的退步扭转为2013年的进步。化学科目虽然没能改变退步的状况,但是退步幅度放缓,由2012年退步0.9分变为2013年退步0.3分,这也是一个不小的进步。

H市的实证说明,进步评价模式可以从科目维度清晰地揭示学业进步的结构,指出相对优势和短板所在。若能进一步地将评价结果与对本地相关的教育因素的分析结合起来,继续改善并发挥政策优势,便可以为促进学业水平的全面发展找到新途径。

3. 地区H各科目进步增量的年度比较

五、总结与展望

进步评价以成绩增量为依据,把教育效能视为评价的核心价值,对教育教学有推动作用,与传统以考试分数为指标的评价模式相比,有四个突出的优点:

1.有助于对地区教育绩效的激励

将地区教育基础的差异考虑在评价中,从教育增量的视角看待工作绩效,会使地区教育效能的评价更加客观、而且准确。这种评价模式特别能使传统上的弱势地区从进步趋势中发现本地区的优势所在,增强教育发展的信心。

2.有助于促进地区教育均衡发展

进步评价能从多个维度揭示地区教育的优势和短板,有利于管理部门全面地了解本地区的教育现状,以便更加有效地实施教育决策,更加合理地进行教育投人。同时,地区教育增量的变化为教育改革提供依据和参照,从而有助于促进各地区教育的均衡发展。

3.有助于建立面向地区的教育质量监控体系和问责机制

进步评价是一种发展性的评价模式,不仅能跟踪记录一个地区教育发展的轨迹,也能发掘足够的数据积累价值,建立区域教育增量模型,对教育趋势做出合理预测,作为教育绩效评估和行政问责的有力依据。

4.有助于促进学生综合全面发展

当摒弃唯分数论的评价禁锢,将重视教育结果变为重视教育过程时,才能使教育政策真正以学生为本,从过分看重上线的数量转向更注重学生全面健康发展。此外,进步评价能引导全社会用科学的评价观评价地区教育,而非以学校升学率作为评价学校的唯一指标。

近年来,随着信息技术的发展,以增值为基础的评价技术又得到长足发展。其中,值得特别关注的是多层线性模型(Hierarchical Linear Models)在增值评价中的应用,它将单一数据结构拓展到多层,能实现对地区、学校和学生多层面的因素分析。

在美国,联邦政府在2001年通过《不让一个孩子掉队法案》(No Child Left Behind Act),提出以高标准和效能评价实现平等,规定各州每年需对三至八年级的所有学生进行阅读和数学测试,并将学生的学业成绩与政府财政资助挂勾。在此背景下,多数州相继将增值模式用于学校评价。目前用于美国州教育增值评价的程序系统EVAASEducation Value – Added Assessment System)是多层线性模型的典型代表。英国政府自2006年起,对学校效能全面地实行多元增值评价。受其影响,我国香港地区已将增值表现指标列为质素保证架构中学校表现指标体系的一部分,香港考试及评核局建立学校增值资料系统(SVAIS)提供增值评价的网上服务。这些评价系统均采用有多层线性模型,实现从地区到学校,甚至对班级和学生层面的增值评价服务。

我们应当加强对新型增值评价技术的学习和研究,面向我省教育的实际需求,未来在进步评价中引入多层模型,将考试数据的教育服务功能扩展到县(区)、学校、班级和学生等更多个层次。通过考试评价为教育政策发展提供参考,在促进学生的全面发展中发挥积极作用。

 

参考文献

[1] 边玉芳,林志红. 增值评价:一种绿色升学率理念下的学校评价模式 [J]. 北京师范大学学报(社会科学版),20076.

[2] 罗冠中,萧伟乐.香港中学增值指标的发展与应用 [J]. 考试研究,20106.

[3] 李欣.高中学业水平考试的中美比较 [M]. 福州:福建教育出版社,2012.

[4] 王蕾.大规模考试和学业质量评价 [M]. 北京:高等教育出版社,2013.

[5] 邱皓政.量化研究与统计分析 [M]. 重庆:重庆大学出版社,2009.

 

(作者:张晓涛、黄红波  江苏省教育考试院)

 


院校风采