中国中学英语教师评价素养研究(外国语言文学学术论丛)
上QQ阅读APP看书,第一时间看更新

2.1 教学评价

Russell和Airasian(2012:3)把课堂中的教学评价定义为“收集、综合和解读信息来做决策的过程。教学评价贯穿于课堂生活中”。Turner(2012:65)则认为在语言教育领域,课堂评价的定义目前还没有权威的论断。但是课堂评价的主要特征可以总结如下:课堂评价包含了教师运用一系列策略来规划和进行各类关于学生语言运用信息的收集,也包含教师分析和解读这些信息,给出反馈,并运用这些信息来为促进教学和学习做出决策。Turner(ibid:67)指出,在文献中与课堂评价这个术语紧密相关的术语有:另类评价(Fox,2008),真实性评价(O’Malley & Valdez Pierce,1996),动态评价(Lantolf & Poehner,2008),诊断性评价(Alderson,2005),表现性评价(McNamara,1996),基于课堂的评价(Genesee & Upshur,1996),基于教师的评价(Davison & Leung,2009),校本评价(Davison,2007),促学评价(Black & Wiliam,2003)等。这些评价与传统的外部命题、通过大规模测试来筛选和实行教育问责的做法构成鲜明的对比。但是这些评价活动共同构成教师日常教学中需要面临的教学评价。由于课堂是教师评价活动的主要场所,因此本节重点讨论课堂评价。

2.1.1 课堂教学与评价融合的理论基础

根据Shepard(2000),课堂教学与评价的融合是从20世纪90年代开始的。它受到了两个方面因素的影响。第一、关于学习的理论转向认知和建构主义。认知理论基于皮亚杰(1954;1970)等,强调了个人认知的发展和对知识的建构,而建构主义基于Vygotsky(1978),强调知识是在社会中建构的。皮亚杰的发展理论是一种整体模式。学习是不断发展的过程,其中有变化、自我产生和建构,每次进步都基于已有的学习经历。学习经历吸收、协调和平衡的过程,新的经历被吸收融合入现有的图式,然后经过协调,最后达到平衡,于是产生新的知识(Kaufman,2004:304)。

Vygotsky(1978)的社会建构主义理论强调了社会文化环境对学习和知识产生的影响。学习是在社会中完成的。他的最近发展区域(ZPD)描绘了学习者当前水平与当下能够达到的水平之间的距离。基于最近发展区域的描述,教师可以设计相应的活动支撑学习者的学习。

Shepard(2000)指出这种学习理论认为:知识是在某种社会文化中获得的;学习者在社会环境中建构知识和理解;新知识受到已有知识和文化视角的影响;有智慧的思想包含了对学习和思想的“元认知”意识或者自我监控;深刻的理解扎根于个人脑中并能够转换;认知表现依赖于个人情感和自我认同。

在这种思想的影响下,产生了影响课堂评价的第二个因素:人们对课程论有了新的认知,即认为所有的学生都有学习的能力;富有挑战性的学习对象应该着眼于高层次思维和问题的解决;对不同的学习者学习机会均等;对学科的语篇和实践采用社会视角;校内的学习内容在校外真实存在;要培养出重要的情感和思维习惯;在关爱的社区中践行民主的行为。在这种视角下,传统的大规模测验已经很难满足这种多元的学习结果。新的课堂评价要能够诱发高层次的思维,既要关注结果还得关注过程,而且学生也应该能够积极地参与(Shepard,2000:8)。同时,Pellegrino及同事(2001)也试图将认知科学与测量的理论和实证前沿发展结合起来,提出评价的观察结果和解释应该与学习者在某个领域的认知模式结合起来。

在外语教学领域,Kaufman(2004)认为建构主义也在逐渐影响外语教学。在这种情况下,传统的测试也不能完整地对学习者的语言进行评价,研究者们提出了另类评价。Maslovaty和Kuzi(2002:200)认为另类评价就是基于建构主义的原则上的,因为它蕴含着真实性的任务,对学习起到重要作用,并跟学习者的真实世界紧密相关。另类评价也跟社会文化理论有紧密的关系。Fox(2008:101)指出,社会文化理论中的重要概念,如Vygotsky的最近发展区域或者介入性的支持都与另类评价非常一致。

2.1.2 课堂评价的历史变迁

从总体上说,课堂评价经历了从直接采用外界测量专家命制的标准化测验来促进学校进步,到关注课堂环境,更多运用教师根据实际教学情况编写的多样化的评价手段来收集学生进步信息进而提供反馈的过程。

二十世纪初,测量专家们认为客观性测试能够用来研究和提高学校成绩,并根据学生个体需求提供诊断和分班(Symonds,1927;Thorndike,1913)。在这一思想的影响下,人们通常认为测试专家们要编制标准化测试,而教师可以直接使用这些测试来帮助他们做课堂决策。此外,测量专家传授给教师们怎样根据测量学原则去设计自己的测试。Shepard(2006:623)指出,在这一阶段,测量学教材的框架就是教授教师们效度、信度、试题设计、题目格式、题项分析、试后数据分析等。这种几乎完全依赖正式的测试、小测验和评分的框架至今还在深刻地影响着今天的教育测量学教材。可以说,这段时间课堂评价被看作是大规模测验的“衍生物”(Turner,2012)。在语言测试领域,这种做法被广泛地体现在会议发言,甚至是在给教师们撰写的语言测试教材中。换句话说,大规模测试中的测试类型/任务,结果的解释、使用和汇报都被认为能够被应用于课堂评价中。

二十世纪末,另外一种范式出现。这种范式更加关注学生的理解和形成性评价,使得评价成为学生学习过程中很重要的环节(Black & Wiliam,1998;Gipps,1999;Shepard,2000)。Black 和Wiliam(1998)强调课堂评价可以帮助教师收集信息来及时地满足学生的学习需求。同时他们也展示了设计良好、被恰当地使用的形成性课堂评价对学生,尤其是那些慢进的学生的进步有非常深刻的影响。

在此背景下,语言测试与评价也在不断地演变,并开始注意到课堂学习环境的重要性和独特性,也关注到教师在解读课堂环境语言评价中的重要角色。Turner(2012:65)指出,在20世纪90年代,为职前和在职教师准备的语言评价教材开始将课堂评价看作是独特的范式,其中较为典型的教材有Genesee和Upshur(1996),O’Malley和Valdez Pierce(1996),Brown(2013a)等。而研究者们也逐渐地对语言课堂评价研究产生兴趣,并有了探索性的研究(如Leung,2004;Rea-Dickins,2006)。研究者们的焦点之一是教师的角色。

2.1.3 课堂评价的模型

基于建构主义视角,Shepard(2000)构建了学习文化中的课堂评价功能。在其中,她勾画出了课堂评价的七条原则,包括运用富有挑战性的任务来诱发高层次思维、关注学习结果的同时关注学习过程、把评价看作不间断的过程并与教学紧密融合、形成性地使用评价结果来支持学生学习、让学生明确了解教学预期目标、学生积极地评价自己的成果、评价结果既用于评价学生也用于评价教学。

Davison和Leung(2009)对基于教师的评价的特征进行了概括。认为它自始至终都有教师的参与:从评价规划到确定和设计合适的评价任务再到基于评价做出推断。他们对基于教师的评价的特征概括为以下九点:

↘允许教师运用多种任务,收集一系列学生作品;

↘能够被教师修改以便符合特定的班级和学生的教学目标;

↘在普通的课堂内实施,而不是在考场进行;

↘评价由学生的任课教师进行;

↘能够使学生更加紧密地参与评价过程,尤其是与同伴互评和自我评价相结合时更是如此;

↘开启了学习者主导的询问,从而实现教师对学生学习的支持;

↘允许教师提供给学生及时并富有建构性的反馈;

↘鼓励连续评价,刺激对教学的及时调整;

↘是对外部考试等评价形式的补充。

(译自Davison & Leung,2009:395-396)

Davison(2008)对教师的课堂评价框架直观地展示了教师、学生、课程和课堂间的关系(图2.1)。其中,我们可以看出教、学、评同时处于课堂评价框架的核心部位。而课堂评价总体上被分为四个步骤,即规划评价、收集关于学生学习成果的信息、做出专业性的判断和提供恰当的反馈或建议。贯穿每个步骤的重要内容是记录。从这个框架中,我们也可以看出教师在其中扮演的角色和应该拥有的素养。

1

图2.1 Davison课堂评价框架(改编自Davison,2008)

Davison的课堂评价与促学评价有极大的相似性。促学评价(Assessment for Learning)首先是20世纪80年代末在英国由评价改革小组(Assessment Reform Group)提出的(Assessment Reform Group,1999,2002;Black & Wiliam,1998)。评价改革小组(1999:2)指出,促学评价是相对应于对学习的评价(Assessment of Learning)而提出的。对学习的评价是为了评定学生等级及记录学生成绩,它有确立的程序,也是终结性评价。促学评价要求评价有优先的次序、新的步骤和新的承诺。评价改革小组(1999:7)提出了促学评价的几个重要特征:

↘将评价看作是教学和学习的重要部分;

↘与学生分享学习目标;

↘旨在帮助学生了解和明确他们想达到的标准;

↘学生参与自我评价;

↘给出反馈,帮助学生认识他们自己的下一步行动,以及如何去行动;

↘认为每个学生都能进步;

↘教师和学生审阅和反思评价资料。

同样地,Earl(2013:27)指出,在促学评价中,教师会运用任何能够提供给教师关于学生学习进展情况的手段,例如观察、练习、课堂提问、讨论,来明确地了解学生的优势和不足,以便给学生反馈,促进他们的学习。在促学评价中,教师也会运用到他们对学生情况的了解、他们对评价环境的了解,以及课程目标来确定学习需求。

在促学评价这个框架中,Earl(2013:28)衍推出另外一种评价行为,即以评带学(Assessment as Learning)。它强调的是运用评价作为培养和支持学生元认知的过程。Earl的“以评带学”进一步强调了学生在评价过程中的角色。学生不仅是学习和评价过程的贡献者,而且是学习和评价中至关重要的连接者。

2.1.4 课堂评价对学习的作用

有关课堂评价对学习的影响的研究越来越多,多数研究发现了课堂评价对学习有促进作用。Crook(1988)综述了课堂评价对学生学习的作用。他的研究涵盖了传统的课堂评价(如测试)、非正式的评价(如课后练习),以及教师课堂提问。他的结论是教师的课堂评价过多地关注评分,而太少关注评价对学习的帮助作用。过度重视评分不仅浪费了原本可以用于其他更好的教学活动的时间,而且对学生来说是有危害的,因为它打击学生的学习兴趣,使得成绩差的学生的自我效能更低,降低了反馈对学习的效用,使得学生之间的关系更糟糕。

Bangert-Drowns及同事(1991)综述了课堂评价实践对学生学习的影响。他们调查了频繁课堂测验的效果,发现在15周内至少有一次测试的学生比没有测试的学生的成绩要高出0.5个标准差,测试越多成绩越好,但是频率为两周一次的就没有更明显的效果了。他们还汇报了对40个研究元分析的58个效应值,发现反馈的功效取决于反馈的性质、方式和是否能够提高学生的意识。

Black和Wiliam(1998)审阅了世界范围内关于评价的且具有影响力的文章。发现评价可以显著提高学生的学习成绩。形成性评价的效应量在0.4~0.7之间,比大多数教育干预手段的效果都要好。其中,反馈是课堂评价或形成性评价的核心。

Hattie(2009)在长达15年之久的研究过程中对800多项影响学生学习的元分析进行了综合,其中,关于频繁测试的效应量为0.34(p.178),关于反馈的效应量为0.73(p.173)。在元分析基础上,他提出了在教育领域要达到卓越表现教师们应该拥有的六条指标。其中跟本研究最相关的有两条:教师在学生学习中拥有巨大的影响力;教师要理解学习意图和学习成功的标准,理解所有的学生在何种程度上达到了这些标准,以及针对学生目前的知识和理解跟设定目标之间的差距明确下一步该如何做,也就是要关注“往哪里去”、“怎么去”和“下一步怎么做”的问题(Hattie,2009:238)。

Wiliam(2007/2008)认为,形成性评价如果运用恰当,可以使得学生的学习速度翻倍。在关于教师使用形成性评价的综述中,Wiliam(2011)指出,我们现在有很强的理论和实践证据证明将评估和教学整合起来,将对学生的投入和学习成果都起到前所未有的作用。因此,可以认为,教师拥有评价素养,可以激发教学评价作为教学的催化剂的功能。教师越是了解评价,越能够挑选那些能够帮助他们教学的评价。这些评价不仅仅是评判教师教学效果的工具,更是直接成为教师教学的工具。

Earl(2013:53)指出在“以评带学”框架中,教师采用下面的方法就能够促进学生发展:

↘告诉学生何为自我评价并传授自我评价的技能

↘指导学生设定目标,并监控进步情况

↘提供给学生优秀的、能够反映课程目标的学习成果的模板和样例

↘指导学生培养内部反馈或自我监控的机制,并使用它们来验证或质疑他们自己的想法;指导学生自如地应对学习新内容中不可避免的模糊和不确定性

↘经常地提供富有挑战性的机会来让学生变成更加自信、熟练的自我评价者

↘监控学生的元认知过程以及他们的学习,并提供描述性的反馈

↘创造安全的环境让学生能够冒险,并随时给予支持

(译自Earl,2013:53)

另外一方面,学者们针对教师在课堂评价中的反馈问题作了大量的研究。最早关于反馈的研究和理论源自100多年前,而其主要的心理学根据是行为主义(Thorndike,1913)。积极的反馈被看作是“积极的巩固”,而消极的反馈则被看作是“惩罚”。两者都会影响学习,但是不同反馈的效果是不同的。

Sadler(1989)关于形成性评价的模型受到广泛的认同。他指出教师如果仅仅反馈给学生答案是否正确是远远不够的。为了让形成性评价促进学习,要让反馈与表现标准紧密相关,并且提供给学生如何改进的策略。同样,Sadler(1998)认为形成性评价对学生学习,特别是能力水平相对较低的学生,有很大的促进作用。而这其中,反馈的作用尤其大,因此反馈的质量尤为重要。Sadler将常见的教师反馈分为如下三个步骤:第一,教师必须关注学习者的产出。第二,教师将学生的产出跟评价指标相对比,经过思考,看出学习者的优缺点。第三,教师做出明确的反应,比如给分或者写评语。

Brookhart(2008:1)明确地指出,给出良好的反馈是教师们必须掌握的,因为它是好的形成性评价的关键部分。反馈的性质和反馈的环境都是很关键的。

近年来,研究者们试图从100多年的研究中挑选出哪些反馈有效,哪些反馈无效(如Bangert-Drowns,Kulik,Kulik,& Morgan,1991;Butler & Winne,1995;Hattie & Timperley,2007;Kluger & DeNisi,1996)。一些研究者也试图研究有效的反馈的特征(Johnston,2004;Tunstall & Gipps,1996)。例如,Kluger和DeNisi(1996)对反馈研究进行了元分析。他们的主要发现是反馈的平均效果是0.41,也就是在所有这些研究中,得到反馈的组比控制组平均高0.41个标准差。Hattie和Timperley(2007)构建了反馈模型,分为四个层面,即关于任务的反馈(答案是否正确,指出答案不充分)、关于任务如何运作的反馈(说明可以运用的策略)、关于学生如何调节自我进一步学习的反馈(学生自我评价)以及对个人总体评价式的反馈(如“做得很好”等话语)。研究表明,关于学生如何调节自我进一步学习和关于任务如何运作的反馈都是非常有利的,而关于任务的反馈效果不佳,对个人的总体评价的反馈作用无效。

2.1.5 评价文化

评价文化指的是与现行的意识、社会期望、态度和价值观相一致的教育评价(Inbar-Lourie,2008b:285)。它植根于建构主义理论,成形于建构主义理论所认为的知识是如何建构的和处理的框架之中。它批判性地认识到了评价的社会角色,并重视其在教与学的过程中的重要贡献(Broadfoot & Black,2004)。虽然评价文化是相对于测试文化而提出的,但是评价文化的理论和实践框架都比测试文化要宽泛许多。评价数据从宏观和微观的源头通过多种渠道来收集,而所有的利益相关者都在评价过程中起积极的作用(Shepard,2000)。与传统测试文化的逻辑实证主义哲学基础不同,评价文化基于解释主义(Inbar-Lourie,2008b:290)。

Gipps(1994)勾画了一种有更加宽泛意义的教育评价,是评价文化的重要体现。它具有如下特点:(1)这种教育评价认识到知识域和构念是多维的和复杂的;对学生成绩的评价并不是严格意义上的科学;学生与任务和环境之间的互动很复杂,很难将从一种任务和环境中得出的结果概化到其他任务和环境中。(2)在这种教育评价中,建立了清晰的标准来评价学生的表现;标准和评价过程都为学生所了解(随着学生年龄的增长,学生会更多地了解标准和评价过程);鼓励学生监控和反思他们自己的作品和表现,教师可以给出一些积极和有建设性的帮助,学生会在这种元认知策略训练中培养出自我监控能力。作为评价过程中的重要因素,给学生的反馈应该强调学生掌握情况和进步,而不是跟其他学生进行比较。(3)教育评价鼓励学生思考,而不是根据所给选项判断,即教师要鼓励学生组织和融合想法,跟材料互动,对论证背后的逻辑进行评判。高质量的评价需要高质量的任务:任务必须基于重要和相关的学科知识,任务的性质和呈现方式要基于相关研究中所验证的公平和引人入胜的评价任务。(4)能够让学生充分发挥水平的评价,其任务应该是具体的,并跟学生的经历相匹配。任务呈现要清晰明了。任务要跟学生当前关心的事情相关。任务的施测环境不会让学生焦虑。(5)评价标准要更加综合,以便评价更加复杂的技能;应该提供样本给教师和其他相关人员来帮助解读这些标准。(6)教育评价要让教师或者经过培训的人士进行评分工作。为了提高评分信度,教师必须理解分数等级划分以及各个分数段的表现如何。这可以通过一系列评分培训和提供样本来实现。样本和试评要提供给所有参与评价的教师。样本和标准也服务于向教师介绍教学中的技能和概念。(7)与传统的测试文化靠计算题目答对的数量来决定得分不同,整体应答质量成为决定分数的因素。在教育评价中,更加重视用“丰富”的描述来描写学生成果。(8)教师本身对学生的评价是教育评价的关键部分。这种评价可以是互动的,能够让学生积极参与,从而衡量学生的理解和误解;它还支持学习过程,可以在一系列环境中评价学生的表现。(9)正如教师如果不理解学科内容就不能教学一样,不理解学科内容就无法进行评价。教师必须要理解评价的构念,以此决定测试任务;他们应该知道如何确定学生的知识程度和理解水平,从而知道该采用何种题型,以及如何充分考虑学生的生理、社会和认知情况,诱发出学生的最佳表现。(10)教育评价为低利害评价。将外部的高利害考试和课堂的低利害评价相结合,能够降低外部考试可能存在的不良影响。同时,利用清晰的标准对学生个体的表现进行评判并辅以良好的反馈,避免了与他人比较而产生的挫败感,能够维持学生的兴趣(p.159-161)。

Hamp-Lyons(2007)将评价文化看作是一种上位的概念,下分为学习文化和考试文化。这里的学习文化也就等同于上文Inbar-Lourie的评价文化和Gipps的教育评价。Hamp-Lyons对评价文化(或者说课堂评价)的特征进行了描述,认为它聚焦于语言流利度,更加关注学生个体,更加关注学生的学业进步和成绩,更加关注学习者,更加关注学习过程,强调教师和学生的声音,更加关注促学评价。她认为在香港这样测试文化根深蒂固的地方,教师要能够在评价方面发出声音,必须在教学评价方面有充足的职前准备和在职发展。