浅析大学教师教学评价方法之技术效能-教学质量监督评估中心（教师发展中心）

浅析大学教师教学评价方法之技术效能

2016-11-18

在我国，尽管大学教学与科研的失衡问题很早就引起了高等教育工作者的重视，但该领域对教学评价方法和技术的研究却一直比较薄弱，实务界对教学评价方法的运用也不尽如人意。辨识、分析以及解决我国大学教师评价存在的主要问题，对教学评价方法的技术效能进行系统化梳理，对提高评价使用者的认知、选择和运用能力，落实教学在教师管理中的应有地位具有十分重要的意义。本文所做技术分析适用于与教师岗位分类管理、职称晋升、人才计划、奖励与惩罚等高风险人事决策挂钩的教师教学总结性评价。

一、教师评价制度中的教学评价问题

我国高等教育教师评价的“应然”和“实然”之间存在很大的差距，突出表现在制度框架中科研与教学的严重失衡。有学者认为制度失衡仅仅是表象，真正的原因在于高校“教学学术”理念的缺失。这些学者以美国著名学者博耶1990年对“教学学术”的界定为理论支撑，认为中国高校如果能沿着博耶的逻辑，转变观念、更新理念，那么评价制度中教学将获得与科研同等的重要地位，进而教育活动中教师职业道德与职业素养下滑等问题均能迎刃而解。

然而，在我国导致中国大学科研与教学失衡的因素并非仅在观念层面。中国历来是一个教育大国，中国人对教育的重视为世界称道，无论教学是否归属学术范畴，中国教育者对教书育人这一基本使命的重要性是达成普遍共识的。制度不合理的主要原因在于贯彻支撑这一观念的教师评价技术没有跟上现代化教育管理实践的要求。

现行中国高等教育教师评价制度的逻辑起点源于西方的现代教育评价，其体系的框架搭建和方法技术的应用虽也结合我国过往经验，但主要还是以学习和模仿发达国家模式为演进路线。这种安排在鉴定教师科学研究活动质量方面是行得通的，尽管各高校的科研评价体系仍存在许多为人诟病的地方，但通过学习西方经验依据学科特色构建多个本土论文影响因子系统，科研评价在技术上已基本达到“公平公正”这一基础要求，能够基本满足大学对科研的评价需求。相比之下，教学评价在引进西方成熟做法的过程中却遇到了本土化难题。由于西方教学评价主要采用主观、质性的评价方法与技术，在我国以“差序格局”为主导的社会结构和文化土壤环境下，其评价的公平公正性遭到了广泛争议和质疑。

换言之，中国高等教育教学与科研失衡的原因虽表面看来源自制度的价值取向，而实质在于评价实践长期面临着技术瓶颈。有部分学者也注意到了评价方法与技术应用水平低下对我国高等教育评价实践的影响。遗憾的是，这方面的研究一直都比较薄弱。研究者要么仅从整个教育评价架构层面对评价方法的技术价值、技术效用等问题进行陈述，未深入到机理层面对各方法进行逐一鉴别；要么罗列各方法的概念、理论依据、基本程序、指标体系等，在方法的技术问题上却浅尝辄止，缺乏深度开掘，难以对实践提供具有系统性的理论指导。鉴于此，本文将致力于填补当前研究空白，针对实践中面临的技术难点，提供一套对评价方法效能进行元分析的指标体系，并根据此体系对各教学评价方法进行具体到操作层面的系统化梳理，为高校落实和提高教学评价的公平公正性探索一条切实可行的路径。

二、衡量教学评价方法之效能的技术指标

评估标准，根据美国教育评估标准联合委员会的定义，是指从事评估专业实践的人们相互之间达成的共识原则，旨在通过标准的设立与达成，提高评估质量，增强其公平公正性。评估技术作为评估标准的主要构成，其共识原则的指向首先集中于可供选择的各种评价方法的技术效用；然后关注评价方法所涉及的评估程序和工具操作条件的实际可行度。

需要指出的是，本文所建议的技术指标较为宽泛，不能代替诸如定性和定量研究设计与分析、测量与数据收集、数据分析等研究方法领域的具体指标与标准。提供这一技术指标的目的是为高校教师教学评价的利益相关者提供一个简单明了的认知框架，为短期内解决当前大学教师教学评价难题，提高评价质量寻找突破口。本文提出的评价技术指标具体如下：

（一）准确性

教育评价以事实判断为基础，教育事实判断的科学性直接影响价值判断的科学性。科学准确的事实判断必须具有两个基本属性：有效、可靠。这是各学科科学解释自然或社会现象所须遵循的两大基本准则。

1.有效性

在测量学中，有效性通常通过效度这个概念来体现，指一个测量工具（或操作性定义）是否测量了它本应测量的内容。保罗考兹比教授（Paul Cozby）在其所著的方法论教材中讲述了一个关于零效度的例子：假设你想测测自己的智力，测试者却让你站到一个类似鞋码器的测试仪器上，显然鞋码信息对智力程度的表达是完全无效的。以此类推，教育评价的有效性主要取决于评价结果与评价客体的事实本质是否相符以及相符的程度如何。

2.可靠性

可靠性在测量学中是通过信度这个概念来体现的，是任何总能够产生相同结果的系统所具备的一种属性。再借用保罗·考兹比教授的举例，鞋码器虽然在测量智力方面是无效的，却显示出许多类型的信度，例如这个仪器无论测量多少次，对同一客体都会呈现出一致的读数（测量学称之为“重测信度”），并且无论谁操作它，它都会给出一样的读数（称之为“评分者信度”）。信度的形式较多，但是与教师总结性评价最相关的是重测信度以及评分者信度。信度在教育评价领域通常是指评价结果的一致性，即如果对同一教育事物进行多次测评，是否能够得到相同或相似的结果。

（二）可行性

设立可行性指标是为了确保教学评价的方案是实际可行的。要注意的方面具体包括（但不仅限于）：在数据和资料收集方案决定之前，确保各种信息收集计划的可操作性；主要选择那些与评价人员相关技术水平一致的程序步骤；必要的时候，对评价人员进行短期培训；对于可能出现的问题，提前做好后备方案，等等。严格来讲，可行性指标并不完全属于技术范畴，其内涵通常还涵盖政治与成本效益方面的考虑。

三、评价技术指标在实践应用时应注意的关键点

教师评价作为一种对人的价值判断活动，一开始就与社会科学研究方法的应用密切联系。笔者根据在社会科学研究、教育测量以及教育评价等领域积累的知识与经验，梳理出高等教育教师评价过程的几个关键节点，以期帮助在评价实践中提高对教学事实的准确判断：

第一，清楚地了解评价主体的反映能力。从高等教育评价方法的技术起源来看，任何一种方法都是为了解决与特定对象有关的问题而开发出来的，在教师评价实践中，如果不结合评价目的，批判考虑评价主体在达成评价任务方面的有效程度，则评价很难达到预期的目的。以目前我国高等教育界运用最普遍的学生评教为例，其在西方发达国家的发源与全面质量管理以及人本主义思潮对教育界的冲击紧密相关。学生评价教学在彰显主体关系平等、价值意义同构等现代教育理念方面具有其他方法不能望其项背的功能。然而当评价目的转向衡量教师劳动质量时，学生评教本身的局限就凸显出来。教师的知识传播行为具有非常强的复杂性和学术性，尽管学生是教学过程的重要参与方，但是学生在教师掌握知识的深度广度、课程设计能力以及所用教学材料的科学合理性方面却始终处于信息弱势，因而很难准确做出符合价值主体需求的判断。

第二，清楚地了解评价工具的信息收集能力。关于评价工具的测量能力，测量学中有专门的实证检验方法，但对于大多数教育管理者而言，这些检验方法也许并不实用。本文所谈及的评价工具测量能力更为直观。教师评价所涉及的资料收集方法大多源自社会科学研究方法，虽然这些方法经过多年的发展已经比较成熟，但是在人类复杂的情感、态度、认知、行为等属性特征面前，其准确捕捉与评价目的一致的信息能力本身就各有长短。比如教学评价中常见的问卷受其书面形式的限制，对行为特征的测量能力就远不及对态度、情感等主观感受特征的测量。而相较之下，直接观察对行为信息的采集则更为敏锐。此外，由于问卷主要以量化的形式表达意见，有时会使一些评价项目带上不太符合逻辑的精确性，反而导致其甄别精准度降低。某些大学的学生评教数据，大部分老师的得分在98以上（百分制），人际差距精确到十分位。学校却常将这些结果进行排名，并以此作为鉴别教师教学水平高低的依据。那么得99.9分的老师真的优于99.8的老师吗？这样的排名显然是无效的，并有失公允。

第三，清楚地了解评价程序的抗干扰能力。在现阶段大学教师教学评价条件下，教学事实的许多方面是难以客观量化的，主观量化和主观质性评价便成为了主导。这些方法的共同特征是通过各类“人”对教学事实的“真”进行主观反映，因而评价实施的过程中，不可避免地会受到人对教育事物的认识差异以及人际主观情感或利益的冲突影响，某些情况下甚至出现评价主体不严格尊重事实，不按照科学标准进行评议的“形式主义”和“好好先生”现象。评价工作者因此须对各个步骤在抵抗人为因素影响的优势与局限方面有清晰的了解，认真思考如何利用某些程序的合理正义性降低甚至排除“人情关系”等对评价准确性可能造成的负面干扰。

此外，本文将内涵多维的“可行性”指标置于大学教师评价之“技术指标”框架下，意在提醒高校顶层设计与决策人员在注重教学评价准确性与公平公正性的前提下，充分考虑方案的实用性、政治性以及经济性，避免落入“唯技术论”之陷阱，设计出理论上可行但实际不可用的评价方案。不过，到目前为止大多数高校的教学评价实践与“唯技术论”的方向正相反，往往在“利用现有管理条件”思想下，为可行性而牺牲准确性要求。那么，可行性与准确性之间究竟孰轻孰重？笔者认为鉴于总结性评价对个体教师的高风险性，在评价成本与潜在政治影响或者经济成本尚未成为不可逾越的障碍的情况下，准确性应该总是优先于可行性。毕竟，只有首先实现对教学事实的准确把握，公平公正的教师评价才能有坚实的物质基础。

四、教学评价方法之技术效能分析

基于以上技术指标及其在应用时应注意的要点，沿着“要素解构——综合归纳”的思路，本文借用“标准参照评估”法的比较视角对各方法的技术效能进行了从局部到整体的等级区分。参照的基准为美国高校广泛使用的学生评教。作为基准，此版本学生评教方法在有效性、可靠性以及可行性三个技术维度的评价等级设定均为“+”，其他评价方法高于此基准则相应增加“+”符号，反之则标记“-”符号，“+”或“-”的个数由与基准之间的差异程度决定。分析结果见表1。

在表1中，整体技术效能是三个要素所涉及的准确性效能之综合，辅以方法可行性进行总体评判。在评判各要素对评价方法有效性的影响时基于两方面认识：（1）评价主体对客体教学水平、教学质量的反映能力。校内外同行、懂教学的管理者被认为比学生有更高的反映能力（有效性等级“++”），而管理者与用人单位由于不直接参与教学过程被认为普遍比学生的反映能力低（有效性等级“-”）；（2）所采用评价工具对教学事实信息的收集能力。评价者直接观察课堂教学行为（或教学录像）被认为比基准工具（评教问卷）有更强的信息收集能力（有效性等级“++”）；辅以配套教学档案材料则有效性提升一个等级（+++）；如果教学录像是随机获取的，又有配套教学档案材料，则此评价工具的有效性等级为最高（++++）。在评判各要素对评价方法可靠性的影响时处于以下两方面考虑：（1）评价主体的数量（旨在关注“重测信度”）。主体数量少于基准的，可靠性等级均为“-；（2）评价程序的抗干扰能力（旨在关注评分者信度）。非匿名式同事评价和管理者评价（校领导评价除外）因无法较圆满的降低评议者与被评议教师之“人情关系”或“恶意竞争”的干扰，其评分者信度等级低于基准（“-”）；省内同行评价因存在专家与被评议教师认识的可能性而被视为和基准有同等的评分者信度；相比之下，省外同行匿名式评价、毕业生评价以及用人单位评价因在很大程度上克服了人情干扰而被认为具有比基准更高的评分者信度（“++”）。在评判可行性方面，管理者评价、省内同行公开课评价、毕业生评价和用人单位评价因面临比率严重失调的人力困境，均被赋予比基准低的等级（“-”）；其他评价方法则与基准的操作可行性等级相同。根据表1的分析结果，在构建科学合理的大学教师教学评价体系时应注意：

表1 大学教师教学评价方法之技术效能

　　（一）运用多种方法，避免教学评价实践的简单化倾向

教育评价是对教育事物或人物的组织价值（或社会价值）的系统判断，属于典型的主观判断。但是公平公正的教师评价最根本的依据仍然在客观物质世界，需要通过合目的、合规律地收集和分析信息，对教师教育活动的事实本质进行科学的认识和反映。为实现这个目标，评价方案应同时具备高有效性、高可靠性与高可行性。然而，表1显示，尽管目前大学教学评价方法的储备是丰富的，但是没有一种或一类方法在技术效能方面能同时达到此要求。因此，面对复杂的高等教育评价任务，有必要注意“方法多样、主体多元、内容多维”，根据评价目的与基础条件，扬长避短，互为补充。

当前在我国高等教育教师教学评价实践中普遍存在的问题是，丰富的评价方法资源在实际中很少得到开发利用，甚至很少受到关注，这种将复杂的教育教学现象简单化、单一化技术处理的做法，不能不说是我国大学教师评价发展的一大遗憾。充分发掘、合理利用现有高等教育教学评价方法之技术资源，是迅速高效提高我国教育评价水平的可行路径，也是高等教育评价发展的客观要求。

（二）注意微观细节，避免教学评价方法的误用滥用

表1同样显示，即使是同一类评价方法，细节的不同设计也会导致整个方法的技术效能出现较大差异。以学生评教为例，其主要信息收集方法为问卷调查。社会科学研究方法论强调使用“匿名制”与“自愿参与”两个措施以保障调查结果准确性。相较于美国高校，我国部分高校的学生评教活动却并未意识到这两项措施的重要性，为单纯追求学生参与率，以选课权为交换筹码，强迫每个学生对授课教师的教学进行评价。表面看来，似乎参与评议的人数增加了，评议结果就更可靠，殊不知在非自发性动力驱使下的评价，使本来无兴趣参与的问卷回答者极易罔顾评价目的与事实，胡乱填写，并最终导致“纯净”数据被某些“污染”数据侵蚀，使得评教结果的整体可靠性降低。对比之下，“学生评价教学录像”式评教却由于既保证了足够的评议者数量，又通过让本校非授课班级学生或外校学生参与的方式基本克服了学生评教中自身背景、教师背景以及课程背景等因素对结果的消极影响，因此方法的整体有效性与可靠性得到了有力保障。

从我国高等教育评价的发展历程观察，我国的相关理论研究、制度建设和实践活动一直坚持走中西结合的道路。前面对不同版本“学生评教”及其技术效能差异的解释表明，在“拿来”西方经验的时候，应充分了解每种评价方法的国别土壤，历史起源，教育文化，资源条件以及技术要求等等，以保障评价方法在我国的微观选择在评价目的、评价对象特点和操作条件的配套使用上科学合理，避免评价方法在实践中的误用、滥用等严重后果。

（三）明晰技术效能，推动教学评价方法的不断创新

从高等教育评价发展的宏观需求看，充分了解现有评价方法的技术要求与效能还有助于教育评价方法的技术创新，因为在方法与技术的形成过程中，根据现实需求，对原有方法的相关量度或程序作出一些调整和变化，本身就有可能衍生出一些新的方法与技术。1985年，美国学者霍瑞斯·曼（Horace Mann）在波士顿文法学校以小论文笔试取代传统口试的改革虽是从口头到书面的调整，却开启了以学生书面考试成绩评估学校教学效能的传统。表1列举的教师教学评价方法中，包含很多通过细节微调实现方法创新的例子。比如，同事评估从最初的内部进行到引入校内外专家，并由此衍生出“同行评价”；评价工具从最初的课堂实地观察到引入教学录像，使得跨地域同行评审成为可能。而本文首次提出的“随机课堂教学录像”概念，旨在实现对教师教学信息采集视野从最优状态瞬间捕捉扩展到持续性一般状态反映，使得进一步提高对教师教学事实的准确把握成为可能。当然，虽然仅多了“随机”二字，这背后蕴含的社会科学研究技术要求更严，所需评价成本也更高。

总之，在现代教育质量保障思想方法体系中，教师是大学最宝贵的资源。教师对教育教学的重视度和贡献度，与相关教师管理制度为其提供什么样的动力、条件和机会紧密相关。评价作为师资队伍管理体系的核心机制，只有当其真正实现对教学事实的公平公正评测时，才能大面积激发教师教学行为朝组织目标方向正态前进。针对当前我国大学在教学评价方面的短板，本文为高校管理者和其他相关利益者提供了一个简单明了的技术指标框架，帮助其对各评价方法进行系统梳理，了解原理，明白操作，对比优缺点，为弥补现阶段相关研究的不足，落实教学在教师管理实践的应有权重提供了技术可行性。当然，在一个以财政支持为主要经费来源的高等教育体系，仅在大学内部攻克教学评价技术瓶颈是不够的。虽然使用者提高了对评价资源的理性认知以及选择能力，但是部分高校的专任教师管理方案搭建仍将受制于来自体系内外宏观环境的压力。当前，我国高等教育体系内部资源分配机制以及社会第三方教育质量监控机制在评价大学教师教育教学集体成果方面同样面临准确性和可行性困境。而这些都是需要通过高等教育质量评价方法的技术研究与开发才能解决的，也是高等教育评价需要迫切发展的一个重要方向。

（来源：2016年第3期《当代教育科学》）

上一条 : 泛在学习环境下SPOC有效教学的实践与研究

下一条 : 教学评议：从“以学生为中心”到“以同行为中心”