教育评价论
教育测量,就是依据一定的法则(标准)用数值来描述教育领域内事物的属性,是事实判断的过程。教育评价就是指在系统地、科学地和全面地搜集、整理、处理和分析教育信息的基础上,对教育的价值作出判断的过程,目的在于促进教育改革,提高教育质量。参考图书:黄光扬,《教育测量与评价》,华东师范大学出版社,2012。
教育评价的概念
格兰朗德认为,评价是为了确定学生达到教学目标的程度,收集,分析和解释信息的(课堂)系统过程;评价包括对学生的定量描述(测量)和定性描述(非测量)两方面。即:评价=测量(定量描述)+非测量(定性描述)+价值判断。
斯塔费尔比姆认为,评价是一种划定、获取和提供叙述性和判断性信息的过程。这些信息涉及研究对象的目标、涉及、实施和影响的价值及优缺点,以便指导如何决策、满足教学效能核定的需要,并增加对研究对象的了解。“评价最要的意图不是为了证明,而是为了改进”。
美国教育评价标准委员会对评价给出的定义:评价是对某些现象的价值如优缺点的系统调查,是为教育决策提供依据的过程。
泰勒认为:评价过程在本质上是确定课程和教学大纲在实际上实现教育目标的程度的过程。
教育测量与评价的发展历史
中国是考试制度的发源地,从最早的校、序、庠,到西周建立的考选制度,汉代的察举制、魏晋南北朝时期的九品中正制、科举制度等,但是以前的考试缺乏教育学、心理学、统计学、哲学等科学视角的反思与改进。
欧美国家早期的学校教育考试大多使用口头测验,后面改成笔试,真正的发展是在20世纪初,在桑代克的影响下,教育测试才开始发展起来,专家们编制大量的教育测验,涵盖学科测验、智力测验、个性测验、兴趣测验等。
测量与评价在教学中运用的时机分类
- 形成性测量与评价:在教学过程中经常实施,目的是借此获得教学过程中的连续性的反馈,了解学生的学习效果、学习历程、学习特点、学习困难等信息,作为随时修正自己教学的参考。
- 诊断性策略与评价:多半是在形成性测量与评价之后实施,目的是对个人的问题行为及其原因进行诊断。
- 终结性测量与评价:用于教学结束后,目的其一是检查学生学期的学业达到了什么程度,从而判断教学效果的得失。其二是根据终结性测量与评价的结果,评定学生的学业成就,并将评定结果通知学生家长或记入档案。
教育评价特点
教育大数据与其他大数据的不同,更具有其独特的专业要求。有以下特点:
- 动态性、不可直接比较性
- 学生成长,不同阶段的跳跃或显性表现
- 无论学业分数或能力素养,均不可直接比较
- 横、纵数据的结合
- 横向数据覆盖区域、学校、教师、学生的发展与变化
- 纵向数据贯穿于发展全过程(变动情况:升、降、平;主观、客观的原因的影响)
各级政府教育管理部门、各区域、学校、任课教师均有不同的数据要求。立足点不同,同样的数据,评价的结果相异。
教育评价的要注重增值,比如 50 分到 60 分,和 80 分到 82 分。
教育评价的方法
1. 问卷设计
问卷设计包括几部分:封面信、指导语、问卷设计大纲、问卷设计的结构。
(一)封面信
一封致被调查者的短信,由于常常放在问卷的封面,故称封面信。主要包括以下内容:
1.调查目的和大致内容
2.请求合作并感谢支持
3.匿名回答和资料保密
要求:封面信的文字要亲切,语气要诚恳、礼貌,但不要太随便。要把各方面的内容讲清楚,不能太罗嗦。
(二)指导语
告诉被调查者如何正确地填答问卷,或提示调查者如何正确完成问卷调查工作的语句。主要包括:
1.如何填写问卷的说明
2.如何回答问题的说明
3.对问卷中某些问题含义的进一步解释
4.对某些特殊的或复杂的填答形式的举例
指导语内容可根据问卷的复杂程度、填写方式难易程度以及调查对象的文化水平等情况的不同而不尽相同。如问卷中问题形式简单,容易理解,方便填答,调查对象文化程度较高,则指导语可以很少,甚至仅仅在封面信中稍作说明即可。反之,指导语就要相应增加。
(三)问卷大纲
1.明确问卷核心要解决的问题
2.三级指标构建
3.具体问题的设计,形成问卷
(四)问卷设计的结构
1.问题的分类:问卷中所有问题可以归于特征问题、行为问题和态度问题三类。
- 特征问题:测量被调查者基本情况的问题,如年龄、性别、职业、文化程度、婚姻状况、收入、家庭规模等。
- 行为问题:测量被调查者过去发生的或现在进行的某些实际行为和有关事件的问题。例如:请问上个星期您看了几场电影?请问你们家订了几份报纸?
- 态度问题:测量被调查者对某一事物的看法、愿望、态度、情感、认识等主观因素问题。例如:您认为要改变乘车难问题,关键要抓好哪几项工作?依您的看法,幸福美满的家庭最好有几个孩子
2.问题的形式
- 开放式问题:由于不需列出答案,设计时,只需要在问题下面留出一块空白即可。
- 封闭式问题:封闭式问题及答案的形式比较复杂,常用的几种形式。
3.答案的设计
答案设计的工作可以概括为两个主要的方面:
- 穷尽性:预测所有可能的回答,并将它们严格分类。
- 互斥性:答案互相之间不能交叉重叠或相互包含。
2. 考试设计和评价
(一)试题、试卷的质量标准
- 内容上:教育性(培养目标、认知)、可推广性(选拔、通过,知识目标)、公平性(多样、统一)、自洽性(重难点、技能)
- 质量要求:试题的科学性(没有错误)、试题的适纲性(符合大纲)、试题的有效性(无法替代)、试题的针对性(重、难点)、试题的严谨性(无漏洞)、试题的公平性(针对背景)、试题的新颖性(有但不能多)、试题的优美自然(简洁、流畅)
(二)测验双向细目表
测验双向细目表是编制测验的蓝图,它详细说明了测验的内容、测验目标,对试题数量、考试时间安排、测验分数分配等,都起着重要作用,因此,它是编制测验必不可少的一环。
(三)评价试卷质量的指标
- 整套试卷:信度(一致、稳定)、效度(有效、准确)
- 每一道题:难度(难易程度)、区分度(考生实际水平的区分程度或鉴别能力)
客观题的难度计算公式:P=1-R/N (R为答对该试题人数,N为参加测验总人数),有效 P 值难度在 0.5+0.2。
客观题的区分度计算公式:D=PH-PL(PH 为高分组(班级排名前25%)答对该题的百分比,PL 为低分组(班级排名后25%)答对该题的百分比)。区分度 D 的取值范围介于 -1~+1 之间,值越大,区分度的效果越佳。D>0 为正区分,D<0 为负区分,D=0 为零区分。
3. 实验设计
实验研究设计目的在于建立两个或多个变量之间的因果关系。实验假设:干预、其他变量控制、结果比较。
示例实验设计:将样本随机分配设置 4 组,3 组为干预组,每组的干预方法不同,1 组为对照组即不做任何干预。经过实验周期后,分析 4 组的影响评估,干预组都会有影响,每组效果不同。
4. 教育档案袋
档案袋是什么:
- 一种经过周密思考的目标、任务和标准的结构
- 一个使用更多变化的、真实的、基于表现的学生能力的标识机会
- 一个连续的带有指导的评估过程
- 一个开放的、共享的、可大大的存放学生作品与进步记录的地方
- 一个积极地思考、赋予价值和评价教与学的过程
- 一个对标准参考测验或标准考试的补充
档案袋不是什么:
- 一个所有事物或任何事物的存放处
- 一个储存间接的、过时的读写任务的地方
- 一个一年一次的、课堂之外的、为其他的人需要的评估结果
- 一个累计的记录分数、等级和儿童不同接近的秘密信息的文件夹
- 一个收集学生作品的样本的地方
- 一个避免学生标准的判断
教育档案袋的类型包括:展示型、文件型、评价型、过程型、复合型。