原创:王开东
教育和医学,非常相似。一个解决人精神的成长,一个医治人肉体的伤痛。奇怪的是,医学性命攸关,但社会对医学几乎没有什么评价,这个病该怎么搞,那个病该怎么治,都是医生说了算。但对教育,每年高考结束,人人争先恐后发表评论。这是为什么呢?
(资料图片仅供参考)
答案很简单,医学具有专业性,医学是科学。人们对科学充满敬畏之心,无法评价,也评价不了。但教育就不同了。每个人都是教育家,每个人都觉得自己真理在握,谁都能对教育说出子丑寅卯来。
与医学相比,教育这些年几乎没什么进步。孔子当年骂弟子宰予,烂泥糊不上墙。我们到今天还这样骂。
答案很简单,因为医学讲究循证,临床治疗以及药品使用都要基于证据,背后都有大数据的支撑。新药研发过程中的双盲比对,使用成效的逆向追溯等等,医学最终拿出的结果都是有学理支撑的,都是有实证的,比如现在很有名的医学循证。
但教育呢?教育没有循证。教育讲究理念和艺术,注重经验感受,缺少科学实证,越来越玄乎,差不多成为一门玄学了。都是我感觉如何,觉得怎样,认为该怎样。一千个人眼里有一千种好的教育。
医学现在很成熟了,一个病一旦确诊,马上就有一整套成熟的治疗方案,还有疗效显著的药物。但教育呢?比如这个孩子早恋,这个孩子有点小偷小摸,我们有明确的处理方案吗?有药到病除的方法吗?教育没有。教育都是靠经验。所谓特级教师,就是特别有经验的老师。这些经验在他那里有效,在别人那里未必就是有效的。
正因为这个原因,教育的焦虑远远大于医学。
区域的焦虑在于,为什么我们那么努力,区域教育成绩却越来越下滑?背后真实的原因究竟是什么?
学校的焦虑在于,我们已经把所有时间都精细化了,但学生成绩还是不见提高。未来我们应该向哪里要质量?
老师的焦虑在于,为什么我起早贪黑,学生的成绩却越来越差,一届不如一届?
家长的焦虑是,我们把所有时间都堆在孩子身上了,疲惫不堪,不堪重负,为什么孩子成绩还是不如别人。别人家的孩子轻轻松松考得很好,这究竟是怎么回事?
请注意,他们所提到的全都是成绩。成绩来源于哪里?成绩来源于考试。考试告诉我们什么?考试告诉我们一个确定的结果,告诉你孩子目前的水平和状况,但考试不能告诉你这种状况是怎么形成的。你孩子的成绩好,为什么好?怎样变得更好?你孩子成绩差,为什么差?如何对症下药,获得最大程度的提高?
这些考试都没办法解决,学科司令有限的数据也没办法解决。老师认为学生成绩下降,就是时间没到位,不够努力。如果足够努力,烟锅都给你熏黑了,怎么可能成绩弄不好?这样的认识都是荒谬的,我们所有的社会焦虑就在这里。
用大数据精准分析孩子教育质量的情况,这是我们教育监测中心的工作。我们是教育系统的实证主义者,我们根据大数据的追踪,基于证据,科学精准地测量出影响教育质量的相关因素,以及这些影响因素究竟有多大。
所以监测与考试不同。
首先是目的不同。统考主要目的是选拔和甄别,对象是指向个体,结果用作升学参考;监测主要目的是诊断和预警,对象是指向整体,结果用于教育决策和教育教学的改进,无证据,不决策。
其次是内容不同,统考重点考察学生知识、能力、素养水平,监测除此外,还设置师生相关因素问卷测试,关注影响学业质量的各种因素。也就是说,统考只考察学生的智力因素,我们还可以监测出学生的非智力因素等影响因子。
正因为有这些不同,所以统考用试卷,监测用工具。
那么,问题又来了。监测为什么不是试卷而是工具?
试卷的分数具有偶然性,语文上周考120,这周90很正常。之所以偶然性很大,是因为试卷的容量有限,考这道题和考那道题,结果截然不同,考试状态也是一个方面。但考试只能如此,因为统考指向所有学生个体,他们必须全学科参加,时间有限,题量有限,还必须要甄别出高下。
监测为什么叫工具呢?因为工具测量,就像一把尺子一样,任何时候测量都是一样,具有极大的稳定性。监测工具必须具有稳定性,才能建立结构化的、多维的、可连续追踪的海量数据。那么,如何保证监测工具的稳定性呢?
因为监测不指向学生个体,我们可以等比例抽测AB卷,再抽测少量的锚题C卷,锚题C卷由AB卷合并而成,通过锚题C卷把AB卷难度关联起来。
这样下来,我们基本做到要点全覆盖,然后以等概率随机抽样的方式,让区域学生参加某一门学科的某一份试卷测试,这样全覆盖的试卷就成了工具。我们还可以对分数进行处理,比如把每年大市的分数锚定为500分,其他的分数相应进行处理,这样的量尺分解决了多次考试、不同学科以及难度不一的问题,使得所有的分数都能在同一个量尺上衡量。我们还有纠错机制,可以通过多轮试测剔除一些不好的题目,甚至在考后把区分度不好的一些题目删除掉。因为最终得出的是量尺分,所以并不影响我们的分数,也不影响工具的精准度。
但考试就不行。浙江2018年高考,英语试卷的难度设置出现问题。为了补救,考试院对分数进行了加权处理。事件暴露后,省教育厅厅长和考试院院长等一大堆人被处理。
监测因为低利害,而且不指向个体,所以我们可以稳定的通过大数据精准测量出学生整体的学业质量,再结合师生相关因素的考察,就能找到影响这个学业质量的真正原因。
我们为市教育局、区域和学校提供精准科学的大数据分析报告。用大数据支撑的实证数据告诉你,影响孩子学业质量的相关因子究竟有多大,大到我们能不能够承受。
我曾经对监测不以为然。苏州社会版报告说“吃早餐的学生学业成绩更好”,我认为这个结论,我不需要看报告也知道。
为什么呢?因为不吃早餐,肚子饿了,听课效果肯定不佳;长期不吃早餐,对身体健康不利,当然不利于学习;父母不给孩子做早餐,这个家庭氛围大概率也不利于学习。所以这个结论,不吃早餐的孩子学业质量不如吃早餐的,对我没有附加值,没有意义。
但这是什么?这就是经验式教师的自以为是,这就是玄学的理解,吃早餐好,但究竟好到什么程度,我知道吗?我不知道。我也不在乎。中国人都是差不多先生,不在于精准。
我想起了北大附中的选课币制度。如果两个人同时要选油画,但辅导员只想选兴趣更浓厚的学生。但传统的方法,我们无法衡量谁更热爱油画。
所以北大附中学生在选课之初都有100个相同的选课币,这100个选课币学生需要分配到不同的课程上,但你只有这100个选课币,你必须独立自主地权衡和取舍,花费选课币把你的兴趣量化出来。老师一看就明白,这个花费60个选课币的孩子,肯定比花费32个选课币的孩子更热爱油画。因为选课面前没有贫富,大家都有且只有100选课币。
我这样说,大家都已经弄明白了。很多人可能只知道结论,但我们用大数据把这个结论量化了。我们清晰地告诉你们,如何高质量地提高孩子们的教育质量?如何让老师们的努力更有方向、更精准,如何让孩子们的努力摸得着、看得见。
我们告诉家长的,不仅是“吃早餐的学生学业成绩更好”,我们还通过大数据发现,每天都吃早餐的学生学业成绩为508分,而从不或极少吃早餐的学生学业成绩仅为441分,两者相差67分。进一步我们又有发现,“家人每天在家做给我吃”的学生学业成绩最好,高达513分。与不吃早餐学生的学业成绩差距达到了72分。
在家中能在安静的独立空间中学习的学生学业成绩为508分,而与有干扰的开放空间中学习的学生学业成绩为479分,两者相差31分。
家庭藏书量超过200本的学生学业成绩为550分,比家庭藏书量仅为0~25本的学生学业成绩高109分。
比如地球人都知道过度使用智能手机对成绩有影响,但影响到底有多大?
我们监测大数据的结果显示,周一到周五,每天使用智能手机在0.5小时以下的学生,得分519分,使用手机超过3小时的学生,得分只有411分,其学业成绩相差高达108分。
再比如父母陪伴孩子,还是隔代陪伴孩子,大家都觉得隔代教育问题多,但多到什么程度?
小学生母亲和父亲陪伴的学生,学业成绩分别是507分和493分。祖辈陪伴的学生,学业成绩是480分。分别高出27分,和13分。即便是爸爸和妈妈陪伴相比,爸爸也比妈妈陪伴少了14分。所以现在我们知道了,好妈妈胜过好老师,妈妈是孩子的第一任老师。
甚至老师的性别也对学生的阅读水平产生影响。小学阶段,语文老师性别不同,也对学生的阅读能力产生显著差异,并且在1%的置信水平上显著。语文老师是女性的,小学生的阅读总分均值比语文老师是男老师的小学生高了16.1分。
是不是做作业的时间越多越好,以小学六年级学生为例,周一至周五平均每天校内作业时间1~1.49小时,学生的学业成绩是506分;学生作业时间达到3小时,学生的学业成绩是470分。反而低了36分。可见血汗教育有时候只有血汗,没有教育。
还有,补课究竟有没有效果?如果有效果,效果究竟有多大?睡眠时间多少对成绩肯定有影响,但到底影响有多大,能不能承受?这个科学实证的问题不研究,如果不认真分析,我们都将在黑暗中爬行。我们的教育将永远是摸着石头过河。
所以我今天说,我们可以过河,而且不必摸着石头了,所依靠的就是教育监测的力量。教育监测,一定会成为降维打击的有力武器,成为中国教育的新生力量。