一 TIMSS科学素质测评的目标

当今世界,科学技术是第一生产力,社会发展离不开科学技术的发展,国家竞争力在很大程度上依赖于科技实力,因此,国家和社会的进步需要具备高水平科学素质的专业人才。与此同时,人们日常生活的每一天都会面对各种各样的科学技术产品和科学相关信息,全球变暖、食品安全、疾病治疗等科学议题与每个人的生活息息相关,公民需要具备基本的科学素质才能更有效地生活在这个世界上。科学素质是TIMSS测评的重点内容,“以评促建”,通过测评来促进科学教育的发展是TIMSS主办方IEA长期关注的研究话题。

(一)TIMSS拟解决的问题

早在1995年TIMSS第一次测评之前,其主办方IEA就已经积累了非常丰富的测评经验和评价研究成果。本着“以评促建”的宗旨,TIMSS科学素质测评以学生在学校的科学学习成效为测评内容,同时关注学生的学习背景,最终找出直接影响学生学习的因素,进而通过教育政策的调整来改善这些因素,促进学生的学习,例如,课程的设置、资源的分配、教学的方式等。基于评价的宗旨和目标,TIMSS在1995年第一次测评时就将其评价工作系统地界定为广义的课程评价,并在后续历次测评中延用这一模型(见图1-1)。TIMSS的课程评价模型包含三个层面,这三个层面综合起来对学生的学业水平起到决定性影响:①预期的课程(the intended curriculum),即期待教授的内容,反映了社会对人才培养的预期,但是也受到国家/地区教育资源的限制;②实际执行的课程(the implemented curriculum),即在课堂上实际教授的内容,虽然以预期的课程为指导,但是在很大程度上取决于教师的教学行为,而教师的教学行为又在很大程度上受到他们自身的受教育经历、培训和经验以及学校的组织机构、与同事的合作和学生的生源组成的影响;③实际达成的课程(the attained curriculum),即学生实际学到的内容,学生的学业成绩虽然在一定程度上依赖于预期的课程和实际执行的课程,但是在更大程度上取决于学生个体的特征,包括学生自身能力、态度、兴趣和努力。

图1-1 TIMSS的课程评价模型

资料来源:Mullis,I.V.S.,Martin,M.O.(Eds.).TIMSS 2019 Assessment Frameworks .Chestnut Hill,MA:International Association for the Evaluation of Educational Achievement (IEA),2017:4.

TIMSS课程评价模型的三个层面看似指向了三个不同的方面,但实际上是一个统一的系统,三个层面综合作用最终体现在学生的学业水平上。基于这一模型,TIMSS提出了四个研究问题。[2]

(1)期待学生学习的内容是什么?

(2)提供教学支持的是谁?

(3)如何组织教学?

(4)学生实际学到了什么?

第一个研究问题指向的是课程评价模型中预期的课程,TIMSS通过比较分析参与国家/地区的课程文件和教科书来回答这个问题。第二个研究问题指向的是课程评价模型中实际执行的课程,要解决如下子问题:每个国家/地区的师资力量有何特征(例如,受教育情况、教学经验、教学态度和指导思想)?教师是如何开展课堂教学的(例如,教师运用什么教学方法,教师看重什么课程内容)?第三个研究问题指向的是实际达成的课程,要解决如下子问题:学生实际学到了什么?不同国家/地区的学生在学业水平上有何差异?什么因素影响着学生的学习?

(二)TIMSS测评对象

TIMSS所界定的广义的课程评价模型,实际上将教育系统的要素有机地整合在一起,整套系统的效能最终体现为学生的培养质量(即学生的学业水平),其他要素都是有可能影响学生学业水平的因素。其中,学生的学业水平是TIMSS测评的核心内容,每次测评都会开发专门的测评工具来评价学生的学业水平;影响学生学业水平的因素则通过配套的背景问卷来调查。

为了实现评价目标、反映教育系统效能并找出影响因素,TIMSS以三个时间点的在读青少年学生为测评对象。

(1)具备一定的认知能力,已经能够自主作答的9岁左右的学生,通常这个年龄的学生在读年级主要集中在4年级,也有一小部分在读3年级;自2011年测评起,不再跨年级抽样,而是整体抽取处在4年级的班级,因为TIMSS关注的课程和教学都是以年级为基础的,同时,整体抽取班级对学校来讲更便于组织,也能减少对学校正常教学秩序的影响。

(2)在大多数国家/地区已经完成了小学的学习并进入中学学习的13岁左右学生,通常这个年龄的学生在读年级主要集中在8年级,也有一小部分在读7年级;同样的,自2011年测评起,也不再跨年级抽样,而是整体抽取处在8年级的班级。

(3)中学最后一年的学生,包括职业学校的学生。

其中,8年级测评是每次测评的必测内容,4年级测评和中学毕业年级的测评不是每一次都开展。就目前来看,已经举行的6次TIMSS测评中,每次测评都有对8年级在读学生的测评,有5次测评同时开展了对4年级在读学生的测评,有3次测评同时开展了对中学毕业年级在读学生的测评。在参与测评的国家/地区当中,有的国家/地区从第一次测评开始就持续参加历次TIMSS测评,有的陆续参与到TIMSS测评当中来,有的则中断过TIMSS测评。表1-1直观呈现了各个国家/地区参与历次TIMSS测评的情况(按国家/地区英文名字母顺序排序)。其中,深色底纹的国家/地区为本书的重点分析样本,在本书第二~五章将逐一分析这些国家/地区参与历次TIMSS测评的结果。本书分析样本的选择原则与青少年科学素质丛书系列的第一册《PISA测评:国际青少年科学素质全景解读》一致,即:①2016年国家/地区生产总值排名前10;②教育发达国家/地区;③地区均衡,能覆盖或代表某一个地区。在PISA分析选中的18个国家/地区当中,有3个国家/地区(印度、中国澳门、巴西)没有参加过TIMSS测评,因此排除这3个国家/地区,本书重点对余下的15个国家/地区进行TIMSS测评结果的分析。此外,我国大陆地区目前也还没有参加过TIMSS测评,所以不在分析之列。

表1-1 历次TIMSS科学素质测评的参与国家/地区

续表

续表

续表

(三)TIMSS抽样方法

所有国家/地区可以自行决定是否参加TIMSS测评,确定参加TIMSS测评后也可以自主选择参加哪个年级的测评。一旦选定了,则需要严格遵循TIMSS的抽样方法进行抽样,以保证所收集数据具有代表性且能够真实反映拟测评的内容。在1995年的第一次测评中,TIMSS就发布了详细的抽样规则,在后续测评中,根据已有测评经验,综合考虑代表性和可操作性,TIMSS陆续对抽样规则和方法进行了调整和改进。总的来说,TIMSS的抽样步骤没有大的变化,主要包含三个环节:列出参与国家/地区所辖的全部符合条件的学校,在学校层面建立参测学校样本库,抽取学校并对被抽中学校的班级和学生个体进行抽样(见图1-2)。

图1-2 TIMSS抽样模型

上述抽样的每一个环节都有详细的规则和说明,以下将以最近一次TIMSS测评(即2015年测评)的抽样规则[3]为例,说明TIMSS的抽样方法。理想状态下,TIMSS期待参与测评的国家/地区所辖的全部符合年龄条件的在读学生都参加测评,但是,现实情况是复杂多样的,不是所有国家/地区都能保证所有学生参加,比如有的国家/地区包含一些无法用当地语言作答的国际学生,或者一些特殊学校的学生也可能存在无法完成作答的情况。根据TIMSS抽样的统一标准,参与国家/地区定义的目标群体不得少于该国家/地区期待的目标群体的95%;此外,定义本国/地区的目标群体时剔除的学校比例以及学生个体层面剔除的比例之和不得大于5%。

首先,参与国家/地区需要在本国/地区团队和TIMSS抽样专家的共同协作下,严格按照TIMSS抽样规则来列出符合条件的全部学校(参与国家/地区期待的目标群体)。在这个过程中,各参与国家/地区需要依照TIMSS期待的目标人群来确定本国/地区参与测评的年级,然后把本国/地区包含该年级的全部学校列出来,如果学校不包含拟测评的年级则自动从学校样本中剔除。大部分国家/地区的测评年级都是4年级和8年级,但有个别国家/地区法定入学年纪较小(比如英国、北爱尔兰、新西兰),这些国家/地区参与测评的年级则是5年级和9年级。

接着,各国家/地区需要建立参测学校样本库,定义本国/地区的目标群体。学校样本库的覆盖率控制在全国/地区所有符合条件的学校数量的95%及以上,只有极少数符合以下条件的学校能够从学校样本库中剔除:①学校地理位置非常偏远;②学校只有极少数学生;③学校的课程和建制与该国家/地区的主流教育体系不一样;④学校是为特殊需求的学生开办的。

然后,各国家/地区在学校样本库(即参与国/地区定义的目标群体)中抽取参与测评的学校和学生。按照TIMSS对样本量的要求,每个年级的测评中,各参与国家/地区应当至少抽取150所学校的4000名学生参与。如果参与国家/地区愿意,可以抽取更多的学校和学生参与测评。在抽中的学校当中,学生是以班级为单位参与测评的,每所学校至少抽取一个班的学生参与测评,也可以抽取多个班级。对于班额较小的国家/地区,有可能需要抽取多于150所学校才能凑足4000名适龄学生;而对于班额较大的国家/地区,则有可能150所学校各抽取一个班最终学生总数远多于4000人。这一环节主要分为三个步骤:从样本库中抽取学校,从被抽中学校中抽取班级,对被抽中班级中的个别学生样本进行剔除。抽取学校的方法与PISA抽样方法一致,采用按规模大小进行的概率比例抽样方法——PPS抽样法(Probability Proportional to their Size)。在抽中的学校当中,运用官方统一提供的校内抽样软件WinW3S对校内的班级进行抽样;各国家/地区将被抽中学校的班级数量和教师信息输入该软件,该软件将机会均等地从中抽取班级;被抽中班级的全体学生参加TIMSS测评。在被抽中的班级中,可能有个别学生无法参加TIMSS测评,可以从最终样本中剔除。学生个体的剔除也有严格的规定,需要满足如下条件之一:①学生存在身体疾病,无法完成TIMSS测评;②学生存在智力问题或精神疾病(读写困难不在此列),无法完成TIMSS测评;③非本土母语的学生,无法使用当地语言进行阅读和表达(包括语言学习短于一年的学生)。经过这一环节确定的样本就是各国家/地区实际参测的有效目标群体。