网站公告: 2017年解放路小学教育集团教职工消防运动会成绩公示
 
栏目列表  
 
您现在的位置:首页 >>师生园地>>教育视野>>“学习争鸣”:PISA综述
“学习争鸣”:PISA综述
发布时间:2015-04-03   点击:   来源:本站原创   录入者:杜明

 编者按:

PISA(Programme for International Student Assessment学生能力国际评价项目,或译国际学生评价项目)是联合国经济合作与发展组织(OECD)策划的一项国际性学生学业质量比较研究项目。PISA测试的内容主要包括学生的阅读能力、数学能力和科学能力,测试旨在评估OECD成员国15岁学生(相当于初中毕业)在完成义务教育后,是否掌握参与社会工作所需的知识和技能,是否拥有终身学习所必备的基础。中国部分省、自治区、直辖市参加了PISA2006、PISA2009的中国试测研究项目。PISA对于当前常州市即将开展的区域义务教育学业质量监测研究,具有重大参考和借鉴价值,为此,特精心选编了PISA阅读素养、科学素养、数学素养的界定与测评方面的资料,以飨读者;当然,PISA本身并非是完美无缺的,为避免大家阅读时受作者对PISA本身某些具有个人主观色彩的文字的影响,同时还选择了一些PISA的样本试题,以供读者实事求是地认识、判断、学习、借鉴……
 
PISA从2000年开始,每3年进行一次测评,测试的内容主要包括学生的阅读能力、数学能力和科学能力,三者组成一个循环体,在每一次评估中,只对其中一个主要领域作深入评估,另外两个作为次要领域。
通过PISA2000、PISA2003、PISA2006、PISA2009世界范围的大规模评价实践,PISA在阅读、数学、科学三个领域逐步建立和完善了学生素养评价量表,评价义务教育结束阶段15岁学生接触、处理、整合和评价信息的能力,想象性思考的能力,假设和发现能力以及有效传达思想和主见的能力。PISA还包含有学生问卷和学校问卷,目的是测量学生和学校分别在社会、文化、经济以及教育方面的特征。因此PISA 的分析框架中包含了个体、教学、学校以及教育体制四个分析层面,从个体学习者、教学、学校及教育体制四个层面进行分析,同时从社会、文化、经济以及教育因素等方面考察学生和学校的特征。
PISA目的不是指导教师如何进行教学,而是向公众、政策制定者和教育者提供学生在各个学科方面的能力的描述性信息,并对各参加国的教育质量进行横向比较。在学生选取上,PISA通过分层抽样的方法对各国的学校进行抽样,并用矩阵的方法将全部试题拆分成13套纸笔测验,每个学生只需完成其中的一份测验。PISA使用教育测量项目反应理论(RT)中的Rasch模型,将试题的建构校准和学生能力素养的评估统一到同一量尺上,使用Rasch模型可以克服依据经典测量理论建立的评测工具之缺点,建立一个具备等距量尺,涵盖完整难易度,可进行横、纵向比较的多维度评测量表。
PISA2006测试参与国家和地区有58个,PISA2009有68个国家/地区参与。2006年10月教育部考试中心引进并启动了学生能力国际评价PISA2006中国试测研究项目,天津和北京、潍坊三个城市一起参加了2006年PISA在中国大陆地区的试点性测试研究,其中天津共有50所学校的1700多名学生参加了最终的测试,在测验实施的规范化、操作性、精细度以及流程的严密度上深受启发。PISA2009中国试测研究,江苏、天津、河北、吉林、浙江、湖北、海南、四川、云南、宁夏、北京市房山区、北京市海淀区中国人民大学附属中学等,共11个省、自治区、直辖市参加试测研究。
 
第一部分  PISA阅读素养、科学素养、
数学素养的界定与测评
一、PISA阅读素养的界定与测评[]
阅读能力测评是PISA知识和技能调查中的主要内容之一。PISA所谓的阅读能力是指一个人为达到个人目标增长知识、开发潜能以及参与社会活动,而理解运用和反思书面材料的能力。PISA重点评估的是学生是否能对日常生活中可能接触到的各种文书数据,运用其阅读能力所能达到的理解和诠释的程度;是否能从外在世界取得信息、解决问题,并且将问题与课本里的基础知识相结合,建立起自己的知识结构;是否能将在校习得的知识与技能应用于进入社会后所面临的各种情境及挑战。从PISA项目的阅读测评内容看,参加测验的学生阅读必须包括:短篇故事、网络信件、杂志报导以及统计图表等各种形式的信息,然后回答若干问题。PISA主要从获取信息的能力、理解信息的能力、思考和判断能力三个层面来衡量学生的阅读能力。同时,还从应用的角度又将这三方面的能力分成了从高到低的5个层级,为有效评价学生及把握教学的深浅提供了依据。PISA阅读能力评测引入四种阅读目的:个人用途、公共用途、工作需要、接受教育。其阅读文体分为两类:连续文本和非连续文本。PISA在阅读测评中将题目分为开放式建构题、封闭式建构题、简答题、复选题、单选题等五种。
PISA的测评重点不是测量15岁的学生能否进行专业意义上的阅读,而是更多地关注即将离开中学的学生在广泛的连续或不连续的阅读材料基础上建构、扩展并反思阅读材料的能力。
(一)对阅读素养的界定
  阅读素养是指学生为取得个人目标,形成个人知识和潜能及参与社会活动,而理解、运用和反思书面材料的能力。具体而言,有以下三个方面需要作进一步的阐明:
1.理解、运用和反思。与其他的阅读评价项目如PIRLS、IALS等比较,PISA主要增加了“反思”这一内容,要求学生思考文章的内容,应用他们已有的知识理解、思考文章的结构或形式。其目的就是为了强调阅读是相互作用的过程,即阅读者必须从材料中提炼出自己个人的观点和体验。
2.书面材料。PISA认为书面材料包括印刷的、手写的、使用语言并用电子技术呈现的材料。它可以是直观的材料,如表格、图片、地图和图表,但不包括电影、电视或没有文字的图片。这些直观材料可以独立出现,也可以穿插于连续文本中呈现。它也包括电子格式的材料,但有些电子材料在结构和格式上与普通书面材料不同,要求学生采用不同的阅读策略。值得注意的是PISA不使用现在流行的“信息”一词而选择“材料”来表达,这是因为它认为“信息”一词没有充分体现文学内涵。
3.为了取得个人目标,形成个人知识和潜能及参与社会活动。这主要体现了阅读素养发挥作用的各种情境,从个体到公共的,从学校到工作,从终生学习到公民的权利和义务等。“取得个人目标,形成个人知识和潜能”,指出阅读素养有助于实现个人理想,既包括确定的理想如毕业或找到工作,也包括有利于充实个人生活和终身教育的较不确定、较间接的理想。“参与”则包含着人们为社会做贡献和满足个人的需求,它既包括了社会的、文化的和政治的约束,也包含了一个取得个人成功、解放的关键性含义。“社会”主要指经济、政治生活及社会、文化生活。
(二)阅读素养测评的内容
PISA认为阅读不是单向维度的技能,不能仅用一个标准或一个分数进行有效测量。PISA对阅读素养评估的目的是为了了解特定的学生是否为参加工作和参与各自的群体做好了充分的准备。因此,强调对文章的全面理解是PISA形成阅读素养评估项目时考虑的主要因素,它将从五个方面即形成广义的、总体的理解;寻找信息;解释原因;思考文本的内容;思考信息等进行测评,因为这五个方面包含了对文章的完整理解,PISA希望所有阅读者通过这五个方面证实他们的阅读能力。
1.形成广义上的、总体的理解。用于评估此项目的文本可以有很多种,学生主要通过确定文章主题、确定文本命名等主要目的来表明他们对文本的理解。PISA要求阅读者为文本选择或确定一个主题、解释、简单介绍的顺序或确定图表的主要涉及范围,或要求阅读者描述故事背景的主要特点,确定文学作品的主题、解释使用地图或图表的目的,确定邮件的主题或收件人,掌握各种书包括的文本类型、网络主页上的主要观点。因此,确定文本的中心思想或主题,确定间断文本的综合应用是其重要的组成部分,阅读者必须将文本作为一个整体为抓住文本的主旨,以解释文本主要写什么、确定讨论的主题等。有时文本中的主题已经直接呈现出,问题的答案在文本中可以直接找到。有时则要求学生通过关注多个具体信息,并在从中寻找某一特定种类的信息的过程中推断出主题。选择主题意味着给各种观点建立一个级别,并选出最具概括性、最中心的观点。应用这种文本可以看出是否能辨别中心思想与细节,是否得出主题的概要。
2.寻找信息。在日常生活中,阅读者需要某些特定信息,如寻找某个电话号码、支持或反对他人的观点,就必须搜寻、浏览文本,选择、确定相关信息。在用于寻找信息的评估文本中,学生必须将问题中的信息与文本中的原来的或同义的信息相联系,以得出所需信息。这些信息多处于句子层面,或隐藏在两个或两个以上的句子或段落中。学生要发现或确定的信息的基本元素有:特征、时间、背景等。在寻找信息时,可能会出现一定程度的混淆,有时需要对提供的信息进行分类,或对两种相似的信息进行辨别。PISA认为通过对困难的元素的系统控制,可以测出与这方面阅读活动相联系的不同能力水平。
3.解释原因。解释原因主要是要求阅读者扩展他们的初步理解,以形成对文本更具体、更完整的理解。它要求阅读者全面阅读文本,联系各个部分的相关信息,关注有关具体信息,对文本进行逻辑上的理解,加工处理文本中的信息组织,阅读得出文本中没有明确陈述的信息,得出判断是其很重要的过程,在得出判断时,阅读者或多或少地必须利用其本身已经具备的知识结构。用于评估这方面阅读活动的项目包括比较和对比信息,阅读者在比较和对比中,加工处理各种直接或间接的信息,从而推断出各种寻找的联系,也包括要求学生对作者意图做出判断并确定用于判断的论据的项目。其形式主要有,从文中推断涵义,了解某一特定人物的情感或意图、掌握事件的原因及其作用等。
4.思考文本的内容。思考文本内容要求阅读者把在文本中找到的信息与其他知识联系,并用自己的知识结构来评价文本中的观点,即怎样去证明、维护自己的观点。因此,它要求学生具有高水平的转换认知能力,即必须能有效控制自己对文本的思考和反应,并通过运用已有相关知识,使知识能以连贯的方式组织起来。用于评估此项目的内容包括,从文本外的知识中提供论据、评价特定信息或判断论据的相关性、用道德的或审美的标准进行比较。与文本信息相联系的其他知识可以来自学生的知识结构,也可以是评估中其他文本提供的信息,也可以是问题中直接提供的观点。这类评估项目要求学生提供或确定论证作者观点的其他相关信息,或者要求学生评价文本中论据或信息的充足性。
5.思考文本的形式。这方面的阅读活动要求阅读者不受文本影响,客观地思考文本,并评价它的性质和适用性。这类评估项目包括,判断某一文本在特定目标中的作用、评价作者为达到特定目标而采用特定文本特征的应用情况,以及确定或评论文章的风格及作者的意图、态度。客观地评价、鉴定讽刺的、幽默的和逻辑的组织方式的文本的作用。它要求阅读者不带偏见地确定有说服力的细微差别。因为,文本的结构、风格、类型是构成作者文章的基础特征,而这对更好的理解文本具有重要的作用。学生在评价作者的描写特征或如何吸引成功读者去阅读上,不仅要具有掌握文章本质的能力,而且还必须具有发现语言上细微差别的能力,如理解形容词的使用具有修饰作用等。同时,要深入地思考文本的形式就要求进行推理、客观地分析、解释作者是否全面地阐明观点、辨别事实等,阅读者被要求在文本中选择重要的部分,整合次要部分的内容以形成一个观点。
值得关注的是,PISA认为成人总是在某一特定情境下阅读书面材料,与其评估目标相吻合,所以确定阅读素养评估所使用的材料的各种情境是很重要的,但需要注意的是它强调的是作者在写文章过程中所用的情境即作者的写作目的和用途,而不是文章所提供的场所或背景。因此,PISA的情境包括人与阅读有关的目的,并按情境的用途、相关人员和内容将情境分为以下四类:
1.为了个人应用而阅读(个人的阅读)。这类阅读主要为满足个体实践中的智力上的兴趣,它包括为巩固、发展个人与其他人的联系而进行的阅读。其内容一般包括个人信件、小说、传记以及为满足好奇心对信息材料的阅读,这种阅读是作为休闲、娱乐活动的一部分。
2.为了公共应用而阅读。这类阅读是满足个体参与更大范围社会的需要。它包括命名的官方文件和关于公共事业的信息。这种阅读或多或少与那些不知名者相联系,其内容一般包括通知、规章、方案、小册子、表格等。
3.为了工作而阅读。虽然只有一些15岁的儿童会为了工作而阅读,但PISA评估仍然必须包括为了工作而阅读的典型材料。因为,这类阅读与评估目标的相关内容是紧密联系的,且评估15岁儿童对于从事工作的意愿也是很重要的,而且他们中的许多人将在今后的一两年内工作。其内容一般包括说明书、手册、计划表、报告、备忘录、项目表等,即为了做而阅读
4.为了教育而阅读。这类阅读一般包括获取信息,是更大范围学习项目的一部分。其阅读材料一般不是阅读者自己选择,而是由指导者选择、设计。其内容一般是为了教育的目标而特别设计的,如课本、地图、纲要等,即为了学习而阅读
总之,PISA评估的内容不局限于课堂材料,还包括学生在课堂外所碰到的各种材料。同时,PISA在所提供的评估项目中,都需确认所用的材料必须反映各成员国的语言和文化差异,以确保各成员国不会因评估内容而产生差异。
(三)阅读素养的评估结构
在PISA评估中,主要从情境、文本、测试题目三个方面而展开,其材料的提供处于评估项目组织的中心位置。所运用的材料主要由连续文本和间断文本所构成,其中连续文本一般由句子构成,而句子又组成段落,或形成在更大的结构如节、章和书中。根据连续文本的内容和作者的目的又可以分为描述、叙述、说明、论证、指导、附加材料等典型的形式。间断文本则一般由根据项目结合而成的表格、信息单、凭证、证书、广告、图表和曲线、图解、目录、地图等而构成,根据表格的格式又可以细分为简单表格、综合表格、交叉表格、混合式表格、组合表格等。PISA将负责提供测试学生的问题或题目、要求学生回答问题的答案格式、说明如何评估学生回答的评分标准三个方面的内容供各成员国使用。以下是阅读素养评估中,不同情境、文本模式、题型等方面在分值上的分布。
表1:按情境划分的阅读项目分布建议
情境
占全部项目的百分比%
为了个人应用而阅读的
28
为了教育而阅读的
28
为了职业(工作)而阅读的
16
为了公共事业而阅读的
28
合计
100
从表1可以看出,为职业而阅读的情境所占分值较低,主要原因是:第一,在选择职业的文本时,必须降低对具体职业知识的依赖;第二,同种类型的问题和题目可以从15岁学生易于接近的内容所在的情境中去建构。
在PISA中,对所需信息种类相关的变量一般按照5个等级的分值来记录。1分表示信息是最具体的;如果这个项目变得更难一些,就记录为3分;如果要求表示的信息是最抽象的,是最难处理的就记录为5分。
从表2中可以看出,阅读素养的评估中约有45%是要求建构式反应的测试题目,所以,记分者在这些题目评分时包含有较多的主观因素,因此必须形成一个表示学生能力水平的标准。但是,不可能一次性完成,初步建议是根据过去在学习和认知领域中的经验和研究,在PISA的实地测验收集到的论据的基础上进一步完善,且必须经过多次验证而形成。目前认为,PISA除了应提供综合的阅读素养标准外,同时还应提供根据连续文本和间断文本类型的两个记录标准,以及学生阅读活动能力的五个方面的记录标准。
鉴于对于阅读素养界定的复杂性,PISA还考虑通过其他途径主要是问卷调查以期对阅读素养的相关问题提供更多的可资利用的信息。PISA的问卷调查中的问题主要涉及评估学生在校内和校外的阅读实践和阅读活动的总体情况,是描述性、说明性的,主要对学生的阅读活动及其在各种阅读活动中态度、兴趣进行评估。因此,这类问卷调查选择的被评估的信息类型必须与教育政策相关,是为了获得关于学生阅读态度和阅读实践的信息。其调查的内容一般包括对家庭、学校或公共设施方面的说明,如家庭的藏书量、是否去学校或公共图书馆等等;学生的阅读实践和习惯;对阅读的兴趣和态度等,如是否喜欢收到书之类的礼物?或与其他娱乐如电视、音乐、游泳等喜欢程度相比较,来获得信息。
表2
二、PISA科学素养的界定与测评[]
 
(一)PISA对科学素养的界定
科学素养是应用科学的知识来确定问题,得出(或提出)基于证据的结论的能力,以便理解并帮助做出关于自然世界的决定,并且通过人类的活动做出调整。
在PISA的上述定义中有以下几个方面需要进一步予以说明,以便更好的理解其内涵。
①“科学知识”不仅指事实、名称、术语的知识,还包括对重要科学概念的理解以及科学知识的局限和作为人类活动的科学的本质。
②“问题”是指那些经过科学的探究能够解决的问题,以及特定问题的科学方面。  
③“基于论据得出的结论”是指知道应用选择评价信息、数据的方法,同时需对已有的信息进行有意识的小心的推测,因为需要正确判断是否存在足够的信息来得出正确的结论。
④“理解并帮助做出决定”包含以理解自然世界本身作为目标,强调科学的理解有助于做出决定,但并不能够直接导致决定。
⑤“通过人类的活动做出调整”是指出于人类的目的和结果对于自然世界做出的有计划或无计划的调整。它强调对于人的科学素养的评价,不能简单使用有或无的两分法,而应是多和少的评价。  
基于以上的认识不难看出,PISA不仅强调科学的知识以及这一知识得以发展的过程对于科学素养是至关重要的,而且认为这二者应是合二为一的。
(二)科学素养测验的内容
基于以上对科学素养的认识与界定,PISA将从三个角度对科学素养进行评估。  
第一,科学概念。PISA认为概念是使我们将新经验与已知的知识联系起来,使我们弄清新经验的意思,并有助于我们弄清自然和人类世界的知识。因此,PISA主要根据以下四个标准来选择受评估的科学概念。  
①应是与每天日常生活、事物相关的内容。因为,科学概念在人们每天的日常生活中的作用程度是各不相同的。例如,虽然相对论对各种长度、质量、时间和速度的各种关系做出了一个较为精确的解释,但是,牛顿定理对我们每天遇到的力和运动的解释则会提供更有力的帮助。因此,相比较而言我们将更侧重于选择对牛顿定理的理解作为评估的内容。  
②必须选择与未来十年乃至更长的时间的生活有关联的科学概念和内容。  
③所选择的必须应该是与科学素养可以被认证的相关内容。  
④所选择的概念必须与被选择的科学方法相联系,而不能仅仅是书面上的或曾被提出的某种含义。  
以下是PISA根据这四个标准确定的主要评估的科学主题,以及与这些科学主题相关的一部分概念。
表1 与科学素养评价相关的主要的科学主题与相关概念
科学主题
相关概念
事物的结构及特征
导热的、发电的传导性
气压变化
辐射、透射、大气压
化学变化和物理变化
事物的状态、反应的速度、分解
能量转化
能量守恒、能量衰变、光合作用
力和运动
平衡力/不平衡、速度、加速度、动量
结构和功能
细胞、骨骼、适应
人类生态学
健康、卫生学、营养学
生理变化
激素、电解、神经细胞
生物动力学
物种、基因库、进化
遗传控制
显性、交叉遗传
生态系统
食物链、生存能力
地球及其在宇宙中的位置
太阳系、每日及季节性变化
地质变化
板块、风化
 
 
 
 
 
 
 
 
对以上科学概念的评价,PISA要求这部分内容应主要来源于生命和健康科学、地球和环境科学、技术科学三大领域的运用。值得注意的是,虽然这些概念比较接近于有关物理、化学、生物科学及地球和空间科学,但PISA着重测试的是那些将被用于解决现实生活的科学问题,而不仅仅是理论。因此,它强调对某些特定现象的了解并通过人类的行为加以改变的。
第二,科学方法。PISA认为与收集论据的能力相比,使用科学知识以得出基于充分论据的结论的能力更为重要。为此,PISA更多地关注与科学相关的方法,而不是科学内的方法。这主要包含对得出科学结论的论据的认识、解释以及在此之上采取行动的能力。具体而言,PISA的科学方法应包含以下5种能力。
A.科学地确定可研究的问题的能力。这包括确认可被特定调查证实的问题或观点;辨别出可以通过科学探究来回答的问题,或更明确地揭示某一问题在某一情境下是可以进行科学的探究。
B.确定科学的观察所需要的论据的能力。它是指确定哪些信息对某一观点的有效验证是必须的。例如,我们需要确定或辨认应比较哪些事物,变量应如何变化或控制、需要什么附加信息,为收集相关数据应采取何种行为。
C.得出或评价结论的能力。这包括从给定的信息、数据中产生结论,或者从某一范围内选择适用于数据的结论;根据提供的数据来支持或反驳某一结论,或者确定在得出结论过程中提出的假设。
D.传播(交流)有效的结论的能力。即将有效的结论用适当的方法清晰地传递给特定人群。其中,这些结论的形式是基于特定的情境和数据,或是基于相关的附加信息。
E.论证对科学概念的理解的能力。即指在特定的情境下,运用适当的观点论证对科学概念的理解。包含解释可能导致既定变化的原因及各种关系,或者做出关于既定变化的作用的决定,或者使用没有给定的科学观念或信息确定影响既定结果的因素。  
这里值得注意的是,以上这五个方面,就前四个方法而言并未对测试者的科学知识的储备有任何特殊的要求,它们的主要目标在于对被评价者在运用收集、评估、联系有效科学证据等方面的能力做出评价。当然,没有任何一种科学方法可以是在“完全无知”的状态中进行的。在第五个方法中,主要是对相关的科学观念的理解的评价,理解是主要的障碍。
第三,科学情境。PISA认为要准确地进行评价,决定和控制(预期的)情境的作用范围是很重要的。由于PISA的目标是评价学生在数年义务教育的末期,他们运用所学知识和技能的能力。因此,PISA要求必须将项目设置在现实生活的情境中,而不仅仅局限于学校。并将科学情境选择的重点放在个人和家庭(个人的)、社区(公共的)、世界生活(全球的)、与说明科学知识是如何产生的及科学知识如何对与科学相关的社会起决定作用(历史相关性的)等四个层次。关注的焦点是那些与个人、家庭及社会公众有关的事物。数据亦主要与人们的生活有关,来源于个人或私人的情境以至于更宽的公众中,有时还包括全球的范围。将评价任务设置在这些情境中,PISA希望能够做到尽可能准确地评价学生在科学课程中所获得的科学知识的运用能力(虽然有些知识可能来自其它学科或者根本不是来自校内)。
(三)评估结构
PISA基于这样两个目的设计其评估结构。其一,应使任务尽可能地真实,并在一定程度上反映现实生活的复杂性;其二,应有效地使用测试时间,使用较少的情境,即就提供的一个情境提出几个相关的问题,而不是就一个情境提出一个问题。因此,在形成评估结构时,被PISA确定为具体评估任务的将由一系列项目所构成,每一个项目都是与一些最初的或最基本的刺激物相联系,其中一个任务里的项目将评价多个科学方法和多个科学概念,同时,每一个项目评价表1中的一个科学方法,各个项目独立计分。但是值得注意的是,PISA将不包括亲自实践的任务,至少在2000年、2003年科学素养的次要调查年里是这样的。下面就PISA的评估结构作简要介绍。
主要准备考核的相关能力。
科学地确定可研究的问题,并将科学知识运用于现实生活相关领域中的能力。
在科学调查中确认证据的能力。
下面以一项题为“停止病菌”的考核内容中的两个问题,来具体说明对以上两个能力的评价。
被试者被要求阅读一篇关于免疫系统研究历史的精炼短文。
表3:早在11世纪,中国医生就开始进行免疫系统的研究。他们从天花患者身上取到的粉碎的结疤让病人从鼻孔吸人,从而诱出一种较为缓和的病来阻止更为严重的病情。在18世纪,人们为了防止生病,他们用干燥的结疤来擦他们的皮肤。这些简单的方法传人了英国及美国殖民地。在1771-1772年间的天花传染病中,有个名叫Zabdiel Boylston的波士顿医生弄破他六岁儿子及其它285名病人的皮肤,将天花患者结疤处抽取的脓汁直接注入伤口。结果,只有6个病人幸存。
问题1:Zabdiel Boylston想要验证什么观点?
问题2:举出两条其它信息,证实Zabdiel Boylston的办法是否成功。
问题1:要求有一个建构性的回答,学生要根据其在答案里出现的有关细节的数量为成绩计分,以2、1、0三个等级计分。(得2分的要求是给出“弄破皮肤并将脓汁直接注Aafit管将有助于提高对天花的免疫力”这一答案。)这一项目评估的目的在于,评估被试者科学地确定可研究的问题和使用人类生物知识应用于生命与健康的科学领域的能力。
问题2:同样以2、1、0三个等级对被试是否提及所有信息点予以计分(如是否提及没有经过Boyston’s治疗的生存机率以及得到治疗的病人是否被天花感染等信息点。)以此评估被试者使用人类生物知识应用于生活和健康的科学领域的能力,及在科学调查中确认证据的能力。
第三,得出或评价结论的能力。值得注意的是,PISA不仅要求回答同意或不同意,而且更加重视其原因必须与所提供的信息保持一致。即如果被试者只写同意或不同意是不给分的,只有给出原因、提供相关的信息才给分。
第四,对科学概念的理解,并给出建构性回答的能力。
下面以一个测验试题为例,说明对以上两项能力的评价。
要求被试者阅读一篇澳大利亚道路研究委员会的Peter Cairney提出的文章。在该测验试题中,刺激物就是这篇文章。
表4:Peter收集信息的另一种方法是,使用一个在13米高的柱子上的录像机来拍摄狭窄公路上的交通。通过图像,研究者可以知道交通进行有多快、车与车之间的距离有多大、车子一般使用公路的哪一部分。过了一段时间,就在公路上划出单向行车道。研究者可以继续用录像机考察这时候的交通是否通畅?车子开得更快了还是更慢了?车与车之间的距离是变大了还是缩小了?在单向行车道已划出后,摩托车驾驶者是靠公路旁驾驶还是靠路中间驾驶?在Peter了解到这些信息后,他就可以决定是否在狭窄的公路上划线了。
问题4:假如在一条狭窄的路上,Peter发现,在单向行车道划出后,交通情况发生了如下变化:
速度 交通更通畅了
位置 车靠路边更近了
车与车的距离 不变
根据以上情况,决定在狭窄的公路上划出单向行车道。你认为这是否是最好的决定?给出你同意或不同意的理由。
问题5:要求司机在车与车之间保持更大的距离,特别是前面的那辆车开得比较快时,因为开得比较快的车要花更长的时间来停车。
解释:为什么开得较快的车要比开得较慢的车花更长的时间来停车?
问题4主要评价第三个能力,即在技术科学领域使用力和运动知识的能力,评价学生得出结论和评价结论的能力。但只写同意或不同意不给分,只有给出原因、提供相关信息才给分,例如,同意是因为如果车子即使在快速行驶时,仍保持靠近路边,冲撞的可能性将被减少;如快速运行时,被追尾的可能性也将减少。或不同意是因为如果车子运行快速并保持相互之间一样的距离,这可能意味着他们没有足够的空间在紧急状态下停止。
问题5主要评价在技术科学领域对有关力和运动的科学概念的理解。这要求一个建构性的回答,根据是否提及重要的信息点来评分,计分为2、1、0分。(参考答案是:a.一辆车开得较快时,其冲力也就更大,因而需要更大的阻力来停止它;b.在同一时间,一辆车开得较快的车停下会比开得较慢的车滑出更远的距离。)
2.测验中的分布比例
第一,科学方法的分值分布的建议。
表5
科学方法
分值的百分比(%)
科学确认可探究的问题
10-15
确认科学的探究所需要的论据
15-20
得出结论或评价结构
15-20
传播(交流)有效的结论
10-15
论证对科学概念的理解
40-50
从以上的分布比例可以看出,PISA更多地倾向于评价对科学概念的理解,对其它科学方法的评价则显得较为次要。需要说明的是,这一分值的分布比例在2006年科学素养作为主要评估内容时,可能将会被重新修订。
第二,在生命、健康科学;地球、环境科学;技术科学三个应用领域中其分值将各占30~40%,大致呈平均分布状态。
第三,在情境选择方面,PISA将着眼于将项目分散在四个已经认可的情境即个人、社区、全球、历史性的情境中。在任务中所呈现的情境将被定为刺激物,它有可能是一篇短文,或带有表格、图解、曲线图、图形之类的文章。通过应用科学概念到应用领域来展示对科学概念理解的能力,所要求的反映将与情境、刺激物里呈现的应用领域相关。在2000年的科学素养测评中,多数的任务是以书面的形式呈现,但是,在2006年以科学素养为测评重点时,将可能考虑使用其它形式的刺激物。
3.等级的记录
为了达到PISA的目标,需要确定学生成就的发展等级。为此,PISA建立了以下科学素养等级。
第一,在熟悉的情境下,能够使用较容易掌握的科学概念,并能做到以下几个方面:
①辨认一些能否被科学探究决定的问题;
②在一个变量变化而另一个受控制的情境下,为了验证某一观点或探索某一问题,确定必须获取的信息;
③在变量本应受到控制却没有被控制的情境下,回答为什么结论或观点可以是没有条理的:
④用一种可被人理解的方式将论据与结论联系起来,提出一些主要观点;
⑤根据易于理解的概念进行预言和阐释原因。
第二,在更复杂的情境下,能够运用更高认知要求的概念,并做到以下几点:
①认识到所有科学理解、科学事例都是暂时的具有前进性,他们有助于对以前所学知识的复习及更好地理解;
②在复杂的情境下,确定为验证某一观点或探索某一问题而必须收集的信息及条件;
③鉴定支持某一观点的论据的适用性,支持或反对与复杂联系下的有用论据相关的观点、结论;
④使用所提供的科学知识、数据、信息,形成一个支持或反驳某一特定结论的建构性的观点;
⑤基于对科学概念的更复杂、更抽象的理解,进行预测和解释。
这一等级记录还较为粗略,在2006年如果有足够的时间来测出学生对科学概念和科学运用领域的综合掌握程度,将得出科学概念的理解的次等级。科学素养标准的具体情况将产生于从领域判断中得出的结论分析。这些具体情况表明,如何对问题进行归类,及在不同观点上是如何分布的,经验性的数据将被用来验证发展等。这将使各国科学教育的理想目标与现实成果缩小差距,并从中受益。
总之,PISA的科学素养的界定与测评,反映了西方发达国家对科学教育的理解,体现了科学教育的发展方向,值得我们研究学习和借鉴。
 
 
 
三、PISA数学素养的界定与测评[③]
 
(一)PISA对数学素养的界定
数学素养是一种个人能力,学生能确定并理解数学在社会所起的作用,得出有充分根据的数学判断和能够有效的运用数学。这是作为一个有创新精神、关心他人和有思想的公民,适应当前及未来生活所必须的数学能力。
在上述的界定中有以下几个方面需要做进一步的阐述和说明,以便我们更好的理解其内涵。
1.“社会”。它包括自然、社会、个体生活的文化背景。
2.“从事”。它并不仅仅指狭义上的身体的或社会的行为,而是包括传递、联系、评价甚至欣赏陶醉于数学知识。
3.“当前及将来的生活”。它包含有个体的私人生活、职业生活,与朋友、亲友的社会生活,以及作为社区公民的生活。
(二)数学素养测评的内容
基于以上对数学素养的认识与界定,PISA主要从四个领域即数学技能、主要的数学概念、数学课程因素、数学情境中展开。其中,数学技能和主要的数学概念为主要领域,涉及评价的范围和熟练程度;数学课程因素和数学情境则是次要领域,是为了确保测评具有充分的覆盖面以及所选择的评价任务的平衡分布。
1.数学技能。数学技能是指数学的综合能力,它是PISA的数学素养评估框架的第一个主要方面,它包括各种不按等级顺序排列的数学综合能力,当然,这种技能与各级的教育相关。具体而言包含这样几个方面:①数学的思考能力;②进行数学论证的能力;③建立模型的技能;④提出问题并解决问题的能力;⑤表示的能力;⑥使用符号、形式和技术能力;⑦交流观点的能力;⑧使用各种工具、辅助物的能力。
2.主要的数学概念。PISA数学测验的内容覆盖面很广,采用的是综合的评价方式,而不仅仅是测试知识的片段。因此,PISA中的主要的数学概念应是包含有足够多的类型和深度来揭示数学的本质。PISA慎重选择了机会、变化和增长、空间和形式、数量推理、不定性、从属性关系等概念作为其需要评估的主要数学概念。在PISA的第一轮即2000年的评价实施中,由于用于评价数学素养的时间有限,第一轮评价主要集中在变化和增长、空间和形式两个主要概念,这就限制了评估的广度。这在2003年的数学素养评估中得到改善。
3.数学课程因素。PISA的测评重点虽不完全来源于传统的数学课程,但是PISA仍将传统的数学课程内容作为数学素养评估的一小部分,这部分内容主要包含有数字、测量、估计、代数学、函数、几何学、概率、统计学、离散数学等。PISA成员国的数学课程都将包含这些内容,而且,PISA也将设计题目来评价这些内容,并确保其题目与学校数学课程相关题型的分布的均衡。
4.数学情境。PISA强调在各种不同的情境中解答数学问题,运用数学知识。因为,PISA认为数学方法的选择、结果的表示经常取决于问题显现的情境。因此,PISA提出在评估中应提供相应的情境使每个学生参与到数学化过程中,并掌握如何将一个情境中所学到的方法成功地运用于另一个相似的情境中。根据学生与一定情境距离的长短,PISA将评估集中在个人的、教育的、职业的、公共的和科学的五个情境中。虽然PISA强调所使用的情境应具有真实性,但并不要求被评价的学生是这些情境中的成员,如根据当前利率计算银行存款利息。当然,强调情境的真实性并不排除那些重要或有趣的数学情境,如使用数学来解释假定的方案、探索潜在系统或情境是一种对未来有深远影响的方式,则无论其情境是否真实都会被采用。
(三)数学素养的评估结构
1.主要准备考核的相关能力
对于以上数学素养所包含的内容,PISA并不提倡采用逐项分别评价的方式,因为这样可能导致出现“伪任务”和对数学知识进行人为的瓜分,而在现实中,我们解决与数学的相关问题时,经常需要多项能力有时甚至是全部的能力。因此,PISA为了在项目和测验中使数学能力变得有利于控制和具有可操作性,将数学技能分为三个能力等级。
(1)能力等级一:再现、定义、计算。这一等级包括的知识有事例、表示、确定等式、思考数学对象和数学性质、操作程序、运用标准算法和发展专业技能等。它要求学生能运用多种不同方法表达标准的符号、法则,要求学生学会计算。在这一等级中其内容与使用符号、形式和技术能力等有较大的相关性,使用的是典型的标准化评价题型,且多为多重选择题或严格的开放式格式。
(2)能力等级二:为解决问题而建立联系。在这一等级里,要求学生根据不同情境和目标,学会使用不同的表示方法,同时要求学生学会区别或联系不同的陈述,如定义、判断、例子、有条件的判断和证据等。因此,它要求学生为解决简单的问题,懂得选择使用什么数学方法、数学工具,对不同材料、领域进行联系,对各种信息进行整合。所以,这一能力等级包含了推理或推论、建立模型、提出问题和解决问题、用各种方法表示问题的有关数学技能,要求学生知道编译、解释符号的形式的语言,理解数学语言与惯用语言的关系。对这一等级的评估较难看出测验的题目属于哪类数学课程,也较难判断解决问题时使用哪种方法、策略或计算方法是最好的,所以,将其问题经常设置在某一情境中,并要求学生自行做出决定。因为,事实上,在某些情况下,学生所用的数学课程的类别取决于学生所用的策略,同时,有许多的策略同样适用于同一问题的解决。
(3)能力等级三:数学思维和概括的能力。在这一等级里,要求学生将现实问题数学化,即辨别并提取包含在情境中的数学因素,并运用数学知识解决问题,分析、解释他个人的数学模式,提出有根据的数学观点、论据并予以概括。同时,在问题的情境中反思解决的方法,它包含对模型的分析和对方法的思考,不仅要求学生学会解决问题,而且要求学生学会提出问题。这一等级的能力经常与其它等级的能力相结合,学生必须掌握数学的本质,包括文化、历史的因素、数学的运用,而且学生应能够用口头、书面、直观等各种形式进行充分的交流、互换。因为,学生既应能够向别人传递他们个人的数学观点,也应能够理解别人的数学观点。对这一等级的评估是PISA数学素养的核心部分,也是最难评估的部分,尤其是对于PISA这样的大规模调查。因为多项选择题不适用于这类能力的评估,多种答案的开放式问题则更适用。显然,对开放式问题的设置及评价学生对这类问题的解答,寻求合理的标准答案以使评估有效地量化,是有相当的难度。但是,PISA表示他们将努力设计出覆盖这一等级能力的问题,即使仅是有限的覆盖。因为,这一等级是数学素养构成的关键部分。
PISA对数学素养的评估结构大体由以上这三种能力等级构成一个体系,所有的数学技能都可能在这三大能力等级中发挥作用。一般而言,在三个能力等级中,能力等级三所要求的能力评价任务总体上比能力等级二的难,但是,这并不意味着能力等级二的能力是能力等级三中各项能力的先决条件。事实上,以往的研究表明,第一等级能力的优秀者不一定是第二、第三等级中的优秀者,同时,第三等级的优秀者不一定是第一等级的优秀者。因此,PISA强调学生必须学会解决包括所有等级能力的任务,评价任务也将包括所有的三个等级,以便教育政策的制定者了解到他们的学校和课程在发展每个等级里的能力方面的情况。
2.测验中的分布比例
PISA的评估项目将平均分布在以上列出的九个数学课程因素和五个数学情境中。对于三个等级能力的测试大致为1∶2∶1的比例而分布,以2000年的第一轮数学素养评估为例,当时测评时间60分钟,基于时间限制,仅选择两个主要数学概念即变化和增长、空间和形状为主要测评内容,两个主要数学概念各有15个问题和各有21个分值。其中能力等级一有12个分值,能力等级二有20个分值,能力等级三有10个分值。这里值得注意的是,在2003年的评估中将比第一轮评估更关注能力等级二和能力等级三的测评。
此外,PISA允许学生自由使用他们平常在学校所用的计算器或其它计算工具,否则不利于得出学生成就的真实性评价和评估的公平性。因为,在原则上,允许学生拥有、使用的计算工具的选择多半与各国的教育政策有关。因此,假如当PISA选择不使用计算器时,测评对于那些习惯使用计算器的学生就变得不利,同样地,如果学生不能有效地使用提供的计算器时,这一测评也一样对他们不利。当然,PISA选择的题型要求的计算工具将适应该阶段学生的能力。
3.测验题型
PISA的测评题型主要有多重选择、封闭式建构性回答、开放式建构性回答三类。封闭式建构性题型提出的问题与多重选择题型中的问题很相似,它要求学生回答的答案必须是容易判断正误的。这种题型是评价能力等级一的最佳题型,因为,这种题型不存在学生猜答案的可能性,也不会出现混淆的内容,只有一个正确答案。开放式建构性题型要求学生回答的答案更具开放性,得出答案的过程亦对学生有更高层次知识能力的要求,这类题型不仅要求学生得出答案,而且要求学生列出解决问题采取的步骤或解释答案是如何得出的。在PISA的数学素养测评中,将有25%~35%的测试时间用于开放式建构性题型,并要求由专业人员来记分,实行含有专业评价成分的记分等级,这一题型通过要求学生在数学复杂性的一系列层次内提供的解决问题的答案来展示学生的能力。
值得注意的是,PISA测题中使用了在同一刺激物中提出几个问题的格式,它通过一系列逐渐复杂的问题使学生进入情境或问题中,一般而言前面几个问题是以评价能力等级一的相对直接的问题出现,以典型的多重选择或封闭式建构性题型为主,接着过渡到评价能力等级三的更为复杂的问题,以典型的开放式建构性题型为主。这种格式PISA认为能减少学生进入情境中的相关问题的时间,以有效利用测试时间,并减少因使用过多情境可能产生的国家间的偏见。
4.等级的记录
对学生测评的结果进行等级记录PISA认为是必要的,但相比较于其它项目仍作为一个较小的内容未予以确定。目前,可供选择的记录等级方式有:①单一的数学素养等级;②每个主要的数学概念各有一个等级;③每一能力等级各有一个等级,它将在对PISA的实地实验中所收集的数据进行分析的基础上选择其中一个最为合适的记录等级方式。
总之,PISA对数学素养的认识与界定及其建构的评估体系,不同于其它的评估体系,强调相互联系和普遍观点是主要元素,数学是描述形式的语言,采用综合的方式来评价学生所取得的成绩,同时也试图提供一种国家教育系统中有关数学方面的总体指标,寻求学生必须掌握的适应未来社会挑战的数学技能。
 
 
 
 
 
 
 
 
第二部分 考务借鉴:PISA2009上海测试[④]
 
PISA实施至今受到了许多国家的重视, PISA特殊的考务要求保证了PISA研究资料收集的成功,进而才能保证60多个国家和经济体进行跨国比较的可能性。本文根据上海今年正式测试的PISA 2009项目,总结PISA考务实施的特点和对我国教育质量监测的启示。
一、PISA技术标准及考务实施的特点
为了保证跨国比较的有效性,OECD制定了严格的PISA技术标准,包括数据搜集的标准、管理的标准、国家参与的标准三个方面。其中数据搜集标准最为具体,包括目标总体和抽样,测试的语言,试测参与要求、试题本问卷和手册的翻译修订、测试管理、材料保密、材料印刷、质量监察、评分、数据提交等各方面的要求。下面对测试管理程序、保密要
求、印刷质量、测试指导语、试测等环节做一些说明。
1.必须严格遵守测试管理的程序
为了保证全球60多个国家能够按照统一的标准实施测试,OECD制定了《Test Administrator’s Man-ual》(测试主任手册)和《School Co-ordinator’s Man-ual》(学校协调主任手册)。手册中的测试程序和要求必须严格遵守,才能确保所有国家和经济体的测
试按照相同的方式管理。如果不这样做,将导致研究结果的无效。OECD对手册中可以修改的地方用粗体加三角括号标出,对于不能修改的地方,注明此处绝对不能修改。如果有些国家根据本国的特点一定要对测试程序进行修改,那么必须把所有的修改记录在《手册修订表》中,所有修订均需通过PISA国际专业协作组织的审核才能定稿。
同时为了保证测试程序的一致性,保证PISA测试的有效性和公正性,PISA要求为每一场次聘请一位测试主任,测试主任必须不是其主持测试的PISA考场中任何参加测试学生的阅读、数学或科学的授课老师,希望不是其主持测试的PISA测试学校的教职员工,最好不是任何参与PISA测试的学校的教职员工。必须按照规定的程序对测试主任进行培训,
而且要求必须由项目负责人直接培训。
2.必须保证测试材料的安全保密
PISA是一项长期进行的评估项目,它的试题是经过各国专家学者共同提交,并且经由所有参与国家和地区专家的认真审定,是全球专家智慧的结晶。
PISA非常强调题目的科学性、跨国比较的等值性和一致性。也正因为如此,题库的开发很不容易,一旦试题泄露,全球专家的努力将付之一炬,后果不堪设想。并且,由于PISA数据要进行跨时间比较研究,各次测试之间都有一定比例的共同试题,称为连接试题或锚题,所以必须保证测试材料在测试前、测试过程中以及测试结束后的安全和保密。因此我们在
PISA测试中搜集的所有数据都严格保密。任何报告不得出现参加评估计划的学生或学校。在任何情况下,任何人不允许查看没有使用过的试题本和问卷,不允许以任何方式复印和影印测试的试题本。
3.测试材料的印刷有特殊要求
PISA2009测试对试题本的印刷质量有一定的要求,PISA技术标准要求是:印刷质量的不同会影响数据质量。如果纸张和印刷质量不好,学生的能力不仅会受到他们自身文化水平的影响,还会受到试题本清晰度的影响。为了消除这个潜在的误差来源,上海在2008年试测之前,把印刷样本快递给PISA国际专业协作组织,该组织会检查纸张和油墨质量是
否符合要求,图表是否清晰,格式或排版是否与要求的格式一致,如果符合要求,专业协作组织会来信确认印刷质量通过审核,然后存档等。
2009年正式测试前,把2009年正式测试的印刷样本与试测时试题本进行校验,看是不是按照之前认可的印刷质量和排版印刷的,以保证印刷质量的一致性。例如,曾有一个国家在封二增加了一个空页,使得所有页码与原版不一致,学生在回答其中一些试题时就必须在前后两页之间翻阅查找,经统计检验,这一排版错误显著增加了阅读领域的试题难度,因而该国阅读领域成绩不能进入国际数据库。在PISA这样严格的国际比较研究中,一个小问题也会酿成大灾难。
4.严格按照朗读文稿施测
测试期间,测试主任必须严格按照《测试主任手册》主持测试,其中的朗读文稿必须逐字逐句向学生朗读。国际组织委派的质量监察员将到部分考场逐句核对。朗读文稿部分文字如下[4]:测试主任不得对朗读文稿作任何文字上的修改,更不允许更改里面的测试时间。《测试主任手册》会一步一步提醒测试主任在《测试考勤表》和《测试记录表》上记录学生的出席情况和测试情况。测试主任还需要和学校主考一起核对《学生基本信息表》,包括更新学生基本信息以及确认不符合测试的学生名单及原因。
5.试测要求
在正式测试前一年,各国必须组织700~1000人的试测,保证每一道试题至少有200名学生作答。试测的主要目的有两个。一是检验试题本和问卷等测试工具是否有效,包括试题的难度、区分度、效度、题目功能性差异、评分者信度等;二是检验各参与国家和地区的组织实施程序是否有效。
二、PISA2009上海测试的特点及实施
PISA 2009在上海的考务工作由上海市教委领导,SHPISA秘书处与上海市教育考试院共同落实。
测试材料包含13种试题本,1种学生问卷和1种学校问卷。试题本是由阅读、数学和科学中的一种或几种组合起来的。每位学生完成其中一套试题本和一份学生问卷,试题本编号在抽样时都已经确定。学校校长完成一份学校问卷。与其他考试和其他国家的实施情况相比,上海实施PISA 2009测试有三个特殊性:
1.测试对象分散
PISA2009上海的样本学生有5226名,他们分布在19个区(县)的152所学校中,每所学校约35名学生。而上海的中等教育阶段属于两级考务机构的管理模式,所以虽然分布到每个区(县)的学生不多,但是每个区(县)的考试机构都需要参与到PISA2009测试考务工作中来,项目涉及面比较大。
2.测试时间统一
国际专业协作组织要求测试可以安排在6个星期完成,也就是说他们建议测试可以分批分场次进行。但是上海历来的考试和测试的惯例都是同一时间完成的。另一方面也为了取消测试时间不一致而造成测试内容泄漏的可能性,上海安排了统一的测试时间。
3.测试内容低利害
以往的大规模测试,大多关系到学生的升学或学校的绩效评价,是学校和学生必须重视的高利害考试。而PISA是抽样测试,评价结果主要是为政府改进教育政策服务的,不针对个别学生和学校,对学生和学校没有利害关系。而且PISA测试还没有被大多数人所了解。
针对以上这些特殊性,PISA2009上海测试在三个方面做了精心安排。
一是领导重视,具体工作落实到位。上海市领导,市教委都全力支持PISA研究项目。试测和正式测试之前,上海均特别召开了测试考务工作会议,市教委相关领导专门在会议上强调参加PISA的目的和重要意义。此外市教委还出面协调测试时间,请各区(县)的期中考试或者其他考试时间不要与PISA测试时间冲突。还要求各区支持,允许骨干教师抽出时间参与评分工作等等。由于领导的充分重视,负责和参加PISA项目的各单位发挥了各方面的优势,形成了工作合力,共同推进了项目的实施。
二是从全市选拔优秀的考务人员主持测试。PISA是严格抽样的,每个参加测试的学生都代表了多个维度的样本信息,同一个考场中有13种不同的试题本,每个学生只能对抽样时指定的试题本作答,所以一份试题本都不能有差错,考务工作难度其实比国内更大规模的教育类考试还要高。正式测试时我们一共需要聘请152名测试主任和152名学校主考。我们委托各区(县)招办,在全市各区(县)选聘。他们有的是学校校长、教导主任,有的是区(县)招办的优秀考务人员,也有的是区(县)招办主任亲自担任。我们按照国际组织的要求,由SHPISA和上海市教育考试院直接对这些人员进行培训。测试情况表明,所有的测试主任和学校主考都按照手册要求主持或管理了测试,所有的表格都按照手册要求填写完整,为后期的评分和数据输入奠定了很好的基础。
三是采用人性化的细节安排,提高学生参加PISA的积极性。PISA要求每所学校学生的应答率在80%以上,否则就要安排补考。因此各国都采用了多样化的宣传手段。例如为了让学生更好地了解PISA的意义,SHPISA研究中心设计了宣传彩页、纪念笔,参加测试的学生每人一套。此外,SHPISA研究中心还给每个参加测试的学生写了一封信,除了通知测试的时间地点等外,还告诉学生测试只涉及阅读、数学、科学方面的一般知识,学生不需要做专门的准备,减轻学生的思想负担。
PISA2009的上海测试严格按照国际专业协作组织的技术标准实施。2008年的试测和2009年的正式测试,各个环节都没有差错,所有学校的学生参与应答率都在80%以上,无需组织补考。正式测试期间,澳大利亚教育研究理事会(ACER)聘请的七位质量监察专家还分别到上海的七所学校,对测试全过程进行观察。后来根据ACER给予SHPISA秘书处
的反馈,七位质量监察专家都按时提交了质量监察报告,并根据报告内容,ACER认为,“上海这次测试的质量与试测一样,一切都很顺利”。
三、PISA测试对我国教育质量监测的启示
目前我国的教育评价体系相对于国际水平仍有不足,PISA 2009测试流程的整体实施,有助于我国教育考试机构学习和把握国际教育评价的设计理念和操作方法,建立我国的教育质量监测体系,在我国开展科学有效的评价项目。从这一角度来看,PISA测试的考务实施对我国教育质量监测是具有启示意义的。
1.有必要建立标准化的测试程序和相应的技术标准
从测试的实施角度看,不同的测试可以有不同的实施规定和办法,但是这些规定和办法的目的都是为了使学生在相等的条件和情境下参加考试或测试,从而减少测量误差,保持测量结果的客观、公正和准确。我国现在每年进行的中小学生学业质量监测也是全国性的教育质量监测项目,但是到目前为止还没有像PISA这样的测试技术标准。各个省市地区都是在指导手册的原则下,各自编一套考务手册,依据考务手册搜集学生信息并且实施测试。指导手册只有提到需要搜集哪几项学生基本信息,没有提出具体的搜集标准。从测试程序上也没有标准的程序,这就很难保证测试学生的成绩和搜集的背景信息的准确性,所以测试的有效性和各省市之间横向比较的意义就得不到保证。教育质量监测是一个长期的、跨区域的质量评估项目,测试条件的一致性对研究结果的影响非常大。所以我们必须发动各方面的力量,群策群力,建立一个标准化的测试程序,制定统一的测试管理办法。同时为一些关键环节,例如学生资料的搜集、测试材料的保密以及测试指导语的控制方面,制定技术标准,并逐年对其进行完善。建立一套具有中国特色的教育质量监测体系。
2.有必要建立质量监察机制
质量监察机制可以检查测试是不是按照规定的程序实施,是不是满足了所有的技术标准。我国的测试多数是重视试题的保密和考场的管理,而对施测者的测试质量监察机制没有明确的办法和措施,例如,印刷文本的质量,以及是不是按照程序施测等都没有明确的质量监督要求。所以我们有必要建立一套质量监察机制,不只是从政策上要求,更要把质量监察落实到具体活动,例如像PISA以填写报告表的形式进行自我检查,或者派出质量监察员的
形式进行第三方检查。从学生资料的搜集,到测试材料的准备、保管和保密,以及施测过程进行质量控制。保证学生在一致的环境下进行测试,最大程度上公平、公正地反映学生的真实水平。
3.把PISA的精细化管理引入我国的考试管理
随着制度和规范的完善,精细化管理是一个必然的趋势。同样以我国的中小学生学业质量测试九年级学生为例,测试内容包含语文、数学、英语、科学,另外还要完成一份学生问卷。学科测试时间一共需要7小时,需要占去学生一天半的时间。这给学生带来非常大的负担。学生接近测试结束时已经非常疲劳了,这就很难保证学生是否发挥了他真实的学业水平。而PISA采用与总体规模大小等比例的学生抽样和试题矩阵抽样的办法,只需5千多人参加、试题本和问卷调查时间共需2小时就能够反映上海全市15岁学生的阅读、数学、科学素养的总体情况,大大减轻了学生的负担,所以为了保证抽样测试的成功,PISA测试对考务细节管理提出了更高的要求。
除了实施程序上的严格规定外,还有很多细节上的实施方法也值得我们借鉴。比如要求每个考场都在显著位置悬挂钟表;为了避免学生由于疲劳而不能发挥实际水平,要求在测试中段统一让学生休息5分钟,再继续作答。从中可以看出,虽然测试实施从本质上说是不能消除所有可能的误差来源的,但我们应努力提高测试的精细度,从最大程度上减少造成误差的因素,降低误差影响的水平。精细化管理是提高测试管理质量的有效手段,也决定了教育质量研究在多大程度上取得了成功。我们必须在考务精细化方面多学习其他国家的做法,进行更多的探索和实践,才能真正提高考务管理的质量。
综上所述,PISA带给我们的不仅是国际化的测试理念,在测试具体实施层面也为国内的考试机构提供了很多值得借鉴的经验。学习国际上先进的教育质量理念和方法有利于我们建立标准化教育质量监测实施流程,有利于加强教育行政部门科学化管理水平,有利于真实地反映教育质量成果。
 
 
 
 
 
 
 
 
 
 
第三部分  PISA样本试题及其评分与注解选编
 
一、PISA2006科学试题:适合引用的水
 
上图表示城市住宅饮用水的处理过程。
问题 1.1
有一个良好的饮用水源很重要。在地底下发现的水被称为地下水。
为什么地下水比湖水和河水等地表水有更少的细菌和颗粒污染,请给出一个原因。
问题1.1评分及注解
满分
编号11:回答提到地下水渗透地面从而被过滤
?当水通过沙子和小颗粒时就干净了。
?它能被自然地过滤。
?因为水透过地面时会被岩石和沙子过滤。
编号12:回答提到地下水被封闭于地下因此防止了可能的污染;或地表水更容易受污染
?地下水在地球内部,因此空气污染不可能将水弄脏。
?因为地下水是不开放的,它在某些东西的下面。
?湖水和河水会被空气污染,而且你可能在里面游泳等等,所以水不干净。
?因为湖水和河水被人和动物污染。
编号13:其它正确回答
?地下水中没有细菌的食物,所以细菌无法生存。
?地下水不在太阳底下,有蓝绿色藻类。
不得分
编号01:回答提到地下水非常干净(已知信息)
?因为它已经很干净。
?因为湖水和河水里面有垃圾。[没有解释为什么]
?因为那里细菌比较少。
编号02:回答明显提到图中提供的清洁过程
?因为地下水经过过滤器并加入氯。
?地下水经过过滤器,使之彻底清洁。
编号03:其它回答
?因为它总是运动着。
?因为它没有被搅动,因此不会带起底下的淤泥。
编号99:空缺
题目类型:开放性回答
能力:科学地解释现象
知识类别:地球与空间系统(科学知识)
应用领域:自然资源
背景:全球
该题聚焦于水质量的两个方面——颗粒和细菌污染物。回答该问题要求应用科学知识来解释为什么未经处理的地下水比未经处理的地表水有更少污染物。
清洁饮用水的应用对各地人们的每一天都很重要,虽然作为一个问题它的重点会随着具体情况而不同。题目的类别和在现象解释中抽取科学知识的必要性一致。
该题在考查中具有很好的区分度,难度中等,约2/3的学生能作出正确回答。
问题 1.2
水的清洁处理通常有包括不同技术的几个步骤。清洁过程如图中的4个步骤(数字1-4)。在第二个步骤,水收集在沉积池中。
该步骤通过什么方式让水更干净?
A.水中细菌死亡
B.水中加入氧
C.砾石和沙子沉入底部
D.有毒物质被分解
问题1.2评分及注解
满分
编号1:C.砾石和沙子沉入底部
不得分
编号0:其它回答
编号9:空缺
题目类型:选择题
能力:科学地解释现象
知识类别:物质系统(科学知识)
应用领域:健康
背景:社会
该单元背景明确了水分配给各家各户前收集在水库和湖中的清洁方式。该题涉及认知或推论沉积池的用途。因此它评价学生关于水中颗粒在重力作用下沉淀的知识。
本领域的考查显示该题具有一般难度和良好的区分度,尽管第二个选项(B)是个比较弱的错误选项。
问题 1.3
在清洁过程的第四步要把氯气加入水中,为什么要这样做呢?
问题1.3 评分及注解
满分
编号1:
回答提到除掉、杀死或分解细菌(或微生物或病毒或病菌)
?使其免受细菌影响。
?氯气杀死细菌。
?杀死所有的藻类。
不得分
编号0:其它回答
?水获得少量的酸将不会有藻类。
?就像氟化物一样。
?清理更多一些的水并杀死遗留下来的东西。[“东西”这个词不够具体。]
?为了保持清洁和可饮用性。
编号9:空缺
题目类型:开放性回答
能力:科学地解释现象
知识类别:生命系统(科学知识)
应用领域:健康
背景:社会
和前面的题目一样,该题背景与市民日常生活相关,他们应该知道一些关于饮用水处理的事情。
在解释为什么在水中加入氯气时,要应用氯气对生物的影响的知识。因此知识类别是“生命系统”。
在本领域的考查中,该题相当好地呈现出适当的区分度。整体上它是一个具有中低难度的题目,但在少数一些国家显得比较难。
问题 1.4
假设科学家们在检测自来水厂的水时发现,清洁处理过程完成后的水中有一些危险的细菌。
人们在家中饮用该水之前应该作什么处理?
问题1.4 评分及注解
满分
编号11:回答提到将水煮沸
? 煮沸它。
编号12:回答提到能在家中安全操作的其它可能的清洁方式
? 用氯化净水药片处理水。
? 使用微孔过滤器。
不得分
编号01:回答提到不可能在家中安全进行或在家中实施不切实际的“专业”净水方法
? 在桶里将水和氯化物混合然后再喝。
? 更多氯化物、化学和生物设备。
? 提炼水。
编号02:其它回答
? 再净化一次。
? 使用咖啡过滤器。
? 买瓶装水直到清洁过程合格。[回避提出的问题]
编号99:空缺
题目类型:开放性回答
能力:科学地解释现象
知识类别:生命系统(科学知识)
应用领域:健康
背景:社会
该题要求学生知道能在家里进行的杀死细菌或从水中去除细菌的实用方法。因此知识类别是“生命系统”。
该题在本领域测试中表现出适当的区分度,在各国平均水平上是中低难度。但是在不同国家分组中难度呈现很大的变化,因此认为该题并不包含在主要的学习内容中。
问题1.5
饮用受污染的水会引起下面的健康问题吗?
在每个例子中圈上“是”或“否”。
饮用受污染的水会引起这种健康问题吗?
是或否?
糖尿病
是/否
腹泻
是/否
人体免疫缺损病毒/艾滋病
是/否
问题1.5评分及注解
满分
编号1:3个回答都正确:否、是、否,按此顺序
不得分
编号0:其它回答
编号9:空缺
题目类型:复杂选择题
能力:科学地解释现象
知识类别:生命系统(科学知识)
应用领域:健康
背景:个人
该题评价关于一些常见病(遗传的、细菌的、病毒的)能否在水中传播的知识。归类为“科学地解释现象”,但属于该能力的一种低水平形式,因为该题能通过知识的简单回忆来作答。知识类别明显涉及“生命系统”。
该题难度低,区分度适当。女性比男性更有可能作出正确回答。
问题1.6
你对下面信息感兴趣的程度如何?
每行只勾选一个空。 
 
高兴趣
中等兴趣
低兴趣
没有兴趣
a)了解如何测试水中的细菌污染
□1
□2
□3
□4
b)学习更多关于水供给的化学处理过程
□1
□2
□3
□4
c)学习哪些疾病在饮用水中传播
□1
□2
□3
□4
注解:
题目类型:态度
态度:关于科学学习的兴趣
设计该题是为了评估学生对学习更多与饮用水相关的科学问题的兴趣。它出现在本单元的最后,这样学生在被询问意见前对背景有所熟悉。
兴趣通过学生提供的指标显现出来,即他们想获知关于水污染3个不同方面和饮用水处理的信息的程度。
本领域测试结果的探索性因子分析表明,所有这3个陈述明显定位在一个“兴趣”维度。学生对学习哪些疾病在饮用水中传播(陈述c)表现出非常强烈的兴趣,因为这里面与个人健康和安全相关的内容最多。
 
二、2000PISA阅读素养试题:ACOL流感疫苗注射计划
 
大家都知道,在冬天,流感可能在人群中迅速地大规模传播,并有可能一连持续几个星期。
抵抗流感病毒的最好办法就是保持身体健康强壮。为了增强免疫系统抵抗病毒的能力,应该坚持每天锻炼身体,并且多吃水果和蔬菜。
ACOL将为全体员工注射流感疫苗— — 这是抵御流感病毒的又一种方法。ACOL安排了一位护士在5月17号的那个星期到ACOL来,用半天的工作日时间给员工注射疫苗。所有ACOL的成员都可以免费进行流感疫苗注射。
注射疫苗是自愿的。凡自愿注射疫苗者都要签字说明自己属于非过敏体质,并且已经了解到疫苗注射以后的一些轻微的副作用。
医学证明,注射流感疫苗不会使人得流感,但是会有一些副作用。比如疲劳、低烧、四肢无力等。
哪些人应该注射流感疫苗?
任何想保护自己不受病毒侵害的人。
特别建议年龄在65岁以上的人注射疫苗。不论年龄大小,凡患有慢性疾病而导致身体虚弱者,特别是心脏病、肺病、支气管疾病以及糖尿病惠者,也建议注射疫苗。
在办公室环境里,所有人都有患流感的危险。
哪些人不应该注射流感疫苗? 对鸡蛋过敏的人、发高烧的人、怀孕的妇女。
和你的医生核对一下,是否你目前在服用其他药物,以及是否曾经对注射流感疫苗起过反应。
如果你想在5月17号那周注射流感疫苗的话,请于5月7号星期五之前告知人事部主管Fiona McSweeney。注射疫苗的具体日期和时间将根据那位护士方便的时间、注射疫苗的人数、以及大多数成员方便的时间来定。如果你想注射疫苗而时间又不方便的话,请告知Fiona。如果人数多,可以再安排一次注射时间。
想了解更多信息,请拨分机号5577与Fiona联系。
Fiona McSweeney是一个叫ACOL的公司的人事部主管,为ACOL的员工准备了上面这段文字,根据其中所提供的信息,回答下列问题。
1题:下面哪一项描述了ACOL注射流感疫苗计划的一个特征?
A 在冬天,每天都将开设健身课程。
B 流感疫苗将在工作时间内注射。
C 参加流感疫苗注射者可以得到一点奖金。
D 一位医生将会前来注射流感疫苗。
评分标准与注解:
阅读任务:获取信息
文本类型:连续性文本
阅读情境:为了工作而阅读
第1题评分标准:
得1分:选择B— —流感疫苗将在工作时间内注射。
得0分:选择其他选项。
2题:我们可以谈论一篇文章的内容(它写了些什么)。我们可以谈论一篇文章的形式(文章是怎样写的)Fiona希望她以上的这份信息单的形式会让人读起来很亲切.而且能鼓舞人。你觉得她做到这一点了吗?参考文章的版面设计、写作风格、图片或其他图示。具体解释你的答案。
评分标准与注解:
阅读任务:反思与评价
文本类型:连续性文本
阅读情境:为了工作而阅读
第2题评分标准:
得2分:基于文本来回答问题,并将文章的形式和其写作目的联系起来讨论,而且和作者“亲切与鼓舞人”的目标相一致。学生的回答情况应至少符合以下两点中的一点:
(1)详细论述了以下特点中的一点(版面设计、写作风格、图片或其他图示,或者其他相类似的细节)—— 也就是说,要具体谈论文章的某一具体特点或特质。
(2)使用除了“亲切”“鼓舞性”之外的评价性的词汇。(注意:只说出像“有意思”、“容易理解”、“清楚明白”这样的词汇是不够充分具体的。)
关于Fiona是否做到了这一点(文章让人读起来很亲切,而且能鼓舞人),结论可以明确表达出来,也可以隐含在论述中,例如:
◇不,她没有做到这一点。因为把一幅注射器的图片放在文章的开头不好。它让人看起来很害怕。[依据了文本中的一项具体信息:一张图片(1);使用了自己的评价词:“让人害怕”(2)]
◇是,她做到了这一点。因为插图把文章划分成了两部分,以便于阅读。[描述了文章版面设计的一个特点。(1)]
◇卡通造型的病毒图片让人看起来很亲切。[谈到了插图的一个特点:“卡通造型”。(1)]
◇不,她没有做到这一点。因为文中的图片看起来很幼稚,而且图片之间没有关系。[使用了自己的词汇“幼稚”、“没有关系”来评价文章的特点。(2)]
◇是,她做到了这一点。文体风格是轻松随意的,是非正式的。[使用了自己的词汇“轻松随意”、“非正式”来评价文章的特点。(2)]
◇是,她做到了这一点。文体风格是热情而吸引人的。[使用了自己的词汇“热情”、 “吸引人”来评价文章的特点。(2)]
◇文章太长了,人们不会有耐心去读它。[谈到了文章的一个特点:篇幅(1);使用了自己的评价性词汇。(2)]
◇她没有强迫人们注射流感疫苗,这将给人们以鼓舞。[暗指了文章的基调和作者的态度,属于文体风格的一部分。(2)]
◇不,她没有做到这一点。文章的写作风格非常正式。[这种观点有争议,但合理地使用了自己的评价性词汇:“正式”。(2)]
得1分:基于文本来回答问题,并将文章的写作目的和其内容(而不是文章的形式)联系起来讨论,论述作者是否实现了她的目的,即“亲切与鼓舞人”。关于Fiona是否做到了这一点(文章让人读起来很亲切,而且能鼓舞人),结论可以明确表达出来,也可以隐含在论述中,例如:
◇不,她没有做到这一点。让人注射疫苗的文章绝不会让人看起来亲切、具有鼓舞性。
◇是,她做到了这一点。她给人提供了很多机会,人们可以选择注射疫苗的时间。而且,她还对保持健康提出了建议。
得0分:答案不充分,或者模糊不清。例如:
◇是,她做到了这一点。因为文章提出了一个好主意。
◇是,她做到了这一点。因为文章亲切而鼓舞人。[没有具体谈论文章的特点]
◇不,她没有做到这一点。因为这个办法不管用。
◇不,她没有做到这一点。因为信息是不正确的。[谈到了内容,但没有和“亲切与鼓舞人”联系起来]
◇是,她做到了这一点。文章的插图很鼓舞人,而且写作风格也容易被人接受。[“文章的插图很鼓舞人” 没有具体论述;“写作风格容易被人接受”太模糊]
◇是,她做到了这一点。容易读,很清楚。[使用的词汇不够具体]
答题情况反映了对文章理解上的错误,或者答案不合理,或者答非所问。例如:
◇是,她做到了这一点。每个人都应当注射疫苗。[不正确,答非所问]
◇不,她没有做到这一点。图片和文章没有关系。[不正确]
◇是.她做到了这一点。她想让大家对患流感感到担忧。[和文章“热情”、“吸引人”的意思相矛盾]
◇这很好,但只是个建议。[答非所问]
3题:这段文字暗含的意思是:如果你想保护自己而不受病毒侵害,那么注射流感疫苗。
A 比参加锻炼和健康饮食更有效.但也更具风险性。
B 是一个好主意,但它不能代替参加锻炼和健康饮食。
C 和参加锻炼、健康饮食一样有效,而且没那么麻烦。
D 如果你参加大量的体育锻炼,并且饮食健康的话,这个根本就不值得考虑。
评分标准与注解:
阅读任务:解释文本
文本类型:连续性文本
阅读情境:为了工作而阅读
第3题评分标准:
得1分:选择B—— 是一个好主意,但它不能代替参加锻炼和健康饮食。
得0分:选择其他选项。
4题:这段文字中有下面这部分内容:Fiona将信息单发布出去以后,一位同事告诉她说应该删掉“任何想保护自己不受病毒侵害的人”,因为这么说会使别人误解。你认为这句话会使人误解而应该删掉吗?解释你的原因。
评分标准与注解:
阅读任务:反思和评价
文本类型:连续性文本
阅读情境:为了工作而阅读
第4题评分标准:
得1分:联系“误解”一词评价文章,指出文章潜在的矛盾之处。(“哪些人应该注射流感疫苗?任何?? ”;“哪些人不应该注射流感疫苗?”)可能解释了,也可能没解释矛盾到底是什么。回答不管是肯定的还是否定的,这个结论可以明确表达出来,也可以隐含在具体的论述中,例如:
◇是,这句话会使人误解而应该删掉。因为有些人注射疫苗将是十分危险的。(例如:孕妇)[对存在的矛盾进行了描述]
◇不,这句话不会使人误解,不应该删掉。因为只要你再读上几行就会知道,有些人不应该注射疫苗,但总体上说,她是希望人们注射的。
◇是,这句话会使人误解而应该删掉。因为她说“任何人”都能注射,后来却又说有些人不能注射。[找到了矛盾所在]
◇这句话说每个人都应该注射疫苗,这是不对的。[简单地指出了矛盾]
或者:联系“误解”一词评价文章,指出这句话说得太夸张了。(并不是每个人都需要注射疫苗,或者说注射疫苗也不能解决所有问题)可能解释了,也可能没解释到底哪儿夸张了。回答不管是肯定的还是否定的,这个结论可以明确表达出来,也可以隐含在具体的论述中,例如:
◇应该删掉这句话,因为注射流感疫苗并不能保证让你不得流感。
◇我不同意删掉这句话,虽然这句话听起来好像意思是你要不注射流感疫苗,你就肯定会得流感似的。
◇注射流感疫苗不能保证万无一失。
◇应该删掉这句话,因为如果不是身强体壮的话.每个人都会得流感。
◇是,我同意删掉这句话,因为它言过其实了。[尽管不太具体,但指出了有夸张的成分存在。]
得0分:对文章作出了评价,但没有联系“误解”一词。例如:
(1)指出这句话很有说服力,很有效,而且/或者很鼓舞人,但没有提到潜在的矛盾或让人产生误解的因素。
(2)指出这句话“任何想保护自己不受流感病毒侵害的人”很多余,因为任何人都是想保护自己而不受流感病毒侵害的。
◇留着这句话很好,因为它能鼓舞人。[(1)]
◇这句话应该留着,因为它可以使这张信息单更突出。[(2)]
◇我觉得这句话应该删掉,因为很明显,每个人都是想保护自己而不受流感病毒侵害的,虽然不一定要通过注射流感疫苗来实现。[(2)]
或者:回答不充分或者模糊不清,或者只是把“误解”这个词又说了一遍,而没有具体解释。例如:
◇留着这句话,它很好。[没有做出解释]
◇他们应该在那儿放一张图片,而不是放那个句子。[没有做出解释]
◇是的,这句话会让人误解,会带来麻烦的。[没有做出解释]
或者:答题情况反映了对文章理解上的错误,或者答案不合理,或者答非所问。例如:
◇这句话应该删掉.因为每个人都有权利自己做决定。[误解了文章的基调:这不是一项命令。]
◇我觉得应该把“流感”这个词放到“病毒”这个词前面,因为如果人们是随便扫一眼这张信息单的话,他们可能会认为这是在谈论别的病毒,而不是流感病毒。[对“误解”的解释不太合理]
◇是的,人们可能会感兴趣,但是他们可能会害怕打针。[答非所问]
5题:根据上面这段文字所提供的信息来判断,哪些员工将应该和Fiona联系?
A 市场部的Steve。他不想注射流感疫苗,因为他更相信自己身体的免疫系统。
B 销售部的Julie。她想知道注射流感疫苗计划是不是强制性的。
C 邮件收发室的Alice。她想注射疫苗,但是两个月以后要生孩子。
D 财务部的Michael。他想注射疫苗,但5月17号那一周他将外出。
评分标准与注解:
阅读任务:解释文本
文本类型:连续性文本
阅读情境:为了工作而阅读
第5题评分标准:
得1分:选择D— — 财务部的Michael,他想注射疫苗,但5月17号那一周他将外出。
得0分:选择其他选项
 
 
 


[] 选编自:王晞、黄慧娟、许明﹒PISA:阅读素养的界定与测评[J]﹒上海教育科研,2003(9)﹒
[] 王晞、黄慧娟、许明﹒PISA:科学素养的界定与测评[J]﹒上海教育科研,2004(4)﹒
[] 选编自:黄慧娟、王晞﹒PISA:阅读素养的界定与测评[J]﹒上海教育科研,2003(12)﹒
[] 选编自:周云﹒PISA2009上海测试的考务实施及启示[J]﹒上海教育科研,2010(5)﹒
    附件:
关闭窗口
打印文档
 
主办单位:常州市解放路小学教育集团    苏ICP备05086717号-1
邮编:213003    电话总机:0519-88102061    总机传真:0519-88102061    地址:江苏省常州市解放路
技术支持:常州市教育科学研究院、常州万兆网络科技有限公司    访问统计