本文最初发表于 Undark。
2000 年,在加州米尔谷他那间狭小的家庭办公室里,堆满了电子表格,杰伊·罗纳(Jay Rosner)感到一阵令人眩晕的沮丧。作为一名律师、《普林斯顿评论》基金会(一家私人考试准备和辅导公司《普林斯顿评论》的慈善分支)的执行董事,罗纳即将就一项极具争议的平权法案诉讼案向密歇根大学作证。他知道此案 Grutter v. Bollinger 最终将提交美国最高法院,但在审阅文件时,他发现自己的论点存在一个令人担忧的漏洞。
罗纳被要求研究标准化考试中可能存在的种族和文化偏见。他认为,尽管批评者多年来一直在提出这些偏见,但它们确实存在,然而在那一刻,他觉得自己力不从心。“我突然意识到,我会被就这个问题进行质询,”他回忆道,“而我没有任何数据来支持我的假设,只有演绎推理。”
那一认识的冲击力至今仍在回响。罗纳是那种喜欢用数据支撑自己观点的人,他回忆起了一段充满焦虑的寻找可靠事实的经历。罗纳当时是在为一项法学院入学考试 LSAT 作证,对此他找不到任何具体细节。但他知道一位同事拥有关于不同种族背景学生在另一项重要的标准化考试 SAT 上如何回答具体问题的相关数据。SAT 长期以来被用于决定大学本科入学,该考试在纽约州举行。他决定可以类比使用这些信息来构建论点。两位学者同意一起进行数据分析。
根据过去的考试成绩历史,他知道白人学生的总分会高于黑人学生。即便如此,罗纳也预计黑人学生会在某些题目上表现更好。令他震惊的是,他没有发现任何平衡的迹象。结果是“极其统一的,”他说,几乎完全偏向白人学生。“在纽约州四次 SAT 考试的数据中,除了一个问题,所有问题都偏向白人而非黑人,”罗纳回忆道。
他心想:这里有问题,问题不在学生,而在试卷。
带着困扰和好奇,罗纳随后获取了 SAT 考试数据,不仅涵盖了纽约州,还包括了整个美国,来自两次考试——一次是 1998 年,另一次是 2000 年。**新数据集包含有助于他弄清楚考试题目如何被选用的信息。
在进行这项调查时,罗纳知道所有计入学生最终分数的题目都通过了 SAT 的“预测试流程”,这意味着它们出现在了先前考试的实验部分,这些部分不计分。(预测试题目通常会插入 SAT 考试中,学生不知道哪些题目在预测试。) 它们充当了试水——SAT 制作方正在考虑根据真实考试收集的数据,在未来更新中添加到官方考试中的新题目。利用从真实考试中收集的种族和性别数据,罗纳试图推断是否存在一种内部偏好,即一个种族群体在某个预测试题目上优于另一群体。
在 276 道通过预测试并最终出现在官方考试中的数学和语言题目中,罗纳发现白人学生在每一道题目上的表现都优于黑人学生。这一结果在他看来是统计学上不可能出现的——除非那些白人学生擅长的预测试题目不成比例地被纳入了最终的考试。尽管他对预测试题目本身的数据有限,但罗纳似乎很清楚存在选择偏见,那些黑人学生擅长的预测试题目——他称之为“黑人题目”——被搁置了。“看起来,它们从未出现在 SAT 的计分部分,”罗纳在一篇关于该主题的2012 年书籍章节中写道。“黑人学生可能会遇到‘黑人题目’,但仅限于 SAT 的非计分部分。”
罗纳认为,原因并非有意给予某个群体优势——尽管结果确实如此。“ETS 选择的每一道 SAT 题目都必须与整体考试结果相匹配,”他在书中继续说道。“所以,如果高分考生——他们更有可能是白人(以及男性、富裕)——在预测试中倾向于正确回答题目,那么它就是一道值得的 SAT 题目;如果不是,它就会被扔掉。种族和民族不是被明确考虑的,但种族差异化的分数驱动了题目的选择,而这又在内部循环中重复了种族差异化的考试结果。”
即使在今天,罗纳仍然用一个词来形容他对此差异的反应:“震惊”。
在无法改善早期教育并消除考试题目偏见的情况下,分数差距只会为种族本质论者提供为其自身偏见的合理化依据。
自 20 世纪初问世以来,标准化考试在美国社会中拥有了惊人的权力——它们帮助决定了谁能在教育系统,乃至经济阶层中成功晋升,谁不能。但充足的证据,包括罗纳的证据,表明这些考试一直未能成为它们声称的那种客观的分拣工具。
毕竟,没有人否认标准化考试成绩在不同种族和族裔类别之间长期存在差异。但原因仍然是激烈争论的焦点。一些利益相关者认为,这种表现差距,以及罗纳收集的数据,清楚地表明考试本身存在偏见——这种信念得到了标准化考试早期在白人至上主义根源中的地位以及后来用于强化学校隔离的史实的支撑。批评者说,它们不仅被用来塑造国家的经济和种族等级制度,而且还被用来强化关于智力本质的已被证伪的信念,以及关于谁够聪明能够成功、谁不够聪明的刻板印象。
另一些人则认为,有偏见的不是考试——至少不是现代版本——而是初等和高中系统由于极其不同的资源分配而奠定的基础,这些分配常常沿着经济和种族界限发生。
还有一些人认为,以上两种解释都可能属实,而一个痴迷于考试的社会的真正问题在于,在无法改善早期教育并消除考试题目偏见的情况下,分数差距只会为种族本质论者提供为其自身偏见的合理化依据:他们宣称,如果黑人和棕色人种学生表现不如白人,那一定是基因决定的。剥夺种族主义者的谈资可能不是改革教育和考试的首要动机,但大多数善意利益相关者认为,改革是迫切需要的。
罗纳确实在 Grutter v. Bollinger 案中提供了基于数据的关于标准化考试的证词。该诉讼由一位白人密歇根大学法学院申请人提起,她认为该大学的平权法案政策在她被拒绝录取时实际上歧视了她,尽管她拥有优异的考试成绩。罗纳的贡献是为了支持该大学,在 2003 年,美国最高法院以5-4 的裁决驳回了学生的论点,维持了平权法案的有效性。
即便如此,开发和管理 SAT、AP 考试和大学水平考试项目等考试的 122 年历史的非营利组织学院理事会(College Board)表示,它不同意罗纳进行初步分析的方式。并且,如果其考试确实存在某种程度的偏见,该组织认为这主要是美国教育资源分布不均和不平等的结果——或许还有一些文化偏见从中渗透。当被问及罗纳的发现时,学院理事会在 Sara Sympson(传播总监)发送给 Undark 的一封电子邮件中指出:“美国教育中确实存在不平等,这反映在包括 SAT 在内的所有学术成就衡量标准上。”
电子邮件继续写道,意识到这一点意味着 SAT 一直在不断评估和重新设计,以朝着更具文化中立性的评估形式发展。
尽管如此,罗纳仍然被最初基于数据的非正义证据所驱动。他目前正在致力于减少法律和医学院入学考试的负面影响。而且,在事物的循环往复中,对他的道路产生如此大影响的平权法案案件 Grutter v. Bollinger,如今已成为当今美国最高法院对平权法案进行重大重新评估的一部分,此前已有针对哈佛大学和北卡罗来纳大学的诉讼。罗纳一直在与“公民权利法律委员会”合作,支持哈佛大学对平权法案的辩护,他再次试图确保国家最高法院法官们能够看到该制度的倾斜之处。他强调,他并不指责考试开发者和管理者有邪恶的意图。事实上,“我刻意说明他们不是种族主义者,”他说。
但随着考试持续施加实际权力,他希望其根本问题得到承认。而根据罗纳的说法,这个根本问题是一个问题:标准化考试是否支持现状和白人至上?根据罗纳的说法,这个问题的答案是:“显然”。
尽管大部分讨论集中在 SAT 和 ACT 这样的大学招生考试、研究生考试 GRE 以及 LSAT 或 MCAT 等其他研究生院考试上,但大多数美国学生会参加惊人数量的标准化考试,这些考试旨在更早地评估他们的进步,通常从小学开始。这类考试的使用在 2002 年前总统乔治·W·布什签署《不让一个孩子掉队法案》(No Child Left Behind Act) 后爆炸式增长,该法案要求进行基于评估的学校问责。
据估计,美国学生在完成 K-12 教育体系之前,平均会参加一百多场标准化考试。
这究竟是好事还是坏事——以及种族偏见在美国考试制度中继续扮演什么角色——这是一个能够激起热烈回应的问题。“我认为它们是被用来维护白人特权和黑人、棕色人种以及原住民的贫困的工具,”波士顿大学反种族主义研究中心主任、因其社会正义工作获得麦克阿瑟天才奖的伊布拉姆·X·肯迪(Ibram X. Kendi)说。肯迪公开称标准化考试为“有史以来最有效的种族主义武器”。
哥伦比亚大学语言学家、2021 年出版《觉醒的种族主义:新宗教如何背叛了黑人美国》一书的作者约翰·麦克沃特(John McWhorter)毫不犹豫地反驳了这些观点。“不——说这些话的人只是不喜欢考试,或者在考试中表现不好,”他在最近的电子邮件交流中暗示。麦克沃特和肯迪一样,也是黑人,他认为反考试态度是一种贬低黑人能力的方式。“如果考试是压制黑人的手段,那就意味着黑人在本质上太笨而无法参加考试,”他说。
他同意,一些长期存在的考试成绩差异是文化造成的,而且这种情况可能要等到文化本身发生改变才会改变。但是,麦克沃特补充道,“在我们停止通过考试来为黑人孩子开脱严峻的竞争之前,我们无法做到这一点。”
肯迪和麦克沃特的观点就像图书馆里关于此事的观点一样,是相互对立的。一些人认为标准化考试有价值;另一些人则认为没有。一些人看到了评估技能和知识的真正价值,而另一些人则担心考试的焦点过于狭窄,无法提供有意义的信息。一些批评者认为这是一个不公平的系统,偏向于文化权力掮客,而另一些人则认为,即使有缺陷,考试事业也提供了至关重要的信息。
每个人都有话要说,而且很少有人对此漠不关心。
肯塔基大学教育学院院长朱利安·巴斯克斯·海利格(Julian Vasquez Heilig)说,从 20 世纪 90 年代到 2000 年代,一半以上的美国州采用了毕业考试,考生必须通过才能高中毕业。“德克萨斯州曾经有 15 个毕业考试。这些考试对有色人种学生产生了巨大影响,”他指出。“即使他们在学校里取得全 A,如果他们没能通过考试,他们也无法毕业。这简直是疯了。”
倡导学生取得成就的全国性非营利组织“教育信托”(The Education Trust)的首席执行官丹妮斯·福特(Denise Forte)则以一种类似于罗纳的对证据的要求来反驳这一观点。福特在《不让一个孩子掉队法案》通过时曾在国会任职,她指出,该法案对学生进行反复测试的要求有助于更清晰地展现美国教育的现状。例如,考试详细描绘了新冠疫情的教育影响,显示在美国学生因封锁学校以应对疫情传播而损失了实际的数学和语言技能。2022 年 10 月发布的一项研究进一步表明,这种情况对于贫困严重的少数族裔学校尤为严重,这些学校在线资源供应不足。
福特认为,通过考试——特别是统一对所有学生进行的考试——可以获得对政策影响的国家层面的见解。“在 20 世纪 90 年代,《不让一个孩子掉队法案》要求测试每个学生之前,有些学校会在州考试期间让一些学生外出参加实地考察,”福特回忆道。“他们会说‘你有残疾?你说西班牙语?为什么我们不带你去看看电影?’”她补充道:“现在他们必须测试所有人。现在我们拥有更丰富的数据环境,可以告诉我们更多关于学生需要什么以及学校需要什么。”
福特指出,这些数据可以用于开发更好的课堂课程、改善教师培训和加强薄弱学校。
或者说,它应该这样做。她说,问题不在于考试,而在于我们未能以公平的方式对考试结果作出反应。“在一些地方,考试结果带来了系统改进,”她说。“在其他地方,它们被用来打击学校、教师、管理者,这是明显不公平的。”她补充说,我们应该努力加强考试,使它们能提供更好的学校信息——然后真正地利用它们来提升而非惩罚。因为如果我们不利用考试数据来改善所有学生的教育,福特想知道,那究竟是什么目标呢?
美国当然不是唯一一个使用标准化考试作为影响学生成功的工具的国家。在英国,学生在高中毕业前必须至少参加十几次考试,包括决定他们是否被视为大学录取材料的 A-levels 考试。(有趣的是,英国表现最差的是白人工人阶级男孩,而少数族裔平均表现更好,并一直在稳步提高。)在日本,学生必须通过严格的高中和大学入学考试。中国则要求进行持续九个多小时的强化大学入学考试。
但美国的过程可能与众不同的是,自 20 世纪初标准化考试首次崭露头角以来,它一直笼罩在争议和不信任的光环之中——后来,它又成为旨在维持学校隔离的白人至上主义议程的一部分,即使在最高法院在布朗诉托皮卡教育局案(Brown v. Board of Education of Topeka)中下令结束种族隔离学校之后。
肯迪说,对大规模测试的兴趣始于 20 世纪 10 年代和 20 年代,当时相对年轻的心理学领域获得了越来越多的关注。这是一个新兴的学科,试图在科学界获得声誉。“当时,心理学家们认为,获得合法性的方式是宣称实证主义是工作核心,而且工作是有社会用途的,”肯迪说。“所以,这些标准化考试是我们创造的工具,它们被用于社会公益,因此我们才具有相关性,而且它们是实证的,所以我们才是科学的。”
“很难知道他们是否真的相信这种等级制度,”肯迪补充道。“但我确实知道的是,标准化考试在每个时期都适时出现,带着新的理论和衡量标准来证明种族等级制度的合理性。”
当时,评估的流行术语是“智力测试”。这个描述是由斯坦福大学心理学家刘易斯·特曼(Lewis Terman)推广的,他开发了斯坦福-比奈智商测试并创造了“智商”一词。特曼毫不讳言地承认,他通过测试大部分白人、中产阶级美国学生来制定他的智力量表。特曼解释说,测试移民没有意义,因为“这些人除了最基本的训练外,都无法再接受教育。”他也懒得测试黑人、美洲原住民和拉丁裔儿童,因为“他们的愚钝似乎是种族性的。”
美国第一批广泛使用的标准化考试是 Alpha 和 Beta 测试,由特曼的同事、耶鲁大学心理学家罗伯特·耶克斯(Robert Yerkes)开发。他提出了它们作为帮助陆军指挥官评估士兵智力的方法。**耶克斯设计了两种版本的测试:Alpha 测试面向能够说写英语的士兵,Beta 测试——一套使用图片的测试——面向不懂英语的移民,或者那些没有接受过足够教育而无法达到读写能力水平的美国人。
耶克斯宣称,无论哪种情况,测试都衡量的是天生的智力而非教育。“我们有必要考虑它们的可靠性和意义,因为作为公民的我们,没有人可以忽视种族退化的威胁,”他写道。
我确实知道的是,标准化考试在每个时期都适时出现,带着新的理论和衡量标准来证明种族等级制度的合理性。
伊布拉姆·X·肯迪
即使是耶克斯及其合作者的同时代人也认为,他们的假设和方法存在严重的偏见。需要两种测试本身就说明了教育和语言知识的问题,他们指出,而且题目本身就充斥着金钱甚至测试者地理位置特权的色彩。在测试的多项选择题中:
• 康奈尔大学位于伊萨卡 | 剑桥 | 安纳波利斯 | 纽黑文
• the tendon of Achilles in the heel | head | shoulder | abdomen(跟腱位于脚后跟 | 头 | 肩膀 | 腹部)
• 阿尔弗雷德·诺伊斯以画家 | 诗人 | 音乐家 | 雕塑家而闻名
• 格洛斯特最著名的产业是渔业 | 包装 | 酿造 | 汽车
报纸记者沃尔特·李普曼(Walter Lippmann)尖刻地指出,声称这些题目衡量的是智力是纯粹的胡说八道。“这种说法和成百上千种其他时髦玩意儿一样,没有任何科学依据。”他在给特曼的信中详细阐述了他的观点:“我痛恨它所涉及的对科学方法的滥用。我痛恨它产生的优越感和它施加的自卑感。”
尽管如此,普林斯顿大学心理学家、耶克斯的合作者卡尔·布里格姆(Carl Brigham)在他的 1923 年出版的书《美国智力研究》(A Study of American Intelligence)中,将 Alpha-Beta 测试结果整合成了一个关于白人优越论的具有影响力的论证——尽管他不得不处理一些棘手的 the data 来支持他的论点。例如,在 Alpha 测试中,北方黑人士兵的得分经常高于南方白人农民。
布里格姆承认,北方黑人通常比南方人(无论是白人还是黑人)拥有更好的教育机会,但他推测,一部分差异是因为居住在北方的黑人拥有“更多的白人血统混合”。总的来说,他补充道,这些测试突显了“黑人的显著智力低下”,布里格姆认为,黑白血统的混合比例过高将导致美国整体智力螺旋式下降。
布里格姆后来会否认这些优生学的立场,但他在当时美国知识界某些圈子中坚信不疑的“智力是可以衡量的,而白人处于衡量堆栈的顶端”的观点,是不可否认的。在他发表了这篇充满种族主义的论文后仅仅三年,布里格姆就负责将军队测试改编成一项新的大学入学考试,该考试于 1926 年首次举行。
它被称为学术能力倾向测验(Scholastic Aptitude Test)。
**标准化考试的优生学起源是不可避免的——这正是肯迪等学者今天仍然认为它们是美国白人统治工具的原因。其他学者虽然也批评现代考试模式,但对考试起源的重视程度较低,他们认为,尽管其历史无疑浸透着种族主义,但现代考试已经超越了布里格姆和耶克斯等科学家的肤浅论证和种族主义动机。
“我不认为考试的种族主义起源仍然是一个问题,尽管那种污迹依然存在,”康涅狄格州费尔菲尔德大学社会学教授蕾切尔·布伦-贝维尔(Rachelle Brunn-Bevel)说,她对考试成绩差距进行了一些重要的分析。布伦-贝维尔的研究并没有让她成为标准化考试的粉丝,但她也怀疑现代 SAT 是否与种族主义者的动机推理有关。“毫无疑问,SAT 的创建是为了维持白人盎格鲁-撒克逊学生,尤其是男性的地位,”她说。“现在,这是重点吗?我不这么认为。”
学院理事会方面也坚决否认那些带有种族偏见的起源。优生学“如今已被广泛谴责,我们完全谴责它。SAT 在布里格姆参与的那个世纪以来已经彻底改革,今天的成就导向型考试中没有他一丝一毫的影响。”
然而,布里格姆的影响并非是唯一一个困扰标准化考试历史的复杂历史片段。1954 年美国最高法院在布朗诉托皮卡教育局案中的裁决,虽然以其打破学校种族隔离而闻名,但动摇了美国部分地区的核心——尤其是在美国南部。当阿肯色州小石城(Little Rock)的黑人学生决定进入“白人学校”时,
总统德怀特·D·艾森豪威尔不得不派遣阿肯色州国民警卫队保护他们。南方立法者建立了一个相互支持的抵制和拒绝网络,通过州法律试图使布朗案的裁决非法。“如果我们能够组织南方各州大规模抵制这一命令,”当时的弗吉尼亚州民主党参议员哈里·弗洛德·伯德(Harry Flood Byrd)宣称,“我认为,随着时间的推移,全国其他地区将认识到南方不会接受种族融合。”
当时,美国大学尚未完全接受标准化入学考试的概念。它们主要被该国精英私立学校使用,正如尼古拉斯·莱曼(Nicholas Lemann)在其关于该主题的经典著作《大考:美国精英治国术的秘密历史》(The Big Test: The Secret History of the American Meritocracy)中所述,它们有效地巩固了“利用考试和教育来选拔少量统治精英的传统”。在南方,这意味着像阿格尼斯·斯科特学院、杜克大学和埃默里大学这样的学校。但现在,公立大学也开始注意到。在布朗案裁决前两年,南卡罗来纳州大学组织匆忙批准使用入学考试,认为这“应该是一个有价值的保障,以防最高法院未能维持州内学校的隔离”。1954 年 6 月,南卡罗来纳州成为第一个要求标准化考试作为进入公立大学的必备条件的州。
佛罗里达、佐治亚、密西西比、田纳西和德克萨斯等州迅速效仿。针对北卡罗来纳大学社会学家盖伊·B·约翰逊(Guy B. Johnson)的询问,大学官员告诉他,标准化考试可以作为执行隔离的合法方式,因为“大多数黑人学生受到劣等的教育背景以及其他社会经济因素的阻碍,无法在平等的基础上与白人学生竞争。”
正如维克森林大学教育学教授 R. 斯科特·贝克(R. Scott Baker)在他的著作《废除隔离的悖论》(Paradoxes of Desegregation)中所详述的,南方大学的管理者联系了教育考试服务中心(ETS),该中心今天为学院理事会开发 SAT(以及管理 GRE 和教师考试,如 Praxis),并得到了一个急于扩大业务范围的行业的积极回应。贝克在一次采访中说,南方想法的一部分是,标准化考试可以用来阻止黑人教师教授白人学生。
贝克收集的 ETS 在这一时期的沟通显示,该组织对其测试充满信心,并急于扩大其业务范围。南方教育工作者的声明表明,他们毫不犹豫地明确表达了他们的支持隔离的目标。当时的南卡罗来纳州律师大卫·罗宾逊(David Robinson)指出,“少数几个黑人”不成问题,但太多了会导致大规模的“混杂”。他继续说,幸运的是,这些考试可以用来“合法地取消资格”大多数黑人申请人。
“他们不在乎别人会怎么想,”贝克说。“他们了解他们的世界。”
尽管如此,随着社会向前发展到今天,语言变得更加谨慎。“这是我的主要兴趣之一,”贝克补充道。“他们用什么样的语言来谈论考试?人们现在不会说‘哦,我们要用这些考试来歧视。’”相反,他们可能会用“问责制”这样的词来倡导考试的使用。
贝克强调,问责制本身并没有错,前提是你信任信息来源——“只要你考虑了其意图”。
在 1969 年《哈佛教育评论》的一篇备受瞩目的文章中,加州大学伯克利分校心理学教授亚瑟·詹森(Arthur Jensen)提出,白人和黑人之间的考试成绩差距确实表明黑人智力较低,而教育本身无法弥补。“[智力]基因,”詹森在当年告知《纽约时报》时说,“存在于不同比例的人群中,有点像血型分布。黑人群体的智力基因数量似乎总体上低于白人群体。”
詹森的研究启发了一批科学追随者。例如,哈佛大学心理学家理查德·赫恩斯坦(Richard Herrnstein)在他的研究基础上,于 1973 年出版了《精英治国中的智商》(IQ in the Meritocracy)一书,书中也认为,由于智力是基因决定的,并且因种族而异,那些不幸属于错误种族群体的人永远无法达到相同的水平。
1994 年,赫恩斯坦与保守派智库美国企业研究所(American Enterprise Institute)的研究员、政治学家查尔斯·默里(Charles Murray)共同出版了《钟形曲线》(The Bell Curve),进一步放大了这些论点。这本书严重依赖于优生学时代成立且因宣扬白人至上而闻名的非营利组织先锋基金(Pioneer Fund)资助的科学家的研究成果,这本书甚至暗示,标准化考试可以衡量一个人的认知能力——被描述为一般智力或“G”因素——而这些测试的总和可以用来证明黑人在基因上不如白人。
杰克·施耐德(Jack Schneider),马萨诸塞州洛厄尔大学教育学副教授,2017 年出版的《超越分数》(Beyond Test Scores)一书的作者,认为这些观点往往以测试提供的(尽管是虚假的)合法性为空气而蓬勃发展。“《钟形曲线》中的论点仍然存在,”他说——他极不情愿地补充道:“而且它们仍然被重新包装成科学。”
我们生活在一个有着根深蒂固的种族问题的国家。所以有时,我们使用种族语言,而我们真正谈论的是收入或社会阶层。
杰克·施耐德
“钟形曲线”和类似关于种族和智商的论述存在许多问题,其中之一就是考试制作者根本不声称对智商和 G 因子有任何说法——教育考试服务中心(ETS)恰恰相反。“ETS 的立场始终是,其评估产生的标准化考试分数仅提供一项数据,有助于全面了解学习者是谁、他们知道什么以及他们能做什么,”ETS 研究与开发高级副总裁 Ida Lawrence 表示。她还强调,分数基本上是学生教育历程“某一时刻的快照”。ETS 认为,分数“应该与其他标准一起全面考虑”。
“全面”一词也是大学理事会(College Board)强调的。“我们一直认为 SAT 分数应仅作为大学录取过程全面评估的一部分。分数仅应结合学生的居住地和就读学校进行考虑,SAT 分数绝不应成为学生计划或抱负的否决项。”
许多专家表示,标准化考试出色地衡量了学生的经济阶层,以及他们可获得的资源、投入到他们学校的资源,甚至他们为考试准备所投入的时间和金钱。
Schneider 这样说:“在关于标准化考试的讨论中,我们基本上忽略了阶级。我们生活在一个种族历史极其糟糕的国家。因此,有时我们使用种族语言,而实际上我们谈论的是收入或社会阶层。当我们在标准化考试中考察表现时,考试题目确实可能并且确实低估了黑人或拉丁裔家庭的文化知识,”Schneider 继续说道。“但我们不要忘记,考试也可能低估其他东西。一个人是否能获得……校外资源,那个年轻人是否能做好准备蓬勃发展?”
今年 7 月提交的一份法律简报,旨在支持哈佛大学对其平权行动计划的辩护——该计划目前正由美国最高法院审查——提供了大量基于联邦学校分析的统计数据,这些数据阐明了 Schneider 的观点。** **美国全国有色人种协进会(NAACP)法律辩护和教育基金的简报指出,少数族裔学生(黑人、拉丁裔、原住民)比例高的学校不太可能提供高级课程,而且这些学校的师资力量中,新手教师和缺乏州认证的教师比例更高。简报还指出,与白人学生相比,这些少数族裔学生就读于贫困 K-12 学校的可能性高出三到六倍,而这些学校常常被迫聘请在所教授科目上缺乏专业知识的教师。** **研究表明,在资金更充足的学校里,教师不太可能在课堂上点名少数族裔学生或推荐他们参加大学预备课程。
NAACP 的简报还提出了前 ETS 高级研究心理学家 Roy Freedle 首次提出的问题。他发现,在 SAT 词汇测试中,黑人学生在更常出现在学术环境中的词汇上得分更高,而白人学生在更非正式、更能反映相对富裕文化的词汇上得分更高。这其中最著名的例子可能是以下这个选择题类比题,该题出现在 20 世纪 80 年代的一些 SAT 版本中:
跑步者:马拉松
A. 使者:大使馆
B. 烈士:大屠杀
C. 划手:赛艇比赛
D. 马:马厩
这个答案——显然对熟悉划船的学生有利——是 C,后来,两位教育研究员,加州大学伯克利分校的 Mark Wilson 和智利天主教大学的 María Verónica Santelices,将证实 Freedle 在词汇偏见问题上的发现。在他们** **2010 年的报告中,他们简单地写道:“SAT 题目在语言测试中对非裔美国人和白人子群体确实有不同的作用。”
SAT 在 2005 年完全停止包含这类类比题,但 Wilson 在一次采访中表示,他自己的分析以及他人的研究“确实让我对 SAT 产生了普遍的质疑。SAT 的设计方式存在一些严重的问题,”他补充道。“看到这种模式后,我对 SAT 变得有些愤世嫉俗。”
这种疑虑正在蔓延。皮尤研究中心最近的一项** **调查发现,超过 60% 的美国人认为平均成绩(GPA)应该是大学录取的主要考虑因素。只有 39% 的人对标准化考试持相同看法。受到这些情绪的影响,或许也受到全球新冠肺炎大流行中断的推动,该国近三分之二的四年制大学——从哈佛到加州大学系统——已将 SAT 和 ACT 分数设为可选的录取申请项目。
麻省理工学院是这一趋势中的一个例外,它在大流行最初两年将考试设为可选,但在 2022 年 3 月恢复了其入学考试要求。(披露:Undark 由独立资助的 Knight Science Journalism Fellowship Program 出版,该项目在 MIT 进行行政管理。)
该大学的分析表明,如果 SAT 或 ACT 分数——尤其是数学部分——作为录取过程的一部分,它能更好地预测学生的学业成功。“我们的研究无法解释*为什么*这些考试对 MIT 的学业准备如此有预测性,”该研究所的招生主任 Stu Schmill 在一篇** **博客文章中承认。“但我们认为这很可能与数学——以及数学考试——在我们教育中的核心地位有关。”他强调,这一决定主要基于这一因素,而且 MIT“不偏爱分数完美的人”。Schmill 写道,该大学只是想利用一切可能的衡量标准来保证成功。
Wilson 并未否认这些考试可能提供一些有用的数据。“我担心取而代之的是一些并不可靠的衡量标准,”他说。“而且我担心,没有类似考试的东西,没有我们可以依靠的更多数据,我们就无法解决学校给出不同成绩的问题。”如果如 NAACP 简报所指出的,白人学生更多的学校提供更多的高级课程,那么根据这些课程的性质,GPA 将高于提供这些课程的学校。
哥伦比亚大学语言学家 McWhorter 则称 MIT 的举动是正确的。McWhorter 并不否认文化差异在考试分数差距中起作用。但他认为,“随着文化的变化,滞后也会随之改变。”McWhorter 建议,我们对改变太没有耐心了,如果考虑到漫长的历史,“20 世纪 60 年代是 10 分钟前”。此外,他也开始相信,考试确实能捕捉到一种抽象的智力,这与日常生活中使用的推理不同——可能包括 MIT 所追踪的那种数学考试表现。
他认为,暗示黑人学生不具备这种能力是侮辱性的;McWhorter 说,与其暗示他们生活贫困,不如试着挑战他们,让他们展示自己的聪明才智。
无论这是否公平,McWhorter 对考试的看法并不被他的许多同辈所认同,他们经常觉得,对标准化考试不加批判的接受时代已经过去,从这些考试中获得的任何见解都过于模糊和可疑,因此用处不大——尤其是在一个仍在努力克服种族仇恨和经济不平等的社会中。“考试这个事业如何能帮助我们实现我们一直在谈论的公平目标?”范德堡大学教育与公共政策副教授 Richard Welsh 问道。
他补充说,如果考试不能推动事情向前发展,那么考虑其他选择是完全合理的。
对 Welsh 来说,这些不仅仅是学术问题。去年,当他为儿子寻找纳什维尔的一所小学时,他确实看了看各机构学生在标准化考试中的表现。他认为这些考试会告诉他一些信息——但还不够,他还有其他问题:学校有多元化?他希望儿子能在多元文化的环境中学习,并希望他能融入其中。学校是否有对黑人学生严厉的纪律处分记录?Welsh 是黑人,他的研究使他对美国学校的纪律差异非常警惕。
去年,发表在《美国心理学家》上的一项** **为期三年的分析发现,当学生犯下小错误——在学校打手机或违反着装规定——时,26% 的黑人学生至少被停职一次,而白人学生只有 2%。通过他自己的研究,Welsh 认为这是“排斥性纪律”——是另一种让黑人学生无法进入教室,从而在学校和考试中表现不佳的方式。
这就是 Welsh 认为考试分数——尽管数据科学家寄予厚望——却常常无法真实反映学校支持学生情况的原因之一。“问题是学校是平等主义者,还是它们在复制不平等,”他说。Welsh 认为,考试分数无法告诉他这一点——也无法揭示学校是否是受欢迎的地方,学生是否能学到那种能帮助他们成功的“学习的乐趣”。
马萨诸塞大学洛厄尔分校的 Schneider 目前正在他的家乡指导一个试点项目,该项目始于八个学区,旨在研究衡量学校质量的新方法。他和他的同事们想看看,通过考察学生对艺术的了解、他们从具有文化包容性的课程中学到的东西、他们对周围世界的了解等标准,而不是标准的课堂科目,能描绘出什么样的图景。在这方面,对教师、管理者和学生的调查可以提供一个更好的窗口来了解学校的运作情况。此外,他正在尝试通过写作论文、口头陈述或基于表现的评估来更好地了解学生是如何学习的,与标准化考试相比。他说,最终目标是用这些更真实的学习表现衡量标准来取代标准化考试。
研究表明,在资金更充足的学校里,教师不太可能在课堂上点名少数族裔学生或推荐他们参加大学预备课程。
尽管如此,Schneider 认为,期望考试消失是不现实的。“从政治上讲,我们不能从有到无,”他说。但考试可以改进,他说,我们可以更好地思考它应该如何使用。“人们常常谈论考试是种族主义的。但更深层的问题是考试的使用,”Schneider 说,他指出一些父母因为不喜欢与学校相关的数字而避开学校,或者政府官员利用考试分数迫使学校因表现不佳而关闭。Schneider 说,这种情况“即使我们知道这些分数实际上说明了年轻人没有达到他们应该达到的水平,我们也知道这不一定是学校的问题。”
费尔菲尔德大学的 Brunn-Bevel 的研究也强调了这一点。她对弗吉尼亚州公立学校进行的一项详细研究,利用学校考试数据,表明黑人学生在小学和初中阶段的社会研究等科目上的成绩常常超过白人同龄人。但正如其他全国性研究所示,黑人学生的成绩在高中时有所下降,许多人报告说感觉被老师忽视了。这些糟糕的结果随后被用来让他们进入较低的学术轨道,这常常会进一步降低他们的成绩。
“今天的考试是用来帮助学生的吗?不,”Brunn-Bevel 断然说道。“它们被用作排名和分级的系统。”与 Schneider 一样,她不仅呼吁对考试的作用有现实的认识,还呼吁朝着更以学生为中心的方式使用它们。
同样,她也不信任当前的考试模式,尽管她的重点不是学校评估,而是像 SAT 这样高风险的入学考试。“研究人员已经对‘考试能预测大学成功并且能提供公平评估’这一观点提出了质疑,”她说。她也不喜欢当前考试系统传达的“四年大学是成功生活的唯一途径”的信息。
肯塔基大学的 Vasquez Heilig 也支持这一观点。他指出,如果考试数据被用来将资源分配给需要更多帮助的学生和学校,那么我们就不会看到大量资源流向已经富裕的以白人为主的学校。事实上,2019 年的一份报告发现,以白人为主的学区每年获得的资金比少数族裔学区多 230 亿美元,尽管它们教的学生人数几乎相同。
鉴于此,Vasquez Heilig 正在与 Schneider 和其他研究人员一起探索替代性评估系统。他说,考试提供的对学校或学生的看法,就像从 10,000 英尺高空的飞机窗户看到的景色。这当然是数据,但它过于遥远和笼统,无法用于可靠地对学生进行分级,更不用说作为向高等教育机构录用某些学生和拒绝其他学生入学的把关机制。“考试不应该这样使用,”他说。
大学理事会表示,它将继续评估如何改进其考试的衡量标准以及如何使用其结果,并在其电子邮件声明中,该组织的官员强调了取得的进展:今年,全国有 130 万学生的 SAT 分数“证实或超过”了他们的高中 GPA。其中,“超过 40 万是亚裔和拉丁裔,近 35 万是第一代大学生,近 25 万来自小型城镇和农村社区。”换句话说,考试给了所有背景优秀的学生一个脱颖而出的机会。教育考试服务中心的 Lawrence 补充说,那里的考试设计者正在考虑创建一种新的复杂测试,寻求其他方式让考生展示能力,以及“用于高风险决策的评估。”
然而,Rosner 希望完全消除标准化考试的把关作用。他认为,如果我们保留 SAT 这样的考试,我们应该认识到它们的局限性——就像倡导者正在寻求改革学校评估一样——我们应该尝试以更好地支持教育和所有学生的方式来使用它们。而且,如果如一些人预测的那样,美国最高法院推翻了近 20 年前在 Grutter v. Bollinger 案中确立的平权行动原则,考试在评价学生方面的作用可能会变得比以往任何时候都更重要。
“考试本身,潜在的危害并不大,”Rosner 说。“也就是说,只要它不用于高风险决策。”他一直在倡导大学采用考试可选或无考试的录取决定,并取得了一些真正的成功,例如加州大学去年至少到 2025 年取消了 SAT/ACT 考试要求。他还与其他倡导者一起游说美国律师协会考虑取消法律学院申请必须包含 LSAT 考试的要求。11 月,负责认证法学院的 ABA 机构** **投票决定从 2025 年开始,LSAT 考试将变为可选。整个协会定于 2 月份就该考试做出最终决定。
如果美国希望摆脱标准化考试的困境历史,并摒弃其优生学起源、作为隔离工具的用途以及围绕其固有的文化问题的批评声——正如日益增长的共识所认为的那样——那么它就需要承认,这些考试长期以来都是为机构服务,而非为学生服务,无论他们的种族或阶级如何。Rosner 和其他人认为,如果考试更以学生为中心,它们的主要目的将不是把关,而是提供见解,帮助取得学业成功。
“为什么不把这些数字给孩子们,”Rosner 问道,“让他们把结果作为有用的建议?”他想知道,这是否会改变一切?
LONG DIVISION 是 Undark 杂志的一项持续进行的记者项目,由 MIT 的 Knight Science Journalism Program 出版,该项目旨在探讨种族科学的棘手遗产。