高考，一碗端不平的水_谈天说地

当前位置：首页 > 谈天说地 > 详细内容

高考，一碗端不平的水

发布时间：2020/7/7 阅读次数：1107 字体大小: 【小】【中】【大】

「高考是相对最公平的考试，是千军万马过独木桥，也是穷孩子唯一的出路。」在坊间，这样的观点十分盛行。

的确，如果不考虑舞弊等少数情况，比起前三十年拼「群众推荐」、拼「家庭出身」、「工农兵上大学」等等，当代高考确实是程序正义方面的长足进步。但每到高考前，人们总会有些疑问，如：

上海、北京、天津的 211 高校录取率超过 10%，而人口大省安徽、河南、山东、广东等不到 4%；

各省份内部的教育资源愈加内卷化，富裕地区靠家长「氪金」，一般地区靠超级中学的抽水机效应；

高考题的难度本就飘忽不定，遇上疫情年则更难令人放心。

高考的辩护者们通常将这些问题归罪于优质教育资源的稀缺。他们会说，北大清华的名额毕竟有限，中国各省经济发展水平差异巨大，高考又是选拔性考试，不能把锅丢给高考。

很少有人意识到，高考这根指挥棒本身也是不公平的真正根源 —— 从考试和考题设计，到录取计划，再到其背后的央地行政和财政关系。

分数的玄机

从恢复高考以来，中国的高考制度设计一直有两股力量在拉扯：一边是地方政府和省部共建高校在招录中的作用，一边是中央的财政支持及其在高考中的话语权。

相应，这两股力量在外观表现上分成两方：前者的诉求是各省自主命题、高校自主招生和伴生的「素质教育」口号，后者则是全国统一命题、题目标准化和分数标准化。

至于考生群体的利益，双方都以此作为改革的旗号，国内却并没有完善的研究，来指出到底怎样考才对考生们最公平。大多数考试政策直到民怨载道才作出改变，却总是从一个极端改到另一个极端。

在各年度、各省之间，高考分数不能拿来横向比较。这是因为高考大体上是非标准化考试。

高考不但是一场考试，还是一套算法。按照经济学的「稳定配置理论」，它和拍卖规则类似，是一种保证分数 - 录取水平匹配的算法。相关理论曾获得 2012 年诺贝尔经济学奖，但至今成果仍未应用到中国的制度设计中

大多数我们所知的出国考试，比如托福、雅思、GRE、SAT 等等，都是标准化考试。这些考试的每次分数会根据统计学原理，进行一套复杂的数学调整，以保证分数不受考试地点、题目、场次的限制。

比如，托福英语机考满分 120 分，听说读写四门各 30 分。它的出题不是按「套」来的，而是按「道」来的。考试机构会邀请一些出题专家，按照一定的要求一道道出题，按「道」给钱，形成一个题库，每道题有自己的难度权重。

每次托福考试，系统会按照固定的权重要求，一个类目的题筛选若干道，「攒」成一套难度标准化的试卷。

当你考完之后，系统按照所有考生排名的百分等级，算出一套统计学标准分。比如说，托福阅读满分 30 分，28 分的百分等级为 84，也就是说当你得了 28 分，就超过了 84% 的考生。

因此你在任何场次考的托福分数意义都一样，可以横向比较。国外高校录取，也只需给出诸如「托福 100 分以上」的直接要求即可。

中国高考长期以来是非标准化考试，这也是央地拉锯战的结果。

80 年代初刚恢复高考时，由于教育部命题水平一般、各地的批卷标准参差不齐，当时的高考题非常简陋，很难说有任何科学性。学者们按照教育科学标准，统计了全国高考的情况，发现很多试题效度极低、信度为负。

1979 年的北京高考落榜考生专栏

当时参与的专家之一张厚粲说：

有些文科卷子，只四大道论述题平分天下……拿语文来说，同一张答卷，五个地区打分能差出 32 分来，数学也差 15 分。

中国高校的录取名额必须由国家公平分配，这关系到社会稳定。眼看高考报名人数逐年增加，长此以往是不行的。经过研究，国家决定推行高考标准化。

1985 年，最早的标准分改革开始在广东试点，后来推行至多个省区，到 1997 年一度覆盖全国三分之一的考生。这些省份在降低难度、3+X 自选科目（数语外三门必考加若干门选考科目）的同时，把所有原始分（满分多为 750 ）按统计曲线标准化为满分 900 的标准分。

按理说，标准分能够让学生非常明确地知道自己在全省的名次，有利于志愿投递，也有利于高校录取，更有利于试题标准化和复习备考，是一举多得的好事，但这个制度很快就遭遇了滑铁卢。

3+X 标准分从人人欢迎到怨声载道，只用不到二十年。到 2010 年，沿用标准分制度的省份只剩海南一个，其他省份都改回了原始分。

为什么会这样？

标准分的确更科学，但这不等于在任何情况下，标准化都比原始分更公平。

在考生眼里，3+X 标准分比原始分糟糕很多。除了黑箱操作的隐患，它还带来一个巨大的问题：标准化带来的「局部利益调整」。

考试各科的分数是分别标准化的，但比较的时候大家是放在一起比的，这就造成了名次的移动。

大部分标准化考试的出题对于考生成绩的分布都有一定的把控。即便不经过调整，单靠题目难度分布的作用，大家的原始分也近似满足一定的规律，统计学调整只不过是最后一步。

中国高考的出题水平则远远达不到这么精准。

高考没有题库，每年的高考命题由教育部考试中心或省里现组班子，题目标准化程度低下，原始分的统计分布飘忽不定。因此，高考分数经过标准化之后往往漂移得更厉害。

尽管教育部多次强调今年的出题会求稳，但有了 2003 年非典年「超难数学」的前车之鉴，谁也不敢在此时掉以轻心

比如，语文的成绩分布经常比较集中，所以原始分差一分，经过统计学调整，标准分会差好几分乃至十几分。如果来一个偏科的考生，语文特别好，就会很占优势。

另外，3+X 除了必考的数语英三门，还有三门可以自选。当某一科考生总体水平都不太好，考得好的学生就会比选其他科目的学生得更多的标准分，考取更好的学校（高校录取分数线是按处理后的标准分总分划定的）。

对排名靠中间、恰好卡在上线和落榜之间的学生而言，这样的调整会造成极大的不确定性。全部考生中，大约 7% 会在这个调整中命运被悄然改变，由上线变为落榜。十多年间，这个群体的人数可能多达几十万。

这一现象被学界称为「局部利益调整」，比任何顶替都影响深远。而且，由于原始分排名不公开，他们根本没办法知道自己是否因此落榜。

3+X 还存在专业壁垒问题。各大学专业有自己对应的选考科目要求，如一个学生没有选「物理」，就不能报考需要「物理」这个单项的专业。这种专业壁垒加大了选专业的难度，还可能造成某些专业由于高考选科偏差而人数过少。

随着试点省份一个个回到原始分，中央对考生进行「统一分配」的第一轮尝试就这样宣告失败了。

在潮流中，更多省份则选择观望，并逐渐走向故事的另一面：自主命题、自主招生，以及「素质教育」。

谁来决定录取计划

如果中央不能有效、合理地将学生分配给高校，那么各个地方就只有自己来了。

在中国，由于「省部共建」，公办高校和地方经常是绑定在一起的。跟随财政体制改革的步伐，从 1998 年起，全国 200 多所部属高校下划到地方共建，剩余的 76 所教育部直属高校和 38 所部属高校也高度依赖地方财政。

中国科技大学是中国科学院所属，但拨款来源中，教育部、中科院和安徽省各占三分之一

制定高校招生计划的利益关系主要有三方面：中央、高校所属地方、高校。

中央的立场是，一方面考虑宏观就业问题与人力资源分配，有权决定总体上扩招还是缩招，以及是否在需要人才的发达地区扩大招生规模，另一方面，又要保证地区之间的公平。

地方政府和高校则经常是利益共同体。它们都想让更多优质生源来到自己麾下，来促进经济发展、多拿拨款。同时，地方政府还希望扩大本地的教育福利，因此有着多招自己人的意愿。

财政改革之后，高校既然拿地方的钱，录取名额就必然会向地方倾斜，而且因地域经济差异而差距悬殊。

这场三方博弈没有永远的赢家，但有永远的局外人：考生。

高考刚恢复的时候，国家严格配给招生指标，高校却利用双轨制，大量在计划之外招收计划生、委培生。不得已，1993 年国家首次允许省属高校自行编制招生计划。

1998 年，为了填补 985、211 工程的财政空缺，「省部共建」政策出台，中央与地方按原则上 1:1 的比例为高校拨款。为了争取地方支持，各大高校不约而同地多招本地人来。

2016 年两会上，时任贵州大学校长郑强说：「中国还有 13 个省份没有一所教育部直属的大学」，其中包括人口大省河南、河北。在地方保护性招录下，这些省份的学生很难被招生计划青睐

与自定招生计划同时起步的，是高考的分省自主命题。

2003 年非典当年，泄密事件和整体跑偏的超难全国卷给了各省教育部门以口实。第二年，全国共有 11 个省份进行了高考自主命题，公开的名义是有利素质教育、适应当地情况，让高考更公平。

实际上，这不过是高等教育地方保护主义的延续：既然招生计划已经分省、已经倾向当地，不如就干脆让省份之间无法互相比较更好。

2001 年，由于统一高考山东的录取分数线与北京相差太大，青岛三名考生状告教育部违宪。次年，北京上海率先开始自主命题

十多年来，我们并未看到高考分省命题对素质教育有何促进。素质教育的核心 —— 减负、反应试、多元化培养 —— 全都无法落实，教育界收获的只是十多份大同小异的考试题。

在省权扩大的背景下，高考进一步远离标准化。

外行很可能认为今天的中国高考已经很正规。在手批时代，即便全国统一命题，由于批卷标准不同，高考分数也有极大省际差异和个人运气成分。

如今，大部分省的高考卷都采用光电批阅，先由计算机扫描答题纸，再用技术按题切分，每道题分给两位老师批阅，如果分数差异超过限度，则发给第三个老师仲裁。

这看上去非常公平公正，但实际上，高考的很多主观题是没有标准化评分体系的。

就以作文为例。标准化考试凡有作文的，都会在虚标准之外给出一系列分档例文，和考纲一起，展示给考生看：写成这样 5 分，写成这样 4 分，诸如此类，并且通常都会给出样题库。但高考没有。

「美国高考」SAT 考试官网上的例文，有细项分数和解释

高考作文的出题决策过程成谜，不同省的批阅过程和给分标准更是成谜，每个省都有作文的「考经」，不同省的套路难以互相参考。为了不被仲裁影响考核，阅卷老师多打中等分，也造成了语文成绩分布聚集的现象。

试题越飘忽，对广大考生就越不利。试题太难，他们会集体失分，聚集到低分段，拉不开档次；题目太简单，他们又会集中到较高分段，一样拉不开档次。

国家和教育行业也意识到了这些问题。从 2014 年开始，随着考试相关权力重新收归中央，高考改革风向也开始掉头，重新转向国家统一命题、统一标准化考试，回归二十年前的 3+3 考试模式。

截至 2019 年，新高考改革已经进行了三批，推进到 14 个省份，并逐渐走向全国统一命题。这 14 个省份的自选科目分别采用六种不同的统计学赋分规则。

这些赋分规则要么使用标准分，要么将考试成绩按照一定的排名比例，划分成若干等级，按等级换算成不同分数。它们也根据成绩的统计分布进行校正，相当于改良的标准分

例如：北京市的小明同学高考选择了物理、历史和地理三门科目参加等级性考试，其卷面成绩分别在选考该科目的考生中排到 20%、5% 和 13%，对应的等级分别为 B1、A3 和 A5，根据等级折算规则，计入本科高校录取总成绩的分值分别为 85 分、94 分和 88 分

但二十年前就广受批评的「局部利益调整」、自选科目造成的给分玄学和专业壁垒等问题，现在也跟着回来了。

比如，由于物理的学习难度较大，很多「学渣」早早避开了物理，导致中等水平的学生相对排名靠后。在标准化处理后，这些考生会比选择其他科目的人吃亏得多。

越来越多的中等水平考生便放弃物理，而这样又加速恶化了给分问题，让更多人不愿选物理。官方只能采用在招生时设置专业壁垒等方式，逼学生选物理，但仍不能阻止选物理的人数年年缩减的现象。

随之而来的，则是自选科目人数突然变化引起的教师资源浪费、自选课对固定班级制的冲击等一系列问题。

高考是一场博弈，不但是学生与学生之间的博弈，还是中央、地方、高校与考生群体之间，各个行政和财政主体之间的博弈。

在这场更大的博弈中，当属考生群体最没有话语权。对于考生，真正的公平还很遥远。

上一篇：儿子成为唯一被剑桥大学数学系录取的中国学生，这位作家母亲却说全靠“玩” 下一篇：李克强戳破国情虚幻想象折射中国高层清醒认知

我要评论