全球脑力重组:中、美选拔制度改革的底层逻辑
作者:龍德明宇
一
2026年6月7日下午5点,中国高考数学落幕。教育部教育考试院的评析里,最关键的词不是「难」或「易」,而是「多想少算」「打破固化模式」「开放性探究设问」。
几乎同一历史周期,美国SAT已全面数字化,全程内置Desmos图形计算器,通过算法实现自适应出题路由。
但这些改革方向确立的时间远早于ChatGPT发布:中国2019年(《中国高考评价体系》发布,确立「思维考查」方向,2024年新结构首次落地)、SAT 2022年1月(College Board宣布数字化计划)。最早的改革方向确立于ChatGPT出现之前近四年。
这是一个反直觉的历史错位:在大语言模型浪潮席卷全球之前,人类最重要的两大选拔系统,就已经对「刷题工具人」的选拔路径做出了否定。
旧机制的病灶:训练冗余度
这一共识并非凭空而来。旧选拔机制测量的核心指标,可以称之为「训练冗余度」,即考生对特定题型的过度拟合程度,说白了就是「刷过的题、背过的套路在多大程度上直接转化为分数」。谁刷的题多、背的套路全、肌肉记忆牢,谁就能拿到更高分数。
PISA多轮测评的结果已经在两端暴露了这一指标的局限性。一端是部分东亚经济体长期表现出的高训练冗余度特征:在数学、阅读、科学核心学科上成绩极高,但在PISA 2022首次引入的创造性思维测试中,中国香港、中国澳门、中国台湾的得分仅接近或低于OECD平均水平,提示过度应试训练可能在创造性表达维度上存在边际抑制效应(需要承认,文化测量偏差、题目语境差异等替代解释尚未被排除,这一相关性尚不足以构成因果结论;中国大陆未参加该模块,尚无直接数据)。另一端是美国基础教育系统中普遍存在的训练不足问题:在2018-2022周期中,美国学生数学基础能力出现显著下滑,不少学生连最基本的比例计算和空间直觉都有所欠缺。
这两端看似相反,实则是同一问题的两面:当分数主要由训练冗余度决定时,它既无法预测未来学术潜力,也无法预测个体解决未知问题的能力。测量工具在两种模式下都失灵了。
机器学习领域中,过度拟合(Overfitting,指模型在训练数据上表现极好,但在新的未知数据上表现大幅下降的现象)意味着模型在训练集上拿了满分,但在面对测试集,也就是未知的现实问题时表现大幅下滑。旧机制批量生产的正是这种「过度拟合」的脑力:在训练集(标准化题库)上精确无误,面对测试集(真实世界的不确定问题)时束手无策。此处借用的是过拟合的结构特征——训练集表现好而泛化表现差——不涉及过拟合的技术机制(如参数过多、正则化不足等)。
大语言模型的出现,使「训练冗余度」的社会价值快速贬值。大语言模型本身不是过度拟合的产物,恰恰相反,它通过规模化训练和正则化技术(regularization,防止模型过拟合的常用技术)获得了较强的泛化能力。但它在机械计算和模式匹配任务上的表现已经远超人类平均水平,这意味着人类继续在「拟合熟练度」上投入大量时间,从社会资源配置的角度看就是低效的内耗。这个问题早在大语言模型出现之前就已存在,大语言模型只是让问题暴露得更加充分。
两大选拔系统不约而同地做了一件事:从机械训练中剥离出真正的心智能力。这一共识的形成,背后有清晰的测量学逻辑——用测量学的语言说,就是压缩分数中由机械训练和资本投入贡献的系统性偏差,让真实能力在测量结果中占据更大权重。
二
中国:从22题到19题
2024年1月,九省联考首次采用19题新结构。2024年6月,新结构正式落地高考。2025年高考沿用19题结构,命题进一步向反套路方向深化。改革的政策依据是《深化新时代教育评价改革总体方案》(2020年)和《中国高考评价体系》(2019年),时间线清晰:这一调整不是大语言模型催生的,而是教育评价改革的既定环节。
22题变19题,不是降低难度,是重构考试时间的分配。过去120分钟里,考生大约要花40分钟在繁琐的代数消元和多项式展开上。减掉的3道题中,相当部分属于纯计算类,这40分钟被腾出来,成为「现场推理时间」。
2024年,教育部教育考试院首次明确提出「多想少算」命题原则。2026年,官方评析首次明确提出「应教尽教」要求,反对超标教学和提前引入高等数学内容。政策措辞的约束性逐步增强。
具体题目能清晰呈现这种转向:
全国Ⅰ卷(即新高考Ⅰ卷,教育部评析中仍沿用「全国Ⅰ卷」称谓)第8题,概率统计。传统做法是列举样本空间硬算,计算量不小。但利用随机变量取值的对称性,真正理解概率本质的学生几秒就能看穿解题路径,计算量趋近于零。
全国Ⅰ卷第18题,解析几何。过去这道题的标准流程是设线、联立、韦达定理、几十行代数运算。2026年的命题把平面几何的直观特征和三角函数结合,几何直觉直接取代了机械代数运算。
全国Ⅱ卷第11题C选项。直接求相关点坐标,计算量会导致考生在考场上卡住。而利用向量点积的几何意义判断角度大小,一步到位。
全国Ⅰ卷和Ⅱ卷的第19题,都采取递进式探究设问,由浅入深,前一问为后一问铺垫,后一问是前一问的延伸。学生必须现场提出假设、分类推理、自我修正、最终收敛结论。靠猜测和套公式,难以拿到有效分数。
官方评析把这一要求概括为「连贯、严谨的大跨度思维过程」。
还有两个细节值得注意。全国Ⅱ卷第15题引入了现实情境,通过图表给出电子产品首次出现故障的时间数据,要求学生经历「观察、分析、论证」的完整过程。全国Ⅱ卷第18题的曲线方程因参数取值不同而对应不同类型的曲线,问题具有开放性,学生必须探索尝试才能确定曲线类型。
认知科学里有一个经典区分:结构化问题(well-structured problems)和非结构化问题(ill-structured problems)。结构化问题的条件、目标和路径都明确,解题者只需要选择正确的程序执行。非结构化问题的边界模糊、信息冗余或缺失,解题者必须先界定问题本身(Simon, 1973)。旧高考考的是结构化问题的熟练度,题型固定,解法固定。2026年的命题开始把学生推入非结构化领域:一百零八塔的数字特征、电子产品故障的时间分布,这些不是数学温室里的练习题,它们带着现实噪声,要求学生在考场上现场建构问题框架。这种能力在认知科学中叫「远迁移」(far transfer),即不是在近处套模板,而是在陌生领域调动核心概念解决问题。
这套命题的逻辑很清楚:把「二级结论」「秒杀技巧」「押题密卷」的贡献系统性剥离。旧机制下,谁肌肉记忆深、背的套路全,谁占优。新机制正在封堵这条捷径,尽管目前缺乏大规模统计数据来证实分数分布的实际变化,但命题逻辑的转向是清晰的:它迫使教学和学习范式做出根本调整。
据多家媒体观察,2026年高考结束后,「二级结论」「秒杀技巧」类教培产品面临显著转型压力,传统押题宣传和喜报刷屏现象在各平台明显减少。机构被迫从「套路训练」转向「思维训练」,但面临师资短缺,原来的老师擅长讲题目解法,不擅长引导思维过程。目前尚无权威统计数据系统量化这一转型的规模,上述判断基于媒体可观察到的外显现象。
美国:SAT数字化转型
2022年1月25日,College Board(美国大学理事会)正式宣布SAT数字化计划。这时候ChatGPT尚未上线。
2024年3月9日,数字化SAT在美国本土正式上线。考试时长从3小时缩短到2小时14分钟,题量从154题减到98题。三个核心变化:
第一,全程内置Desmos图形计算器。旧SAT数学分两部分,一部分禁用计算器。新SAT全程允许使用计算器,而且工具直接内嵌在考试软件Bluebook中。
第二,多阶段自适应测试(MST,Multi-Stage Testing,即根据考生前一模块答题表现动态分配后续模块难度的考试形式)。每个Section分两个Module。Module 1对考生使用相同题目,混合了易、中、难各类题目。根据Module 1的答题表现,考试系统将考生分配到不同难度的Module 2。进入高难度模块,才能解锁该Section的分数上限(最高800分/Section)。
第三,题干大幅缩短。旧SAT数学充斥着包裹在美式生活场景里的长篇题干,新SAT去除了这些阅读障眼法,用更精炼的数学符号和几何结构呈现问题。
这里有两个反直觉的发现。
一是多所藤校恢复了标化成绩要求。MIT早在2022年即率先恢复SAT/ACT强制提交;2024年起,哈佛、耶鲁、达特茅斯、布朗先后宣布自2025Fall申请季起恢复要求;宾大、康奈尔(Cornell)于2025年宣布自2026Fall起恢复;普林斯顿(Princeton)于2025年10月宣布将自2028Fall起恢复,2026-2027周期仍为可选。8所藤校中,哥伦比亚大学(Columbia)是唯一长期保留test-optional(标化可选)政策的例外。Caltech、Stanford、Johns Hopkins、Northwestern等顶尖非藤校也先后跟进恢复。这不是招生政策的继续放宽,而是收紧。公开理由是:GPA膨胀现象过于严重,标化成绩能更有效识别真正有学术准备的学生,尤其是来自缺乏高阶课程学校的被低估的申请者。
二是CAS计算器被禁用。2025年8月起,TI-Nspire CX CAS、HP Prime等具有计算机代数系统功能的计算器被禁止带入考场。College Board给出的理由是「这类计算器能自动求解代数问题,超出了测试设计的测量范围」。考试内置的Desmos可以使用,考生自带的CAS设备不行,因为Desmos是计算辅助工具,CAS是可以直接替代代数推导过程的系统。
还有一个值得注意的细节。2026年以来,据多家备考机构观察,Hard Module 2(高难度第二模块)的题目开始出现「Desmos陷阱」:含变量的答案无法用Desmos直接得出数字结果,必须先完成代数推理才能正确输入。据备考机构Gangnam Prep的观察统计(该数据来自单一商业备考机构,样本可能存在选择性偏差,仅供参考),Module 1约60%的题目可以借助Desmos提升答题效率,而Hard Module 2由于大量出现含变量的表达式题和概念题,这一比例降至35-40%左右。这表明,College Board正在主动调整出题策略,防止考生把数学考试变成Desmos操作考试。工具可以辅助计算,但工具不能替代思考,这个边界正在被测试设计者反复校准。
SAT改革的官方表述中未提及大语言模型影响。College Board高级副总裁Priscilla Rodriguez表示,改革是「回应学生和教育工作者的诉求」,主要动力是数字化学习趋势和考试安全需求。改革方向与大语言模型时代的能力要求高度重合,但并非由大语言模型直接驱动。
三
诊断清楚旧机制的病灶(训练冗余度)之后,再来看两大选拔系统改革共享的测量学逻辑。
经典测量理论(Classical Test Theory,心理测量学的基础理论之一)里有一个基本公式:X = T + E。其中X是考生的实得分数,T是考生的真实能力水平,E是测量误差。
E不是一个笼统的「噪声」概念。它包含两类分量:系统误差和随机误差。随机误差是临场发挥、题目偶然性等不可控因素导致的偏差,无法稳定预测。系统误差则不同——在测量学中,系统误差指由测量工具或测量条件本身导致的、方向稳定且可重复的偏差。当一种考试工具长期奖励特定类型的训练投入时,由此产生的分数偏移恰好满足系统误差的两个核心特征:方向稳定(刷题越多分数越高,效应一致)和可重复(每一届考生都如此)。在这里,我们借用并拓展了这个概念,将基于机械训练与资本投入堆砌的分数效应,定义为选拔机制中规模最大、影响最深的系统误差。严格来说,CTT中的系统误差原指测量工具本身的固定偏差;我们将其拓展为「测量工具对应试准备的系统性奖励」所产生的分数偏移,两者的共同核心在于方向稳定与可重复,这一拓展的合法性正在于此。这类误差可以通过反复刷题获得、可以通过付费培训购买、可以靠押题技巧获取。
旧模式下,系统误差被资本投入和刷题训练堆得极高。这时候X测量的不是真实能力T,而是「资本投入总量+机械训练时长」。分数高,未必代表能力强;分数低,也未必代表能力差。
两大选拔系统改革的共同测量学逻辑,是压缩E中的系统误差分量:
中国通过设置全新题目情境和反套路命题,剥离「二级结论」和「秒杀技巧」的系统性贡献。比如全国Ⅰ卷第7题取材于宁夏青铜峡一百零八塔,根据各行塔数和总塔数的数字特征设置探究情境。这类题目基本没有现成答题模板,很难靠背诵套路解决。
美国通过MST自适应路由机制,压缩运气成分的影响,更精准地定位考生的能力上限。Module 1的表现决定了Module 2的难度层级,投机者很难靠答对几道简单题的运气撑起总分。
这种修正不是要让E归零,那在测量实践中不可能实现。改革要压缩的是E中由资本投入和刷题训练贡献的系统性分量,让真实能力T有更多机会在分数中体现出来。
考试对教学的反向倒逼效应
选拔机制是整个教育系统的杠杆,撬动的是教育供给侧的整体变革。
中国的高考通过「应教尽教」「不超标」的命题规则,强制基础教育阶段教学减速。当高考明确传递出「提前抢跑学习高数内容和背诵二级结论在考试中收效甚微」的信号,那些靠引入超纲内容建立升学优势的学校就会失去竞争力。国家通过考试命题的主权,倒逼中小学教学回归课标要求的正轨。
美国藤校恢复标化成绩要求,倒逼K-12系统提供更可衡量的学术准备。GPA膨胀已经到了无法有效区分学生真实水平的程度,标化成绩重新成为大学招生中衡量学术能力的锚点。
选拔标准发生变化,教学体系就不得不跟着调整。这是考试制度最硬的反拨效应(washback effect,教育测量学概念,指考试对教学和学习产生的反向影响)。
四
但测量误差不会凭空消失。压住一种系统误差,往往可能引入另一种新的系统误差。
中国:师资资本差距的新挑战
旧模式下,题海战术虽残酷,但给了普通家庭孩子一条相对确定的上升通道。只要足够勤奋,把错题反复练熟,就能拿到相对稳定的分数。这条路很窄,但路径清晰可见。
新机制下,「考场上的现场推理」更依赖启发式教学和对概念的深度理解。县域中学普遍缺乏名师资源,学生靠个人勤奋提分的边际效益可能出现明显下降。
过去,县中对抗省城重点中学的武器是时间投入:你用启发式教学上1个小时,我用高压刷题灌输14个小时,在标准化试卷上,最终分差并不大。时间投入的积累能够在相当程度上抹平师资差距,因为旧题型本身就是高度标准化的,标准化的训练对标准化的考试,勤奋可以弥补资源的不足。
但当高考命题走向「多想少算」和「大跨度论证」,单纯的时间资产就失效了。启发式教学依赖的不是教学时长,是教师本人的认知深度。一个自己都没有理解向量点积几何直观意义的老师,给他14个小时课时,也教不出能「几秒看穿解题路径」的学生。这才是改革最残酷的置换效应:它用一种无法被勤奋和时间投入抹平的资产,即教师的真实认知深度,取代了过去可以被汗水抹平的资产。
更深层的机制是:新题型依赖的「启发式教学」,对教师的能力要求与过去显著不同。旧体系下的「经验丰富」指的是刷题经验,即带过多少届高三、总结过多少种题型套路。新体系下的「经验丰富」指的是概念理解经验,即能不能把一个数学定义从多个角度讲透,能不能在学生卡住时给出一个恰到好处的提示而不是直接给出解法。这是两种显著不同的教师能力,转换成本极高。早在2024年新高考首考后,郑州外国语学校高三数学备课组长王珂在大河网访谈中就指出,高考试题倡导「多想少算」、反对「机械式刷题」的导向「正好击中传统教学模式的软肋」。2026届备课组长吴鹏在大象新闻的评析中进一步强调,高一高二阶段应「避免过早灌输大量二级结论」,回归课标教材。但能说出这种判断的,已经是少数重点中学的受访教师。大多数县中教师自己就是在刷题体系中成长起来的,他们的知识结构恰恰是这次改革要打破的那种模式。
这不是教育公平的倒退,但确实制造了新的系统误差来源。我们压缩了「刷题资本」带来的系统误差,可能同时引入了「师资资本」带来的新系统误差。竞争的战场从学生个人的勤奋,转移到了对优质师资资源的争夺上,过去资本投入带来的分数优势可以被个人勤奋部分稀释,现在教师认知资本的门槛变成了不可逾越的认知门槛。
一个自然的追问是:大语言模型能否弥补县中在启发式教学上的短板?部分可以,但不能抹平。它可以提供一对一解释、错题诊断和苏格拉底式追问;但有效使用它本身就是一种元认知能力——学生得知道什么时候追问、追问什么、怎么判断回答的对错。一个习惯了「背套路套公式」的学生,拿到大语言模型最自然的用法是「给我步骤」,而非「换个角度想」。识别大语言模型在数学推理上的「流畅错误」,也需要概念理解深度。更深的困境是,启发式教学传递的不只是概念解释,还有思维习惯,即什么问题值得想、从困惑到收敛的真实路径是什么,这些隐性知识通过长期观察教师习得;大语言模型没有这个过程,也就展示不了这个过程。如果它在教学中制度化普及,差距可能再次发生置换:从「谁拥有好老师」变为「谁能有效使用大语言模型」,而后者与家庭文化资本的相关性并不比前者低。误差不会因为新工具的出现而被根除,它只会改变方向。
美国:文化资源分化的风险
美国改革面临的问题更尖锐。公立教育系统推广计算工具辅助教学,本来是为了降低学生的数学焦虑、释放更多认知资源用于高阶思维训练。但在缺乏纪律约束和教学质量保障的公立学校里,「减负」往往演变成「放任」。底层家庭学生连最基本的比例计算和空间直觉能力都出现了明显下滑。
与此同时,安多福、埃克塞特这类精英私立学校的学生,利用免除机械计算训练省下来的时间,在名师指导下开展真正的大学级数据科学学习和复杂建模训练。
SAT恢复标化要求的初衷是反直觉的:政策设计的目标恰恰是为了识别被GPA膨胀掩盖的底层具有学术潜力的学生。但FairTest等教育公平机构指出,考试内置计算器对高收入家庭学生帮助更大(这些学生日常学习中更熟悉Desmos工具的使用),自适应设计使得考生在Module 1的失误代价更高,可能进一步放大阶层差距。阶层分化是客观存在的风险,目前尚无权威研究量化(即通过数据统计测量规模)这一影响的实际规模,Brookings学会和NBER(美国国家经济研究局)等机构尚未发布相关专项研究报告。这一风险判断基于教育技术扩散的经典规律,具体影响程度需等待后续实证数据验证。
这同样是一种误差置换:从「计算能力训练差异带来的系统误差」转为「文化资源获取能力差异带来的系统误差」。
两个国家改革中出现的制度摩擦指向同一个结论:改革压缩了一种系统误差,但往往会引入另一种新的系统误差。这不是改革的失败,而是测量工具的固有局限。选拔机制大多存在误差项,问题不在于有没有误差,而在于哪种误差对社会整体的伤害更小。
要判断哪一种误差更可接受,需要对两种误差的性质做更细致的比较。
旧误差(刷题资本)的特征是可以被金钱直接购买,且购买效果边际递增:家庭越有能力支付教培费用、购买名师课程和押题资料,分数提升就越稳定、越可预期。它构造的是一条资本直接兑换教育结果的线性通道,投入量与产出量之间存在高度可预测的对应关系。对资源匮乏家庭的学生而言,这条通道几乎是单向封闭的——不是能力不足,而是根本付不起入场券。
新误差(师资资本与文化资本)同样与家庭背景高度相关,但其「购买」路径更间接。一个孩子能否在中学阶段遇到真正理解数学概念的教师,取决于学区财政、家庭择校能力和居住地,这些都难以与阶层剥离。然而,认知能力一旦形成就具有可迁移性:真正理解向量点积几何意义的学生,无论老师是谁,都能在考场上一眼看穿解题路径;真正形成了数据直觉的学生,面对陌生数据集仍能提出合理假设。这意味着新误差并非纯粹的资本置换——在分数与资本之间,混进了真实能力的成分。对于教育资源匮乏地区但确实具备推理天分的学生,新机制给了他们穿越资源限制的机会,尽管这个机会仍然是不公平的、仍然在概率上偏向资源优渥的家庭。
以同样来自县城的学生为例。旧机制下,分数上限近乎等于「把考纲范围内的题型刷完」的投入总量:需要时间,需要教辅,需要反复模考,量不到位分数就上不去,这是一个可以被金钱和时间线性填充的缺口。新机制下,分数上限更接近「真正理解数学概念」所能抵达的位置:师资差距是质的差距而非量的差距——一个自己都没理解概念的老师,给再多课时也教不出几何直觉——但真正具备数学天分的学生,有可能通过课本自学、通过一道题的顿悟,在更少资源下穿越师资限制抵达那个位置。概率很低,但通道不再被资本量完全锁死。
必须强调的边界是:这不是在说新机制更公平。新机制同样不公平,只是不公平的性质不同——旧机制的分数天花板由资本投入量决定,新机制的分数天花板由可抵达的认知能力决定;后者至少在理论上与个体的认知属性相关,而不纯粹与家庭财富相关。前者会直接让资本垄断上升通道,后者至少还给真实认知能力留下了相当的筛选空间。当然,「天赋不平等比财富不平等更可接受」本身是一个需要伦理学论证的价值判断,而非自明之理。认知天赋同样受遗传和早期环境的塑造,并非纯粹的「应得」。本文不做这一层规范论证,只是指出:新误差在分数与资本之间混入了真实能力的成分,这个结构性差异使得新机制在概率上给了资源匮乏但确有天赋的学生更多被识别出来的机会。但测量的逻辑不要求我们在「公平」的意义上裁决两种误差的高下——更直接的标准是误差与待测能力的关系。旧误差的方向完全由外部资本决定,系统地扰乱了分数与能力之间的对应;新误差虽然同样与家庭背景相关,却指向认知能力的形成条件,最终通过改变学生的认知结构来影响分数。这不是说新误差更小,而是说它的方向更接近能力本身,在测量学意义上,这已经是改革能走到的最远一步。
五
为什么这些改革的方向如此一致?不是因为两国都提前预判了大语言模型的到来,而是因为它们都看到了同一个长期存在的问题:旧选拔机制测量的核心不是人的真实能力,而是训练冗余度。大语言模型让这个问题变得无法再被忽视,但问题本身早已存在。中国2019年确立「思维考查」方向、2024年新结构首次落地,SAT 2022年1月宣布数字化计划——这些时间线清晰地说明,改革的核心动力来自教育系统内部的长期积弊,大语言模型是让改革共识加速形成的催化剂,不是改革的启动器。
X = T + E的测量学修正不会让误差E归零。这类改革本质上都是在做误差置换:压住「资本投入和刷题训练」带来的系统误差,但可能引入「文化资本和师资资本差异」带来的新系统误差。教育公平不是一次考试改革就能实现的终极状态,而是一个持续校准、动态调整的长期过程。
但至少,压缩训练冗余度的系统性分量,能够让真正的认知能力有更多机会在选拔结果中显现出来。
当机器在程序化任务上的表现开始逼近并超越人类的平均水平时,人类社会被迫回头审视:我们究竟应该测量和珍视自身的哪种核心智能。
校准从来不是中性的——选择测量什么,就是选择奖励什么;选择奖励什么,就是选择塑造什么样的人。两大选拔体系的教育决策者,在没有彼此协商的情况下,不约而同地做出了同一个判断:在机器已经比人类更擅长执行程序的时代,值得被选拔和奖励的人类能力,是那些在机器面前仍然稀缺的东西。
这不是什么宏大的阳谋,本质上就是测量工具的一次校准。
一个更深层的解释是,机器在程序化任务上对人类的逐步超越(一个远早于大语言模型就已开始的结构性事实)对人类社会的认知能力评估体系施加了持续累积的压力。从计算器取代手算,到搜索引擎取代机械记忆,再到CAS系统取代代数推导,机器每一次在程序化领域的超越,都让相应的训练投入贬值一步。
大语言模型是这条逻辑链上最新的、也是最剧烈的一环:它在语言理解和模式匹配上的表现开始逼近甚至超越人类平均水平,让程序化推理这一最后幸存的高复杂度领域也面临沦陷。但前几次位移替代的是执行层:工具帮人算、帮人查,推理框架仍须人来搭建。CAS与大语言模型的位移是第一次触及推理支架层本身:当工具开始能够构建解题路径而非只是执行计算时,改革的临界压力才真正到达阈值。这解释了为什么改革节点集中在这个窗口,而不是更早。但这一结构性事实本身早于大语言模型——这正是两大选拔系统改革时间线远早于ChatGPT的原因。大语言模型本身没有意图、没有欲望,它的运作可以被完全拆解为统计过程。但恰恰是这样一个没有「自我」的系统,在程序化推理任务上的表现逼近人类平均水平,这让基于机械训练积累的认知能力评估体系失去了意义基础。人类花十年刷题建立的「因果沉积」(即通过重复训练固化的解题路径),在一个能够瞬时调用千亿参数统计推理的系统面前,其作为能力指针的有效性被瓦解了。
回到2026年6月7日下午5点。那些走出考场的学生并不知道,他们手中的试卷承载的是一场贯穿两大选拔体系、绵延十余年的全球选拔制度校准的最新一环。他们感受到题目变了——少了繁琐计算,多了现场推理;未必感受到的是,测量的刻度正在整体移动:从「谁刷过更多题」转向「谁能在陌生情境里建构问题框架」。刻度不会完美,误差会继续置换,但方向已经确定。