AI正在疯狂内卷教育行业。
今年夏季高考,1335万考生踏进考场。大家把AI吹得那么厉害,假如让AI参加高考,能不能考得上清华北大?
这也是各大AI厂商思考的命题,甚至有机构进行了残酷的实验测评。
谁是AI高考状元?
AI开始卷向高考测评,可以说,这是一场AI领域的“军备竞赛”。
去年6月24日,知名科技博主“极客公园”做了一场实验,使用市面上常见的大模型产品如GPT-4o(OpenAI)、豆包(字节跳动)、文心4.0(百度)、百小应(百川智能)、通义千问2.5(阿里巴巴)、Kimi智能助手(月之暗面)、元宝(腾讯)、智谱清言(智谱AI)以及海螺AI(MiniMax)作为“考生”,让他们一同参加高考新课标Ⅰ卷考试。
测评结果显示:这9名AI考生文科优势显著,但理科短板明显。
9个大模型中,GPT-4o以562分(超一本线41分)居首,豆包(542.5分)、文心4.0(537.5分)、百小应(521分)均过文科一本线。
理科最高分是文心4.0为478.5分,距一本线(511分)仍有差距,但已达二本水平。
分数出来后,教育专业人士评价:大模型的写作能力已经超过学生的平均水平,可以在文章里看到清晰的论述框架,且行文流畅。
这样的结果让不少提笔忘字的文科生“扎心”。
不过令人稍微松口气的是,虽说AI的语文英语等文科普遍不错,但数学、理科、化学等数理科都不及格,数学最高分也只有66分,都是妥妥的“偏科生”。
评测人员提到,即便大模型的公式记忆较强,但是他们在解题过程中很难灵活运用。大模型的回答,更像是一种机械回答,简单点说是“死脑筋”。
这么看来,可以说是喜忧参半。好消息是,人类还没被全面超越,坏消息是,几个大模型能上个一本了,而几年前AI甚至还做不出小学生的题目。或许过不了几年,他们真的能考上清华北大。
这样的测试同样发生在海外。随着技术的更新迭代,AI考生的表现能力正在发生微妙变化。
最近,法国《世界报》让ChatGPT参加了法国的高考(Bac)(2024年的试卷)。令人意外的是,在2025年的再次挑战中,这位“AI考生”的综合成绩已达到“Assezbien(良好)”水平,相当于70-80分的区间。
而在两年前,ChatGPT参加法国高考时,虽能在90秒内写出9页论文,却因“内容缺乏深度”遭评委诟病。
和在中国测试一样,ChatGPT在文科方面表现优异,尤其是在哲学和法语作文中表现出显著进步,写作结构更贴近高考标准,用词也更符合高中教学用语。数学科目虽然依旧不是强项,但逻辑推理和解题步骤变得更加清晰。
最令人惊讶的是,AI的表达风格已愈发接近真实学生,甚至能在一定程度上“骗过”阅卷老师的眼睛。
这些测试,既展示了AI在标准化考试中的潜力,也暴露了其局限性。
相关团队指出,AI做高考题,背后比拼的是多种关键技术,比如自然语言处理技术、知识表示与推理技术、深度学习技术、多模态处理技术、优化与调优技术等。其初衷并非“战胜人类考生”,而是以高考为技术试炼场,推动AI从“单一任务执行”向“复杂问题解决”进化,同时反哺教育领域的效率提升与公平发展。
跟机器人跳舞、跑马拉松、格斗一样,商用才是最终目的。
谁靠AI赚得最多?
毋庸置疑,在不远的将来,硅基AI肯定比碳基考生更聪明。但AI只能是辅助工具,而不是“作弊神器”。
目前,头部教培机构从智能硬件、教学场景到业务生态全面布局,通过技术迭代与场景融合抢占赛道。
新媒体编辑丨实习生 张一珂 4月24日,陆金所控股(06623.HK,NYSE LU)发布公告,董事会建议委任安永会计师事务所及安永华明会计师事务所(特殊普通合伙)(统称“安永”)为本公司核数师,以填...
文丨徐风 近期,张家港行公布了2024年度报告,实现营收47.11亿,较去年同期增长3.75%;归母净利润18.79亿,同比增长5.13%。张家港行作为江苏省本土上市农商行,尽管背靠经济强省,但近年...
出品|虎嗅ESG组 作者|陈玉立 头图|视觉中国 本文是#ESG进步观察#系列第133篇文章 本次观察关键词:公司治理 劳动节假期刚过去没多久,关于理想汽车CEO李想的一则年薪披露却让不少打工人破防...
作为泡泡玛特的现象级IP,4月起Labubu新系列在全球范围内引发抢购。 一娃难求的Labubu捧出河南新首富 6月9日,泡泡玛特盘中拉升涨超3%,报253港元/股,再创历史新高。截至当天收盘,该公司...
来源|时代商业研究院 作者|彭元重 编辑|郑琳 历经三轮问询、四度中止,北京兆信信息技术股份有限公司(下称“兆信股份”)仍未登陆北交所。 2025年3月28日,兆信股份因财报过期IPO中止,拟登陆北交...
5月29日,君乐宝携手中国国家体操队在北京体育馆召开“专利菌群 冠军品质——中国国家体操队指定乳制品暨简醇系列新品发布会”,世界冠军邹敬园、刘洋等体育健儿莅临现场,共同见证简醇酸奶发布专利菌群系列新品...