人类要小心了!OpenAI已全面评估AI对各行各业的工作替代

客服微996438433个月前财经知识68

一项来自OpenAI的最新评估显示,AI在执行具有经济价值的工作任务方面正迅速追赶,甚至逼近人类专业人员的水平。

人类要小心了!OpenAI已全面评估AI对各行各业的工作替代

据报道,OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。

该研究覆盖了在美国国内生产总值(GDP)中占比较大的九个商业领域,涉及44个职业中的约1300项具体工作任务。结果显示,当前最顶尖的AI模型在执行许多职业任务时,其能力已与人类专业人士相当,并且这种能力的提升速度正在加快。

在GDPval-v0发布后,前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中,全面地评估了GDPval的研究过程和结果。

GDPval或成衡量AI经济价值的全新标尺

据文章介绍,GDPval基准测试涵盖了1230个专业任务,涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业,每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。

Clark指出,这份清单几乎囊括了现代经济中所有关键的知识密集型岗位,表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。

文章还表示,该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。

为了模拟真实世界工作的复杂性,GDPval的任务并非简单的文本问答,而是带有参考文件和上下文,要求AI交付的成果也多种多样,包括文档、幻灯片、图表和电子表格等。

评估结果直接量化了AI的能力边界。数据显示,Claude Opus 4.1在与人类专家的比较中,取得了47.6%的“胜利或平局”率,排名第一。紧随其后的是GPT-5-high(38.8%)和o3 high(34.1%)。

这些数据表明,AI在处理复杂的专业知识工作时,其质量已达到甚至在某些情况下超过了经验丰富的人类。

Clark认为,GDPval的出现,为评估AI的广泛经济影响提供了一个关键基准,其意义类似于SWE-Bench之于编程领域。

公开资料显示,SWE-Bench于2024年11月推出,旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。

以下是Clark的博文节选,由AI工具辅助翻译:

评估世界经济;奇点经济学;以及瑞士主权AI

作者:Jack Clark

OpenAI构建了一个评估系统,对广泛经济的意义就如同SWE-Bench对代码的意义: …GDPval是一个非常好的基准测试,具有极其重要的意义…

OpenAI构建并发布了GDPval,这是一个制作精良的基准测试,用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言,GDPval对广泛的现实世界经济影响的意义,可能相当于SWE-Bench对编程影响的意义——这是一件大事!

它是什么:GDPval"衡量模型在直接来自现实世界的任务上的表现,这些任务涉及各行各业经验丰富专业人士的知识工作,为模型在经济价值任务上的表现提供更清晰的画面。"

该基准测试涵盖9个行业的44个职业,包括1,230个专业任务,"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核"。数据集"包括每个职业的30个经过全面审核的任务(完整集),以及我们开源黄金集中每个职业的5个任务"。

该基准测试的另一个优秀特性是它涉及多种回答格式,并试图处理现实世界固有的复杂性。他们写道:"GDPval的任务不是简单的文本提示。它们带有参考文件和上下文,预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。"

"为了评估模型在GDPval任务上的表现,我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果(不知道哪个是AI生成的,哪个是人类生成的),并提供批评和排名。评分员随后对人类和AI交付成果进行排名,并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此,"作者写道。

结果:"我们发现今天最好的前沿模型已经接近行业专家产生的工作质量,"作者写道。Claude Opus 4.1排名第一,与人类工作相比的总体胜利或平局率为47.6%,其次是GPT-5-high的38.8%,以及o3 high的34.1%。

更快更便宜:更重要的是,"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍,成本便宜约100倍。"

GDPval包含哪些类型的工作?

•房地产和租赁业:礼宾员;物业、房地产和社区协会经理;房地产销售代理;房地产经纪人;柜台和租赁店员。

•政府部门:娱乐工作者;合规官员;警察和侦探一线主管;行政服务经理;儿童、家庭和学校社会工作者。

•制造业:机械工程师;工业工程师;采购员和采购代理;运输、接收和库存店员;生产和操作工人一线主管。

•专业、科学和技术服务:软件开发人员;律师;会计师和审计师;计算机和信息系统经理;项目管理专家。

•医疗保健和社会援助:注册护士;执业护士;医疗和健康服务经理;办公室和行政支持工人一线主管;医疗秘书和行政助理。

•金融和保险:客户服务代表;金融和投资分析师;财务经理;个人理财顾问;证券、商品和金融服务销售代理。

•零售贸易:药剂师;零售销售工人一线主管;总经理和运营经理;私人侦探和调查员。

•批发贸易:销售经理;订单店员;非零售销售工人一线主管;批发和制造销售代表,不包括技术和科学产品;批发和制造销售代表,技术和科学产品。

•信息业:音频和视频技术员;制片人和导演;新闻分析师、记者和新闻工作者;电影和视频编辑;编辑。

为什么这很重要——AI公司正在构建系统进入经济的每一个部分:此时我希望读者想象我站在华盛顿特区中心,举着一个巨大的标牌,上面写着:AI公司正在构建基准测试,旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了!

这并不正常!

我们正在通过生态有效的基准测试,对系统在极其广泛的行为范围内进行测试,这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的"生态经济生态位",我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快,它们在这些任务上将超越许多人类。然后会怎样?什么都不会发生?不!经济将发生极其奇异的变化!

相关文章

A股“股王”易主!茅王、宁王反攻!茅指数、宁组合到什么位置了

A股“股王”易主!茅王、宁王反攻!茅指数、宁组合到什么位置了

A股市场正在上演“股王交替”的精彩戏码! 近期,由于A股算力板块全面爆发,以AI芯片、AI服务器、光模块、液冷等为代表的硬件端正强势领涨,成为资金追逐的焦点,包括寒武纪、“易中天”、海光信息等在内的公...

“无痛登长城“的背后:外骨骼价格“脚踝斩”,千亿市场已觉醒

“无痛登长城“的背后:外骨骼价格“脚踝斩”,千亿市场已觉醒

引言 外骨骼今年火了。这个似乎只出现在科幻电影或专业病房中的设备,如今火到了普通人身边。 6月,八达岭和居庸关长城景区先后开启外骨骼租赁服务,为游客在攀登时提供助力,可让其轻松登长城,无痛当“好汉”。...

黄光裕再出山:从零售教父到创业导师的跨界转身

黄光裕再出山:从零售教父到创业导师的跨界转身

一则职务聘任消息让沉寂多时的前首富黄光裕重回公众视野。 2026年元旦,深圳潮创会官方宣布聘任这位国美创始人为创业导师,标志着这位曾叱咤商界的风云人物正以全新姿态重返商业舞台。 作为中国零售业的标...

美的格力谁是第一,我一点也不在意

美的格力谁是第一,我一点也不在意

花朵财经观察出品 撰文丨学研 谁是家用空调行业第一?行业知名调研机构给出了两个答案。 4月27日晚间,国内家电行业两大巨头美的集团(SZ:000333)和格力电器(SZ:000651)先后发布了20...

北京炒菜机器人,拿到刘强东大单

北京炒菜机器人,拿到刘强东大单

图源:橡鹿科技 透明厨房内,一台炒菜机器人正在工作,厨师把炒饭原材料放入锅中,机器自动翻炒。 8月1日,《21CBR》记者来到北京长保大厦七鲜小厨,见到这一幕。该厨房共配备4个炒菜机器人,控制16个锅...

中国中车近11年最亮眼半年报:营收净利创历史新高,新签订单1460亿

中国中车近11年最亮眼半年报:营收净利创历史新高,新签订单1460亿

中国中车近11年最亮眼半年报出炉 来源:图虫创意 8月22日晚间,中国中车(601766.SH)披露半年报,2025年上半年,该公司实现营业收入1197.58亿元,增幅为32.99%,实现归属于上市...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:BT86616点击复制并跳转微信