人类要小心了！OpenAI已全面评估AI对各行各业的工作替代

客服微996438438个月前 (10-03)财经知识99

一项来自OpenAI的最新评估显示，AI在执行具有经济价值的工作任务方面正迅速追赶，甚至逼近人类专业人员的水平。

据报道，OpenAI于周四发布了一款名为GDPval-v0的全新评估工具。该工具旨在衡量AI模型在完成法律文书、工程蓝图和护理计划等“真实工作交付成果”时的表现。

该研究覆盖了在美国国内生产总值（GDP）中占比较大的九个商业领域，涉及44个职业中的约1300项具体工作任务。结果显示，当前最顶尖的AI模型在执行许多职业任务时，其能力已与人类专业人士相当，并且这种能力的提升速度正在加快。

在GDPval-v0发布后，前OpenAI政策总监、Anthropic联合创始人Jack Clark在其最新的博文《Eval the world economy; singularity economics; and Swiss sovereign AI》中，全面地评估了GDPval的研究过程和结果。

GDPval或成衡量AI经济价值的全新标尺

据文章介绍，GDPval基准测试涵盖了1230个专业任务，涵盖科技服务、金融保险、医疗保健、信息业、制造业等行业，每一个任务都由平均拥有超过14年行业经验的资深专业人士精心设计和审核。

Clark指出，这份清单几乎囊括了现代经济中所有关键的知识密集型岗位，表明AI公司正有条不紊地测试其系统在经济各个“生态位”的适应能力。

文章还表示，该基准测试的另一个优秀特性是它涉及多种回答格式，并试图处理现实世界固有的复杂性。

为了模拟真实世界工作的复杂性，GDPval的任务并非简单的文本问答，而是带有参考文件和上下文，要求AI交付的成果也多种多样，包括文档、幻灯片、图表和电子表格等。

评估结果直接量化了AI的能力边界。数据显示，Claude Opus 4.1在与人类专家的比较中，取得了47.6%的“胜利或平局”率，排名第一。紧随其后的是GPT-5-high（38.8%）和o3 high（34.1%）。

这些数据表明，AI在处理复杂的专业知识工作时，其质量已达到甚至在某些情况下超过了经验丰富的人类。

Clark认为，GDPval的出现，为评估AI的广泛经济影响提供了一个关键基准，其意义类似于SWE-Bench之于编程领域。

公开资料显示，SWE-Bench于2024年11月推出，旨在评估AI模型的编程能力。该基准测试采用了从12个不同Python项目的GitHub公开仓库中提取的2000多个真实编程问题作为评测依据。

以下是Clark的博文节选，由AI工具辅助翻译：

评估世界经济；奇点经济学；以及瑞士主权AI

作者：Jack Clark

OpenAI构建了一个评估系统，对广泛经济的意义就如同SWE-Bench对代码的意义： …GDPval是一个非常好的基准测试，具有极其重要的意义…

OpenAI构建并发布了GDPval，这是一个制作精良的基准测试，用于测试AI系统在现实世界经济中人们从事的各种任务上的表现。就评估而言，GDPval对广泛的现实世界经济影响的意义，可能相当于SWE-Bench对编程影响的意义——这是一件大事！

它是什么：GDPval"衡量模型在直接来自现实世界的任务上的表现，这些任务涉及各行各业经验丰富专业人士的知识工作，为模型在经济价值任务上的表现提供更清晰的画面。"

该基准测试涵盖9个行业的44个职业，包括1,230个专业任务，"每个任务都由平均拥有超过14年经验的经验丰富专业人士精心制作和审核"。数据集"包括每个职业的30个经过全面审核的任务（完整集），以及我们开源黄金集中每个职业的5个任务"。

该基准测试的另一个优秀特性是它涉及多种回答格式，并试图处理现实世界固有的复杂性。他们写道："GDPval的任务不是简单的文本提示。它们带有参考文件和上下文，预期的交付成果涵盖文档、幻灯片、图表、电子表格和多媒体。这种现实性使GDPval成为模型如何支持专业人士的更现实测试。"

"为了评估模型在GDPval任务上的表现，我们依靠专家'评分员'——一群来自数据集中代表的相同职业的经验专业人士。这些评分员盲目比较模型生成的交付成果与任务编写者产生的成果（不知道哪个是AI生成的，哪个是人类生成的），并提供批评和排名。评分员随后对人类和AI交付成果进行排名，并将每个AI交付成果分类为'更好'、'同样好'或'不如'彼此，"作者写道。

结果："我们发现今天最好的前沿模型已经接近行业专家产生的工作质量，"作者写道。Claude Opus 4.1排名第一，与人类工作相比的总体胜利或平局率为47.6%，其次是GPT-5-high的38.8%，以及o3 high的34.1%。

更快更便宜：更重要的是，"我们发现前沿模型完成GDPval任务的速度比行业专家快约100倍，成本便宜约100倍。"

GDPval包含哪些类型的工作？

•房地产和租赁业：礼宾员；物业、房地产和社区协会经理；房地产销售代理；房地产经纪人；柜台和租赁店员。

•政府部门：娱乐工作者；合规官员；警察和侦探一线主管；行政服务经理；儿童、家庭和学校社会工作者。

•制造业：机械工程师；工业工程师；采购员和采购代理；运输、接收和库存店员；生产和操作工人一线主管。

•专业、科学和技术服务：软件开发人员；律师；会计师和审计师；计算机和信息系统经理；项目管理专家。

•医疗保健和社会援助：注册护士；执业护士；医疗和健康服务经理；办公室和行政支持工人一线主管；医疗秘书和行政助理。

•金融和保险：客户服务代表；金融和投资分析师；财务经理；个人理财顾问；证券、商品和金融服务销售代理。

•零售贸易：药剂师；零售销售工人一线主管；总经理和运营经理；私人侦探和调查员。

•批发贸易：销售经理；订单店员；非零售销售工人一线主管；批发和制造销售代表，不包括技术和科学产品；批发和制造销售代表，技术和科学产品。

•信息业：音频和视频技术员；制片人和导演；新闻分析师、记者和新闻工作者；电影和视频编辑；编辑。

为什么这很重要——AI公司正在构建系统进入经济的每一个部分：此时我希望读者想象我站在华盛顿特区中心，举着一个巨大的标牌，上面写着：AI公司正在构建基准测试，旨在测试他们的系统在经济中各种工作上的表现——而且它们已经非常出色了！

这并不正常！

我们正在通过生态有效的基准测试，对系统在极其广泛的行为范围内进行测试，这些基准最终告诉我们这些系统能够多好地融入世界上约44个不同的"生态经济生态位"，我们发现它们已经非常接近与人类表现相同的水平——这还只是基于今天的模型。很快，它们在这些任务上将超越许多人类。然后会怎样？什么都不会发生？不！经济将发生极其奇异的变化！