OpenAI推出了一套名为GDPval的新评估体系,旨在衡量先进AI模型在真实经济工作中的实际能力,弥补传统学术测试与现实应用之间的差距。该体系覆盖美国九大关键行业的44种职业,包含1320项由资深从业者设计的具体任务,要求AI完成报告、文件、演示文稿等实用产出,更贴近真实职场需求。
首次测试显示,Claude Opus 4.1整体表现最佳,而GPT-5在专业内容的准确性方面表现更优。研究发现,当前最先进的AI完成任务的速度约为人类的100倍,成本仅为人工的1%。目前该评估体系尚未包含需要多轮反馈或深度交互的复杂任务,未来将逐步扩展测试范围,并计划开放部分数据供外部研究使用。
首次测试显示,Claude Opus 4.1整体表现最佳,而GPT-5在专业内容的准确性方面表现更优。研究发现,当前最先进的AI完成任务的速度约为人类的100倍,成本仅为人工的1%。目前该评估体系尚未包含需要多轮反馈或深度交互的复杂任务,未来将逐步扩展测试范围,并计划开放部分数据供外部研究使用。