近日,卡内基梅隆大学与斯坦福大学的研究人员联合开展的一项大规模研究揭示了人工智能智能体开发领域的失衡现状。研究发现,当前AI智能体的开发几乎只聚焦于编程任务,忽视了绝大多数劳动力市场的需求。通过对比43个智能体基准测试与美国劳动力市场,研究人员发现,智能体开发主要集中在计算机与数学领域,而这一领域仅占美国总就业人数的7.6%。与此同时,管理、法律等高度数字化的工作领域在现有基准测试中的占比却极低。
研究还指出,智能体基准测试在个人技能层面同样存在失衡。智能体基准测试主要聚焦于“获取信息”和“计算机操作”两类技能,而涉及大量现实工作的“人际互动”类别在基准测试中几乎没有涉及。研究人员将这种偏向归因于方法上的便捷性,即那些易于编写任务指令、检验结果的领域获得了过多关注。
基于研究结果,研究人员提出了未来基准测试的三大设计原则:新基准应专门针对管理、法律等覆盖不足但高度数字化的领域;基准测试需更贴近现实、更复杂;推动更精细化的评估。这些结论与现实使用情况一致,Anthropic近期基于数百万次人类-智能体交互的分析显示,软件开发占公共API中所有智能体工具调用的近50%,而其他行业各自仅占几个百分点。
