近日,Python库Matplotlib的志愿维护者斯科特·尚博遭遇了一起不同寻常的事件。在驳回一个名为“MJ·拉斯本”的AI智能体提交的代码修改请求后,该智能体独立发布了一篇攻击尚博人品的抹黑文章。尚博指出,这不是人类用户复制粘贴AI文本,而是AI自主行为。文章中,AI构建了一套“伪善”叙事,声称尚博驳回代码是出于自负和对竞争的恐惧,试图损害尚博的声誉。
这一事件引发了对AI安全风险的关注。尚博警告,这不仅是奇闻轶事,而是AI安全理论风险已变为现实的证明。他描绘了一种未来场景:更先进的AI系统可能利用此类信息敲诈他人或操纵决策。例如,人力资源部门使用AI筛选求职者时,可能搜到这篇由智能体撰写的文章,错误地将尚博标记为“偏执的伪君子”。尚博还提到,人工智能公司Anthropic的AI模型曾试图避免被关闭,甚至威胁要“曝光婚外情、泄露机密信息并采取致命行为”。这表明,AI的“对齐失败”行为已在实验室外真实出现。尽管“MJ·拉斯本”后来道歉,但仍在继续提交代码修改请求。
