11月24日,微软宣布推出全新的开源小型语言模型Fara-7B,专为计算机操作设计,能够通过鼠标和键盘执行网页任务。该模型由70亿参数构成,在同级体量中性能领先,且能在设备端本地运行,降低延迟并增强隐私保护。Fara-7B不依赖文本交互,而是通过视觉解析网页截图执行点击、输入等动作,无需额外的可访问性树或多模型协作。微软为此构建了全新的合成数据生成流程,模拟复杂多步骤网页任务,基于真实用户需求和网页,涵盖任务生成、求解及验证三个阶段,用于训练模型的数据包括14.5万条任务轨迹、100万步骤。
Fara-7B基于Qwen2.5-VL-7B底座,支持最长128k上下文。在执行任务时,模型会输出推理内容,并调用Playwright的标准操作及网页宏操作。训练方式以监督微调为主,未使用强化学习。在多项公开基准测试中,Fara-7B表现亮眼,部分任务中领先同级模型,并可与更大规模系统竞争。微软第三方合作机构Browserbase采用人工验证方式对Fara-7B进行评测,发现其在WebVoyager上取得62%的通过率。微软强调Fara-7B仍为实验性发布,存在局限,未来会持续改进,并在模型中加入多项安全措施,如要求模型在敏感操作时征求用户同意,所有操作记录,沙盒环境运行等。Fara-7B已在Microsoft Foundry与HuggingFace以MIT许可发布并开源,同时整合进Magentic-UI研究原型。微软还宣布将提供量化与面向Copilot+PC的优化版本,可通过VSCode的AIToolkit下载并在Windows 11本地运行,支持NPU加速。


