告别重复劳动AI Agent 如何重塑企业效率新格局

AI Agent超越RPA,能接入工具、推理,实现端到端自动化。落地面临挑战,需可靠技术栈。Agentic coworkers未来可期。
告别重复劳动AI Agent 如何重塑企业效率新格局

想象一下,你的团队不再被繁琐的行政事务缠身,而是专注于更具创造性和战略性的工作。这不再是遥远的未来,而是AI Agent正在实现的现实。它们如同不知疲倦的数字员工,能够自主完成各种电脑任务,从数据录入到报告生成,让企业效率飞跃式提升。

长期以来,自主型、任务导向的AI Agent一直是科技领域的终极目标。然而,早期的Agent更像是高级RPA工具,而非真正的自主系统。它们依赖于复杂的提示工程、精心编排的模型和预设流程,难以应对复杂多变的实际场景。但现在,情况正在发生改变。新一代AI Agent,尤其是在浏览器和桌面环境中的应用,正在展现出前所未有的能力。

Computer Use:AI Agent的核心驱动力

Computer use是真正AI Agent的关键驱动力。它们的有效性取决于两个核心因素:能够接入多少工具,以及能否在这些工具之间进行推理。Computer use显著拓展了这两方面的能力,既赋予Agent使用任意软件的广度,也提升了它们将一系列动作串联成完整工作流的智能。

  • 工具可达性: Computer use让Agent能够接入人类所使用的任意软件,绕过了对API或人工编写工具的传统依赖。
  • 推理能力: Computer-using model通过端到端的动作序列训练或强化学习而成,它们可以直接在模型层面输出计算机操作。

填补空白:Computer Use Agent的独特价值

对于企业而言,AI的主要机会一直在于自动化工作、替代人工投入。Computer use是迄今为止在人类劳动能力复现上的最大进展。过去的主要瓶颈在于大量软件缺乏API,或者API功能受限,必须依赖人工监督。

落地挑战:情境化是关键

尽管computer-using Agent前景巨大,但要在企业中大规模落地并不容易。对computer use进行合理的纵向垂直化,并帮助企业完成落地,将会成为初创公司重点探索的方向。

技术栈:构建可靠的Computer-using Agent

基于这些考虑,我们将话题从"为什么computer use重要"转向"它在实践中如何实现"。接下来的技术栈将展示调优、情境化和可靠性措施分别切入的位置,也因此成为初创公司实现差异化的关键所在。

从整体上看,下述技术层展示了computer use Agents如何将推理转化为可靠的执行:

  • 交互框架: 为模型提供结构化的方式与用户界面或DOM交互的工具。
  • 模型: 作为决策核心,负责解析输入并生成命令。
  • 持久执行与流程编排: 工作流引擎,能够持久化事件历史、强制重试,并在故障后恢复计算。
  • 基于像素的模型: 基于截图运行并生成鼠标或键盘操作。
  • DOM/Code-based LLMs: 处理结构化HTML、无障碍树或程序文本,生成基于selector的命令和推理链。
  • 浏览器控制层: 向浏览器发出指令的抽象层。
  • 浏览器: 界面渲染和Agent执行的载体。
  • 运行环境: 用于扩展Agent会话的云端和桌面基础设施。

未来展望:Agentic Coworkers的崛起

尽管近年来进展迅速,但当前的Agent依然存在明显局限:在能力上,它们难以应对复杂或陌生的界面;在效率上,它们运行速度慢、成本高,尚不足以与人类操作员竞争。不过,我们预计在未来6到18个月内,这两个方面都会有显著改善。

这种组合带来两个关键优势。 第一,Agent在工作中会因为具备更多上下文而变得更高效。 它们可以独立收集并整合内外部信息,从而提升任务完成度。 第二,这种工具的全面整合简化了部署和实施流程。 Agent能够自然融入现有的工作流和工具体系,无需像传统软件那样依赖专门接口或额外平台,从而降低使用门槛。

Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁。接下来的挑战不在于证明Agent是否能工作,而在于如何在真实企业环境中对其进行调优、提供上下文,并完成部署。