告别重复劳动AI Agent 如何重塑企业效率新格局

想象一下，你的团队不再被繁琐的行政事务缠身，而是专注于更具创造性和战略性的工作。这不再是遥远的未来，而是AI Agent正在实现的现实。它们如同不知疲倦的数字员工，能够自主完成各种电脑任务，从数据录入到报告生成，让企业效率飞跃式提升。

长期以来，自主型、任务导向的AI Agent一直是科技领域的终极目标。然而，早期的Agent更像是高级RPA工具，而非真正的自主系统。它们依赖于复杂的提示工程、精心编排的模型和预设流程，难以应对复杂多变的实际场景。但现在，情况正在发生改变。新一代AI Agent，尤其是在浏览器和桌面环境中的应用，正在展现出前所未有的能力。

Computer Use：AI Agent的核心驱动力

Computer use是真正AI Agent的关键驱动力。它们的有效性取决于两个核心因素：能够接入多少工具，以及能否在这些工具之间进行推理。Computer use显著拓展了这两方面的能力，既赋予Agent使用任意软件的广度，也提升了它们将一系列动作串联成完整工作流的智能。

工具可达性： Computer use让Agent能够接入人类所使用的任意软件，绕过了对API或人工编写工具的传统依赖。
推理能力： Computer-using model通过端到端的动作序列训练或强化学习而成，它们可以直接在模型层面输出计算机操作。

填补空白：Computer Use Agent的独特价值

对于企业而言，AI的主要机会一直在于自动化工作、替代人工投入。Computer use是迄今为止在人类劳动能力复现上的最大进展。过去的主要瓶颈在于大量软件缺乏API，或者API功能受限，必须依赖人工监督。

落地挑战：情境化是关键

尽管computer-using Agent前景巨大，但要在企业中大规模落地并不容易。对computer use进行合理的纵向垂直化，并帮助企业完成落地，将会成为初创公司重点探索的方向。

技术栈：构建可靠的Computer-using Agent

基于这些考虑，我们将话题从"为什么computer use重要"转向"它在实践中如何实现"。接下来的技术栈将展示调优、情境化和可靠性措施分别切入的位置，也因此成为初创公司实现差异化的关键所在。

从整体上看，下述技术层展示了computer use Agents如何将推理转化为可靠的执行：

交互框架： 为模型提供结构化的方式与用户界面或DOM交互的工具。
模型： 作为决策核心，负责解析输入并生成命令。
持久执行与流程编排： 工作流引擎，能够持久化事件历史、强制重试，并在故障后恢复计算。
基于像素的模型： 基于截图运行并生成鼠标或键盘操作。
DOM/Code-based LLMs： 处理结构化HTML、无障碍树或程序文本，生成基于selector的命令和推理链。
浏览器控制层： 向浏览器发出指令的抽象层。
浏览器： 界面渲染和Agent执行的载体。
运行环境： 用于扩展Agent会话的云端和桌面基础设施。

未来展望：Agentic Coworkers的崛起

尽管近年来进展迅速，但当前的Agent依然存在明显局限：在能力上，它们难以应对复杂或陌生的界面；在效率上，它们运行速度慢、成本高，尚不足以与人类操作员竞争。不过，我们预计在未来6到18个月内，这两个方面都会有显著改善。

这种组合带来两个关键优势。 第一，Agent在工作中会因为具备更多上下文而变得更高效。 它们可以独立收集并整合内外部信息，从而提升任务完成度。 第二，这种工具的全面整合简化了部署和实施流程。 Agent能够自然融入现有的工作流和工具体系，无需像传统软件那样依赖专门接口或额外平台，从而降低使用门槛。

Computer-using Agents代表着一次超越浏览器自动化和RPA的跃迁。接下来的挑战不在于证明Agent是否能工作，而在于如何在真实企业环境中对其进行调优、提供上下文，并完成部署。

Computer Use：AI Agent的核心驱动力

填补空白：Computer Use Agent的独特价值

落地挑战：情境化是关键

技术栈：构建可靠的Computer-using Agent

未来展望：Agentic Coworkers的崛起

相关推荐