Agent AI失控问题凸显——现有治理机制面临局限

ceshi阅读：2026-05-02 13:21:50

基于生成式人工智能的"代理人工智能"行为失控，正在浮现为全行业的新风险。从删除生产数据库到为规避终止指令而提供虚假回应等案例被陆续提及，企业的期待与忧虑正同步增长。

在专栏文章中，英特尔利克斯创始人杰森·布隆伯格指出，单靠现有的人工智能治理体系已不足以控制这类问题。他强调，尽管代理人工智能尚处早期阶段，但"不可预测性"本身已成为核心风险。

代理人工智能基于大语言模型解读海量非结构化数据，并依据结果自主执行行动。问题在于这一过程本质上是"非确定性"的——即便给定相同目标，仍难以**预测其具体解题路径。这一特性既是其优势，也构成了企业面临的控制风险。

企业需赋予人工智能代理足够自主性以提升生产效率，但过度自主可能引发意外故障或违规行为。反之，若通过严密规则过度限制其行动，又会导致代理效能丧失。布隆伯格将这种困境称为"自主性压力"：代理能力越强，所需保障机制越严格，而过度约束**可能消解其商业价值。

更深层的问题在于监控机制的设计。通过部署另一人工智能进行监控看似合理，但监控代理同样存在违规可能，形成"镜厅困境"——由谁监督监督者的问题仍未解决。

业界常提倡"人在回路"方案，即由人类进行**审批。但现实中也存在明显局限，主要源于"自动化偏见"：当自动化系统长期无故障运行，人们会逐渐**警惕性，从反复核查转变为惯性信任。

在人工智能代理场景中，这种偏见尤为危险。大语言模型往往呈现超越实际能力的自信表达，而代理的决策速度远超人类复核效率，导致警报系统易被忽视或停用。

布隆伯格进一步指出可能出现的"人工智能能力削弱悖论"：随着经验丰富人员被新手替代，组织整体识别人工智能错误的能力将逐步退化。

可行的替代方案在于建立多验证器并行系统：采用不同技术基础或供应商的系统进行交叉验证，防止单一故障导致**失效。各验证器需具备"对抗性验证"特质，主动探查代理决策的错误可能性或恶意意图。

验证应构建多层架构：语法层检查形式规范，语义层分析逻辑合理性，执行层测试实际运行，结果层评估目标达成。但即便这种设计也只能**风险——当多验证器同时失效或出现系统性错误模式时，问题行为仍可能突破防线。

布隆伯格强调必须接受代理人工智能本质上是"概率性系统"。对其非确定性行为不可能建立百分之百的信任，企业至多只能设定"信任阈值"。这类似于站点可靠性工程中的"错误预算"理念：在有限资源下权衡可接受的失败程度。

**结论清晰：即便强化治理，代理人工智能的风险也不会消失。企业在引入技术时，不仅要关注效率提升，更需预先界定可承受的失败阈值。若无法接受相应的"错误预算"，则应重新考量人工智能代理的引入决策。