Anthropic披露三款AI产品安全隔离系统：不同场景不同策略，总结三大安全原则

发布时间：2026/6/4 22:16:39

【导语Anthropic工程团队发布文章披露了在claude.ai、Claude Code、Claude Cowork三款产品中构建AI Agent安全隔离系统的经验和教训还总结了三条关键原则。】三款产品不同场景不同隔离策略Anthropic此次披露的三款产品面向不同使用场景。面向普通用户的claude.ai采用临时性容器方案会话启动时服务器端创建基于gVisor的容器会话结束即销毁以最小化隔离策略控制风险。Claude Code针对开发工作流优化使用操作系统级沙箱机制如macOS上的Seatbelt和Linux上的bubblewrap在安全和便利间取得平衡使权限提示减少了84%。对于企业协作场景的Claude Cowork采用虚拟机级隔离方案用苹果的Virtualization框架或Windows的HCS将Claude与宿主机系统完全隔离但也存在安全工具看不到VM内部活动的新盲点。实践中发现的安全事件文章还披露了Anthropic在实践中发现的几起安全事件。其中钓鱼攻击实现的直接提示词注入最为引人注目24次测试中有25次成功窃取信息成功率高达96%。此外还有通过预授权钩子在用户确认信任对话框之前就执行代码、通过攻击者控制的API密钥从已批准域名egress数据等问题。总结三大安全原则Anthropic总结了三条关键原则。一是“环境层隔离优先模型层引导其次”即依靠技术手段限制AI能力边界。二是“隔离强度要与用户监督能力相匹配”不同用户群体需要不同级别的隔离。三是“警惕自定义组件”标准隔离原语比自研安全Agent表现更好。编辑观点Anthropic的经验为AI安全隔离提供了参考其发现的安全事件和总结的原则对行业有重要警示意义有助于推动AI安全架构的迭代。