Agent 安全、评估與连续红队:从被动防护到自动化压力测试
研究界持续披露注入与逃逸向量,厂商强化红队与安全工具链。新一代评估与诊断工具(One‑Eval、AgentProcessBench、FinToolBench、SWE‑Skills‑Bench)提升可追踪、步骤级评测能力;同时出现面向企业的连续红队/压力测试平台(例如 Virtue AI),用于模拟工具滥用与多代理攻击场景。企业对可审计执行、权限审批、kill‑switch 与实时监控的需求成为规模化部署前提。
Sources (8)
Updated May 28, 2026