Agent 安全、评估與连续红队：从被动防护到自动化压力测试

研究界持续披露注入与逃逸向量，厂商强化红队与安全工具链。新一代评估与诊断工具（One‑Eval、AgentProcessBench、FinToolBench、SWE‑Skills‑Bench）提升可追踪、步骤级评测能力；同时出现面向企业的连续红队/压力测试平台（例如 Virtue AI），用于模拟工具滥用与多代理攻击场景。企业对可审计执行、权限审批、kill‑switch 与实时监控的需求成为规模化部署前提。

Sources (8)