英文2提示注入即角色混淆技术博客大模型安全对齐+3作者: Charles Ye等发表时间:2026/6/24文章提出提示注入源于大模型对系统、用户、工具、思维等角色边界的内部误判,作者用角色探针测量模型对 token 角色的感知,发现写作风格可覆盖真实标签,并通过 CoT 伪造和用户角色伪装验证攻击成功率与角色混淆强相关,结论是现有注入防御若不能实现可靠角色感知,将持续陷入脆弱对抗。