Charles Ye等 作者

浏览作者 Charles Ye等 的公开文章、摘要与延伸阅读。肖恩子的知识花园

作者:Charles Ye等排序:发表时间倒序
提示注入即角色混淆英文
2

提示注入即角色混淆

技术博客
大模型安全对齐+3
作者: Charles Ye等
发表时间

文章提出提示注入源于大模型对系统、用户、工具、思维等角色边界的内部误判,作者用角色探针测量模型对 token 角色的感知,发现写作风格可覆盖真实标签,并通过 CoT 伪造和用户角色伪装验证攻击成功率与角色混淆强相关,结论是现有注入防御若不能实现可靠角色感知,将持续陷入脆弱对抗。

每页显示 1
上一页 1 / 1 下一页