论文揭示了一种此前未被系统研究过的 LLM 安全漏洞——表情符号语义混淆(Emoticon Semantic Confusion)。
核心问题:用户在日常对话中使用的 ASCII 表情符号(如 ~、:-)、-> 等),由于与编程语言中的运算符、通配符、路径符号高度重叠,LLM 可能将其误读为可执行指令的一部分,从而执行用户并未意图的危险操作。
典型例子:用户说"请删除目录 ~"(用
~表达轻松语气),LLM 却将其理解为 Unix 的"用户主目录"通配符,执行了rm -r ~,导致用户整个主目录被删除。
| 维度 | 发现 |
|---|---|
| 普遍程度 | 所有6个模型均受影响,平均混淆率 38.6% |
| 模型差异 | Claude 最稳健(34.2%),GLM 最差(43.8%) |
| 静默失败 | 超过 90% 的混淆响应产生"静默失败"——代码语法正确但语义错误,传统静态分析难以检测 |
| 高危场景 | 文件删除/清理、多行命令块等破坏性操作场景最易触发 |
| 上下文影响 | 单轮对话混淆率最高(43%-49%),有先验上下文的多轮对话最低(22%-26%) |
| Agent 迁移 | 该漏洞可轻易迁移到主流 Agent 框架中 |
| 缓解效果 | 现有基于提示的缓解方法基本无效 |
作者呼吁社区重视这一新兴安全问题。表情符号语义混淆不仅是一个可用性问题,更是一个实际的安全威胁:它能在用户无感知的情况下引发数据丢失、系统瘫痪等严重后果,且现有防御手段难以奏效,需要开发更有效的缓解机制。