微小符号,巨大风险:探究大语言模型中的表情符号语义混淆问题

9
分类学习资料
来源跳转
发表时间

内容

核心发现

论文揭示了一种此前未被系统研究过的 LLM 安全漏洞——表情符号语义混淆(Emoticon Semantic Confusion)

核心问题:用户在日常对话中使用的 ASCII 表情符号(如 ~:-)-> 等),由于与编程语言中的运算符、通配符、路径符号高度重叠,LLM 可能将其误读为可执行指令的一部分,从而执行用户并未意图的危险操作。

典型例子:用户说"请删除目录 ~"(用 ~ 表达轻松语气),LLM 却将其理解为 Unix 的"用户主目录"通配符,执行了 rm -r ~,导致用户整个主目录被删除。


研究方法与规模

  • 数据集:构建了包含 3,757 个测试用例 的数据集,覆盖 21 个元场景(文件操作、数据库修改、系统管理等)和 4 种编程语言(Bash/Shell、Python、SQL、JavaScript)
  • 测试模型:Claude-Haiku-4.5、Gemini-2.5-Flash、GPT-4.1-mini、DeepSeek-v3.2、Qwen3-Coder、GLM-4.6
  • 对话复杂度:单轮、多轮无相关上下文、多轮有相关上下文三种级别

关键实验结果

维度发现
普遍程度所有6个模型均受影响,平均混淆率 38.6%
模型差异Claude 最稳健(34.2%),GLM 最差(43.8%)
静默失败超过 90% 的混淆响应产生"静默失败"——代码语法正确但语义错误,传统静态分析难以检测
高危场景文件删除/清理、多行命令块等破坏性操作场景最易触发
上下文影响单轮对话混淆率最高(43%-49%),有先验上下文的多轮对话最低(22%-26%)
Agent 迁移该漏洞可轻易迁移到主流 Agent 框架中
缓解效果现有基于提示的缓解方法基本无效

论文贡献

  1. 首次定义了表情符号语义混淆这一新型漏洞
  2. 开发了自动化数据生成流程,可高效构建测试用例
  3. 大规模量化评估了6个SOTA模型的脆弱性
  4. 公开了代码、数据集和结果,支持复现和后续研究

结论与呼吁

作者呼吁社区重视这一新兴安全问题。表情符号语义混淆不仅是一个可用性问题,更是一个实际的安全威胁:它能在用户无感知的情况下引发数据丢失、系统瘫痪等严重后果,且现有防御手段难以奏效,需要开发更有效的缓解机制。

评论

(0)
未配置登录方式
暂无评论