微小符号，巨大风险：探究大语言模型中的表情符号语义混淆问题

核心发现

论文揭示了一种此前未被系统研究过的 LLM 安全漏洞——表情符号语义混淆（Emoticon Semantic Confusion）。

核心问题：用户在日常对话中使用的 ASCII 表情符号（如 ~、:-)、-> 等），由于与编程语言中的运算符、通配符、路径符号高度重叠，LLM 可能将其误读为可执行指令的一部分，从而执行用户并未意图的危险操作。

典型例子：用户说"请删除目录 ~"（用 ~ 表达轻松语气），LLM 却将其理解为 Unix 的"用户主目录"通配符，执行了 rm -r ~，导致用户整个主目录被删除。

数据集：构建了包含 3,757 个测试用例 的数据集，覆盖 21 个元场景（文件操作、数据库修改、系统管理等）和 4 种编程语言（Bash/Shell、Python、SQL、JavaScript）
测试模型：Claude-Haiku-4.5、Gemini-2.5-Flash、GPT-4.1-mini、DeepSeek-v3.2、Qwen3-Coder、GLM-4.6
对话复杂度：单轮、多轮无相关上下文、多轮有相关上下文三种级别

维度	发现
普遍程度	所有6个模型均受影响，平均混淆率 38.6%
模型差异	Claude 最稳健（34.2%），GLM 最差（43.8%）
静默失败	超过 90% 的混淆响应产生"静默失败"——代码语法正确但语义错误，传统静态分析难以检测
高危场景	文件删除/清理、多行命令块等破坏性操作场景最易触发
上下文影响	单轮对话混淆率最高（43%-49%），有先验上下文的多轮对话最低（22%-26%）
Agent 迁移	该漏洞可轻易迁移到主流 Agent 框架中
缓解效果	现有基于提示的缓解方法基本无效

作者呼吁社区重视这一新兴安全问题。表情符号语义混淆不仅是一个可用性问题，更是一个实际的安全威胁：它能在用户无感知的情况下引发数据丢失、系统瘫痪等严重后果，且现有防御手段难以奏效，需要开发更有效的缓解机制。