英文3
Ling-2.6-flash:响应更快,执行更强,Token 效率更高
开源项目
Ling2.6Token效率+3
作者: 蚂蚁
发表时间:
蚂蚁开源Ling-2.6-flash,104B总参数、7.4B激活参数,主打代理场景下的高推理效率与低token消耗,采用混合线性注意力和稀疏MoE,在4×H20上最高340 tokens/s、长输出吞吐最高约提升4倍,并以1500万token维持有竞争力表现,在工具调用、多步规划和任务执行基准上接近或达到同级SOTA,但复杂场景仍存在工具幻觉、中英切换和复杂指令服从不足。