英文让 Gemini 在安卓系统上帮你处理多步骤的日常任务
谷歌将在Gemini应用为Pixel 10系列和三星Galaxy S26推出多步骤任务自动化测试版,先在美国和韩国上线,用户长按电源键即可让Gemini后台完成打车、DoorDash复购等操作,进度可通过通知实时监控并随时接管或终止,Gemini仅在安全虚拟窗口内运行指定应用以限制权限,初期覆盖外卖、杂货、出行类应用并收集反馈。
浏览 业界资讯 分类下的公开文章、摘要与延伸阅读。肖恩子的知识花园
英文谷歌将在Gemini应用为Pixel 10系列和三星Galaxy S26推出多步骤任务自动化测试版,先在美国和韩国上线,用户长按电源键即可让Gemini后台完成打车、DoorDash复购等操作,进度可通过通知实时监控并随时接管或终止,Gemini仅在安全虚拟窗口内运行指定应用以限制权限,初期覆盖外卖、杂货、出行类应用并收集反馈。
中文通义千问发布并开源Qwen3.5系列,新增122B-A10B强化多步推理与工具调用,35B-A3B以架构与数据优化超越前代更大模型,27B主打高能效降门槛,同时阿里云百炼上线对齐35B-A3B的Qwen3.5-Flash生产级API,支持100万tokens上下文与原生工具链,推动企业落地与技术普惠。
中文Anthropic为Claude Max用户上线Claude Code远程控制,终端输入/rc生成链接或二维码,手机App或浏览器接管会话而计算与文件仍在本地且上下文不丢,研究预览先给Max后续扩至Pro,使移动端持续调试与长任务监控更便捷且更安全。
英文AI通过自动读取COBOL代码库,梳理隐性依赖与数据流、补全工作流文档并评估迁移风险,配合工程师制定路线与测试,在逐组件迁移和并行验证中把现代化从多年高成本顾问工程压缩为数季度可控实施。
英文Anthropic发布Claude Sonnet 4.6并在claude.ai等产品设为默认模型,价格沿用4.5且提供1M上下文窗口测试版,编码、电脑操作、长文本推理与代理规划能力大幅提升并在部分任务接近或优于Opus 4.5,安全评估显示总体不低于既有模型且更抗提示注入,配套上线上下文压缩与更高效的搜索过滤、代码执行等工具,使更多高价值办公与开发任务以更低成本落地。
英文OpenAI与Paradigm发布EVMbench,用120个高危合约漏洞评测AI的检测、修补与沙箱链上资金盗取能力,并以Rust框架实现可复现实验,GPT‑5.3‑Codex在盗取模式得分72.2%较GPT‑5的31.9%大幅提升但检测与修补仍不充分,结论是需强化AI辅助审计以降低智能合约安全风险。
英文MIT研究测试GPT-4、Claude3、Llama3在TruthfulQA与SciQ上对不同用户画像的答复,发现对低英语水平、低学历、非美国出身者准确性与真实性下降、拒答率上升且更易出现居高临下措辞,结论是LLM可能向弱势群体传播错误信息并加剧信息不平等。
英文谷歌发布升级模型Gemini 3.1 Pro并以预览形式向开发者、企业与消费者在Gemini API、Vertex AI、Gemini应用和NotebookLM等平台推送,核心动作是强化复杂任务推理与系统整合能力,ARC-AGI-2得分77.1%较3 Pro翻倍,影响是为数据综合、复杂解释与代理式工作流提供更强底座并为后续正式版铺路。
英文作者加入OpenAI推进“人人可用”的AI智能体研发,以获得最新模型、研究与安全支持并加速落地;原开源项目OpenClaw不走商业化扩张,将转入基金会架构继续保持开放独立、由OpenAI赞助并扩大对更多模型与公司的支持,结论是个人去OpenAI扩规模影响,项目留社区并强化治理。
中文火山引擎发布豆包大模型2.0系列并上线企业与开发者API,围绕生产环境优化推理、多模态与复杂指令执行,推理成本较顶尖模型降约一数量级且日均Tokens增长超500倍,提供Pro/Lite/Mini/Code四款以覆盖深推理、性价比、低延迟与编程场景,视觉与视频理解及多项基准领先并强化Agent与工具调用能力,同时更新Coding Plan以降低开发者用量成本、提升落地效率。