Mobile-Agent:多模态 GUI 自动化智能体框架

分类开源项目
作者Alibaba
来源跳转
发表时间

内容

1. 项目概述

  • Mobile-Agent 是一个跨平台的多模态 GUI 自动化代理框架家族
  • 支持手机、PC、浏览器等多平台自动化操作
  • 具备视觉感知、规划、反思、记忆等能力

2. 主要版本/产品线

版本特点状态
GUI-Owl 1.5 (2026.2)原生多平台 GUI Agent 基础模型家族 (2B/4B/8B/32B/235B),基于 Qwen3-VL最新发布
Mobile-Agent-v3.5多平台基础 GUI Agent预印本
Mobile-Agent-v3多模态跨平台 GUI Agent 框架已发布
UI-S1基于半在线强化学习的 GUI 自动化预印本
GUI-Critic-R1操作前错误诊断 GUI 评判模型NeurIPS 2025 接收
PC-AgentPC 多模态多 Agent 协作框架ICLR 2025 Workshop
Mobile-Agent-E自进化手机操作 Agent预印本
Mobile-Agent-v2多 Agent 手机操作助手NeurIPS 2024
Mobile-Agent-v1单 Agent 多模态手机操作ICLR 2024 Workshop

3. 核心能力

  • GUI 感知与定位:理解界面元素并准确定位
  • 端到端操作:完成复杂多步骤任务
  • 工具/MCP 调用:与外部工具集成
  • 长程记忆:支持长周期任务

4. 体验方式

  • ModelScope 在线演示
  • 阿里云百炼在线演示(限时免费 API)

5. 学术成果

  • 多篇论文被 NeurIPS、ICLR 等顶会接收
  • 获得 CCL 2024/2025 最佳演示奖
  • 在 20+ 个 GUI 基准测试上达到 SOTA 效果

6. 开源信息

  • 代码开源在 GitHub
  • 模型权重发布在 HuggingFace
  • MIT 许可证

评论

(0)
未配置登录方式
暂无评论