本文考察了过去一年中,开源 AI 格局如何在竞争、地理分布、技术趋势和新兴社区等方面发生变化。我们主要通过分析 Hugging Face 社区在多类指标上的活动,来给出一个对整个生态系统的整体性视角。
本文建立在我们于 2025 年中期开展的一项早期分析之上,可在此查看。该分析聚焦于 Hugging Face 社区正在构建什么。我们也建议阅读其他关于开源生态、涵盖 Hugging Face 内外的视角,包括 Data Provenance Initiative、Interconnects、OpenRouter and a16z,以及 MIT and the Linux Foundation 的研究。由于 Hugging Face 生态本身是分布式的,因此相关分析由 Hugging Face 与社区成员的工作共同构成,文中均已适当注明出处。
开源 AI 生态的活跃度迅速增长,用户数量、模型仓库和数据集仓库数量都接近翻倍。到 2025 年,Hugging Face 已增长至 1100 万用户、超过 200 万个公开模型,以及 50 多万个公开数据集。这种增长不仅意味着人们对开源兴趣更高,也反映出参与方式的转变:用户越来越多地创建微调模型、适配器(adapter)、基准测试和应用等衍生成果,而不再只是消费预训练系统。

数据来自 Hugging Face | Hugging Face 模型总数突破 200 万并持续增长: 图表与报道来自 AI World
生态系统依然高度集中。Hugging Face 上约一半的模型总下载量不足 200 次,而下载量最高的前 200 个模型——仅占全部模型的 0.01%——却占据了 49.6% 的总下载量。
围绕特定领域、语言或问题形成了许多专业化社区,即使它们的整体下载量并不高,也常常展现出持续的活跃度和复用性。与其把开源 AI 视为一个单一、统一的市场,不如把它理解为一组彼此重叠的子生态系统。
越来越多的大公司和小公司都在基于开源构建产品。如今,《财富》500 强中已有超过 30% 在 Hugging Face 上维护了认证账号。初创公司也经常把开源模型作为默认组件:Thinking Machines 的 Tinker 模型选项完全基于开放权重构建,而像 VSCode 和 Cursor 这样的热门 IDE 也同时支持开源与闭源模型。Airbnb 等成熟的美国公司已加大对开源生态的参与,而在 2025 年期间,Hugging Face 也看到越来越多传统企业升级其组织订阅。
大型科技公司正频繁在 Hugging Face Hub 上创建新仓库;将它们并排可视化后,仓库增长的显著提升清晰显示出其长期投入。其中,NVIDIA 已成为最强劲的贡献者。

数据来自 Hugging Face | 科技巨头全面押注开源 AI, 图表与报道来自 AI World
对更广泛开源软件的研究表明,开源成果在下游创造的价值远远超过其生产成本。类似的动态也正在 AI 领域显现:开源模型正被复用、改造,并在成千上万的下游应用中被专门化。那些完全依赖闭源系统的组织,往往需要承担更高成本,并在部署与定制方面面临更低的灵活性。
过去四年的累计下载量显示,不同地区在模型热度上存在明显领先者。美国和中国历来是最主要的贡献方,英国、德国和法国则处于第二梯队。由个人用户或没有明确地理归属的分布式组织开发的模型,约占平台总下载量的一半。
数据来自 Hugging Face | 图表与研究来自 Longpre 等人《开放智能经济:追踪模型生态中的权力与参与》
开源生态的地理构成已经发生根本变化。Hugging Face 数据显示,无论是月度下载量还是总下载量,中国都已超过美国。过去一年里,中国模型迅速占据最多份额,达到 41% 的下载量。

数据与图表来自 Hugging Face
行业在整体开发中的占比已从 2022 年前的大约 70% 降至 2025 年的约 37%。与此同时,独立开发者或无附属机构开发者在同一时期的下载占比则从 17% 上升到 39%,并在某些阶段占到总使用量的一半以上。 这些个人和小型团体专注于基础模型的量化、适配和再分发。如今,这些中间层参与者已在很大程度上影响着普通用户能运行什么,以及创新如何在生态中扩散。
数据来自 Hugging Face | 图表与研究来自 Longpre 等人《开放智能经济:追踪模型生态中的权力与参与》
不同地区的贡献方式并不相同。美国和西欧历来主要通过大型产业实验室(Google、Meta、OpenAI、Stability AI)占据主导,而中国则在发布数量和采用规模两方面日益领先。法国、德国和英国则继续通过研究机构、国家级 AI 计划以及专门化模型家族作出贡献。能够支持多元贡献者和多种组织形态的生态系统,往往更容易产出被广泛采用的成果。
来自初创公司的热门模型分布更为广泛。表现突出的国家包括法国和韩国。值得注意的是,在开发新的热门趋势模型方面,排名第四的主体并不是组织,而是个人用户。如今,在用户层面打造具有竞争力的模型,比以往任何时候都更容易。
数据与图表来自 Hugging Face
在 2025 年新创建的模型中,大多数热门趋势模型要么由中国开发,要么是基于中国开发模型的衍生版本。最受欢迎的模型则由大型组织开发,且主要来自美国和中国。若想进一步了解中国 AI 生态,可阅读我们的三篇系列文章,回顾“DeepSeek 时刻”发生一年后的变化:第一篇讲战略变化,第二篇讲架构变化,第三篇讲组织与未来。
2025 年,在 DeepSeek 于 1 月发布爆红的 R1 模型之后,中国 AI 生态显著转向开源。发布模型的中国竞争性组织数量,以及其在 Hugging Face 上的仓库数量,都出现了飙升。百度在 2024 年于 Hub 上还是零发布,到 2025 年已超过 100 个。字节跳动和腾讯的发布量也分别增长了 8 到 9 倍。此前更偏好闭源路线的组织,包括百度和 MiniMax,也都明显转向开放发布。

数据与图表来自 Hugging Face
相比之下,美国热门组织在较长时期内一直保持着更高规模的仓库产出。Meta 及其前身 Facebook 研究机构在开源发布中占据了相当大的比例,Google 也有一定贡献,只是程度稍低。

数据与图表来自 Hugging Face
将二者并列观察,中国热门组织仓库增长轨迹的陡峭上升,就成为一项关键的战略差异。

数据与图表来自 Hugging Face
开源 AI 正越来越多地与主权问题绑定在一起。开放权重模型使政府和公共机构能够在本地数据上、在本国法律框架下进行微调。能够部署在本土硬件上的模型,也降低了对外国控制云基础设施的依赖。围绕模型架构、训练流程和评测的透明度,则有助于监管审查和公共问责。关于以开源方式实现主权,可在此阅读更多内容。
在国家层面,政府已开始行动。韩国的国家主权 AI 计划(National Sovereign AI Initiative)于 2025 年中启动,并指定 LG AI Research、SK Telecom、Naver Cloud、NC AI 和 Upstage 等国家队来打造具有竞争力的本土模型。到 2026 年 2 月,已有三个来自韩国的模型同时登上 Hugging Face Hub 热门榜。2026 年 3 月,韩国与美国初创公司 Reflection AI 宣布建立数据中心合作关系,也将前沿开放权重模型带到了韩国。
瑞士的 Swiss AI 计划以及多项欧盟资助项目,也体现出类似优先事项。英国“公共资金,公共代码(public money, public code)”的原则,已对多项政府支持的 AI 项目产生影响。

Hugging Face Trending 页面,2026 年 2 月
这些对开源与开放权重 AI 的投入,已经开始为那些自身拥有活跃 AI 训练生态的国家带来回报。正如我们看到的,模型和数据集通常在其开发所在地区使用最为广泛;开发者往往会优先选择那些最能体现其语言特征,并符合相近技术需求与应用要求的模型。

数据与图表来自 Hugging Face
Hub 上获赞最多的模型,体现了社区关注度——无论是用户愿意回头查看、引用该模型,还是其整体受欢迎程度。虽然这一指标并不总能直接反映使用量,但随着时间积累的关注度,仍能释放出明显的兴趣信号。短短一年间,获赞最多的模型已从主要由美国开发、以 Meta 的 Llama 家族为主,转变为国际化混合格局,而中国的 DeepSeek-R1 位居榜首。

数据与图示来自 Hugging Face
科学贡献的价值可以通过多种指标衡量,而 Hub 上的点赞(upvote)功能显示,来自大型 AI 组织的论文受到社区成员的广泛认可。值得注意的是,获赞最多的论文主要来自大型组织,而且大多位于美国和中国。排名靠前的组织中,多数是中国科技巨头,而字节跳动分享了大量高影响力论文。
Hugging Face Space | PaperVerse Explorer
在 Hugging Face 的 Daily Papers 中——这是由 Hugging Face 的 AK 策展的一组论文——那些涉及模型和数据集创建、显示出较强开源采用度的论文,整体上来源相当多元。一个显著观察是,医学类论文影响力突出,而科技巨头的影响相对稀少。

数据来自 Hugging Face | 图表与报道来自 AI World
社区成员如何基于模型继续构建——无论是通过微调、模型合并,还是其他方式——能够反映模型的受欢迎程度和易用性。作为一个组织,阿里巴巴的衍生模型数量已经超过 Google 和 Meta 的总和;仅 Qwen 家族就构成了超过 11.3 万个衍生模型。若把所有打上 Qwen 标签的模型都算进去,这一数字会膨胀到 20 多万个模型。

数据与图表来自 Hugging Face
模型开发越来越强调可及性,而不只是规模。较小模型的下载和部署频率远高于超大规模系统,这反映了成本、延迟和硬件可获得性等现实约束。
小模型的主导地位,部分原因在于这一规模区间发布的模型本来就更多。但即使对这一因素进行归一化处理,ATOM Project 的相对采用指标(Relative Adoption Metric)数据显示,参数规模在 1–9B 的前 10 名模型,其中位数下载量也仅比 100B 以上的模型高约 4 倍。自动化系统和 CI 流水线也会进一步抬高小模型的下载计数,但整体趋势确实正在朝着更小、更易部署的模型发展。

数据来自 Hugging Face | 图表与文章来自 ATOM
开源模型的关注度通常在发布后几乎立即达到峰值,随后开始放缓。平均关注持续时间约为 6 周。持续改进和频繁更新,已成为保持相关性的关键。DeepSeek 连续发布 V3、R1 和 V3.2,使其即便在挑战者不断出现的情况下仍保持竞争力。那些研发停滞的组织,往往会很快将份额让给那些更新更频繁或专注于特定领域微调的参与者。

数据来自 Hugging Face | 图表与研究来自 Choksi 等人《开放模型短暂而奇妙的一生》
被下载的开源模型平均规模,已从 2023 年的 8.27 亿参数提升到 2025 年的 208 亿参数,这主要由量化和混合专家(Mixture-of-Experts, MoE)架构推动。然而其中位数只略微增长,从 3.26 亿提升到 4.06 亿参数。平均值与中位数之间的这种分化表明,高端 LLM 用户拉高了平均值,而底层的小模型使用情况仍保持稳定。

数据来自 Hugging Face | 图表与研究来自 Longpre 等人《开放智能经济:追踪模型生态中的权力与参与》
前沿模型与较小系统之间的性能差距,往往会通过微调和任务特定适配而迅速缩小。在 Hub 上,数亿参数规模的模型已能支持搜索、标签和文档处理工作流;而个位数十亿参数的模型,则被广泛用于编程、推理和多模态任务。因此,大多数主要模型开发者现在都会发布覆盖多种规模的模型家族。具备强能力的小模型崛起,也让自主性更靠近边缘侧,减少了对中心化云服务提供商的依赖。
开源 AI 的发展与硬件趋势紧密相连。大多数模型仍针对 NVIDIA GPU 优化,但对 AMD 硬件的支持也在持续扩展。Stability AI 的模型合集如今同时面向 NVIDIA 和 AMD 平台进行优化。相关库也越来越多地同时支持二者,工具链的改进则让跨硬件部署更加直接。2025 年,Hugging Face 推出了 Kernel Hub,用于加载和运行面向 NVIDIA 与 AMD GPU 优化的内核(kernel)。
与此同时,中国的开源模型也开始明确支持国产芯片。阿里巴巴已投资于面向推理的芯片架构,旨在以能够本地运行开源模型的硬件填充中国的数据中心。
尽管无论在 AI 模型的开发还是部署中,获取算力始终都是核心前提,但开源与开放权重模型正帮助行业摆脱“唯算力论”的生态路径。越来越多不同性能层级的模型,正在以比头部旗舰 AI 模型低 10 倍到 1000 倍的成本推动效率提升。

数据与图示来自 Hugging Face
尽管如此,开源基础设施投资的问题依然紧迫。为能够训练和服务开源模型的数据中心提供公共资金支持,已成为越来越重要的政策议题,尤其是在欧洲和英国。大型闭源模型公司可获得的算力资源,与开源社区可获取资源之间的差距,仍在持续影响开源开发的可行边界。
机器人已成为 Hugging Face 上增长最快的子社区之一。 数据非常惊人:机器人数据集数量从 2024 年的 1,145 个增长到 2025 年的 26,991 个,仅用三年时间,就从第 44 位跃升为 Hub 上规模最大的单一数据集类别。相比之下,第二大的类别——文本生成——在 2025 年的数据集数量也只有约 5,000 个。
数据来自 Hugging Face | 图表与报道来自 AI World
社区贡献的数据集涵盖了从家庭操作任务到自动驾驶的广泛场景。空间智能领域最大的多模态数据集 Learning to Drive(L2D),通过 LeRobot 与 Yaak 的合作发布。像 RoboMIND 这样的数据集,包含超过 10.7 万条真实世界轨迹,覆盖 479 项不同任务和多种机器人形态,为训练具备泛化能力的机器人策略提供了所需的规模和多样性。
Hugging Face 收购 Pollen Robotics 后,开源机器人销售被带向了产业界、学术实验室以及日常爱好者。LeRobot 是 Hugging Face 的开源机器人库,基于 PyTorch,为真实世界机器人提供模型、数据集和工具,覆盖模仿学习、强化学习和视觉-语言-动作模型。在过去一年中,它的 GitHub 仓库 star 数几乎增长了三倍。

数据来自 GitHub | 图示来自 star-history.com
科学研究已经成为另一个特别活跃的领域。开源模型和数据集正越来越多地用于蛋白质折叠、分子动力学、药物发现和科学数据分析。 所有前沿 AI 公司现在都设有专门的科学团队,尽管当前很多工作的重点仍是文献发现,而非直接实验。

围绕共同研究目标,社区主导的项目已经形成,通常涉及数百名贡献者跨机构、跨学科协作。这些努力凸显了开源作为一种协调大规模跨学科工作的机制所扮演的角色,而这类工作若仅依靠传统学术或企业结构,往往很难组织起来。
开源 AI 生态仍在持续演化,其驱动力来自全球参与、技术专业化与机构采用的共同作用。接下来的阶段,可能会由几个趋势来定义。
地理层面的力量再平衡正在加速。西方组织越来越希望寻找可以商业部署、且能替代中国模型的方案,这使得 OpenAI 的 GPT-OSS、AI2 的 OLMo 以及 Google 的 Gemma 等项目变得更加紧迫——它们试图为美国和欧洲开发者提供有竞争力的开源选择。这些努力能否匹敌 Qwen 和 DeepSeek 的采用势头,将成为 2026 年的一个关键问题。
机器人和科学领域子社区的增长,表明开源 AI 正在超越语言和图像生成,进入物理世界与实验领域。围绕文本与图像模型形成的基础设施、规范与协作机制,正在被迁移并适配到新的模态和应用场景中。
对于研究者、开发者、企业和政府而言,开源依然是构建、评估和治理 AI 系统的基础层。随着智能体(agent)部署不断增加,开源及其互操作性将成为智能体繁荣发展的关键。过去一年的发展轨迹已清楚表明一件事:开源生态正是 AI 开发、适配与部署中大量实际工作发生的地方,而且它对更广泛 AI 格局的影响仍在持续扩大。
感谢 Hugging Face 社区持续为 AI 生态系统打下基础 🤗