Gemini Embedding 2 是我们的首款原生多模态嵌入模型,可将文本、图像、视频、音频和文档映射到单一嵌入空间,实现跨不同媒体类型的多模态检索和分类 — 现已开放公共预览。
今天,我们通过Gemini API和Vertex AI发布了Gemini Embedding 2的首个公开预览版,这是一款基于Gemini架构的完全多模态嵌入模型。
在我们之前的仅限文本基础上,Gemini Embedding 2 将文本、图像、视频、音频和文档映射到一个统一的嵌入空间,并捕捉了100多种语言的语义意图。这简化了复杂的流程,并增强了从检索增强生成(RAG)和语义搜索到情感分析和数据聚类等广泛的多模态下游任务。
该模型基于Gemini,并利用其一流的多模态理解能力,创建了高质量的嵌入,涵盖:
除了每次处理一种模态外,该模型还原生理解交错输入,因此您可以将多种模态的输入(例如图像+文本)传递到单个请求中。这使得模型能够捕捉不同媒体类型之间的复杂、细微的关系,从而更准确地理解复杂、现实世界的数据。
与我们之前的嵌入模型一样,Gemini Embedding 2结合了Matryoshka表示学习(MRL),这是一种通过动态缩小维度来“嵌套”信息的技术。这使得输出维度可以灵活缩小到默认的3072,从而使开发人员可以在性能和存储成本之间取得平衡。我们建议使用3072、1536、768维度以获得最高质量。
要查看这些嵌入的实际应用,请尝试我们的轻量级多模态语义搜索演示。
Gemini Embedding 2不仅改进了传统模型,还建立了多模态深度的全新性能标准,引入了强大的语音能力,并在文本、图像和视频任务中优于领先模型。这种可衡量的改进和独特的多模态覆盖为开发人员提供了他们所需的确切功能,以满足其多样化的嵌入需求。
嵌入技术为许多谷歌产品提供了支持。从RAG(检索增强生成)中,嵌入可以发挥关键作用的上下文工程到大规模数据管理和经典搜索/分析,我们的一些早期访问合作伙伴已经开始使用Gemini Embedding 2来解锁高价值的多模态应用:
通过Gemini API或Vertex AI开始使用Gemini Embedding 2模型。
在我们的交互式Gemini API和Vertex AI Colab笔记本中了解如何使用该模型。您还可以通过LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search使用它。
通过为我们周围的多样化数据带来语义意义,Gemini Embedding 2为下一代高级AI体验提供了必不可少的多模态基础。我们期待看到您将构建什么。