

EmbeddingGemma是一个 3 亿参数的开源嵌入模型,在同等规模下堪称顶尖。该模型由 Google 开发,基于 Gemma 3(采用 T5Gemma 初始化)构建,并采用了与创建 Gemini 模型相同的研究和技术。EmbeddingGemma 能够生成文本的向量表示,非常适合搜索和检索任务,包括分类、聚类和语义相似性搜索。该模型已使用 100 多种口语数据进行训练。
小巧的尺寸和对设备的关注使其能够在资源有限的环境中部署,例如手机、笔记本电脑或台式机,从而实现对最先进的人工智能模型的民主化访问,并帮助促进每个人的创新。

该模型基于一个文本数据集进行训练,该数据集包含各种来源,总计约 3200 亿个标记。以下是其关键组成部分:
这些不同数据源的组合对于训练能够处理各种不同任务和数据格式的强大的多语言嵌入模型至关重要。