谷歌首个原生多模态嵌入模型 Gemini Embedding 2 发布

谷歌发布首个原生多模态嵌入模型，支持将文本、图像、视频、音频和文档映射到同一嵌入空间，可识别100种语言的语义意图。模型单次请求可处理最多6张图片、120秒视频、6页PDF及直接音频输入，适用于RAG、语义搜索、情感分析和数据聚类等场景。更多详情...