腾讯开源通用文本表示模型 Youtu-Embedding，可应用于企业客服、智能问答等场景

IT之家 10 月 14 日消息，腾讯优图实验室今日正式开源 Youtu-Embedding。据介绍，这是一款面向企业级应用的通用文本表示模型，可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景，尤其适用于构建 RAG 检索增强生成系统。

IT之家附官方介绍如下：

高质量的文本嵌入（Embedding）是驱动智能搜索、检索增强生成（RAG）以及推荐系统等应用的核心技术。

在传统的信息检索系统中，搜索主要依赖倒排索引（Inverted Index）与关键词匹配：系统将文本分解为词项，通过统计共现频率或关键词相似度来检索文档。这种方法虽然高效，但存在明显局限 —— 它依赖词面匹配，无法真正理解语义关系。例如，“汽车保险”和“车辆保障”在语义上接近，却因为缺少相同词汇而难以被匹配到。

文本嵌入（Embedding）技术通过深度神经网络将文本映射到高维向量空间，使语义相似的句子在该空间中距离更近。这一机制让模型能够基于语义层面的关联而非字面重合来完成检索，从而显著提升搜索和问答系统的“理解力”。在 RAG（Retrieval-Augmented Generation）场景中，高质量的文本嵌入模型可以为大语言模型（LLM）提供更准确、更上下文相关的外部知识，使生成的答案更加精确、可控与可解释。

为破解这一难题，腾讯优图实验室正式开源 Youtu-Embedding，这是一款面向企业级应用打造的通用文本表示模型，可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它在信息检索（IR）、语义相似度（STS）、聚类、重排序和分类等一系列广泛的自然语言处理任务上，均展现出卓越的性能。

Youtu-Embedding 的核心优势包括：

🏆 顶尖性能：在权威的中文文本嵌入评测基准 CMTEB 上，以 77.46 的高分荣登榜首（截至 2025 年 09 月），证明了其强大的表征能力。