AI热点 9小时前 69 浏览次数 0 评论

腾讯开源通用文本表示模型 Youtu-Embedding,可应用于企业客服、智能问答等场景

AI中国
AI中国

发布了 10860 文章

IT之家 10 月 14 日消息,腾讯优图实验室今日正式开源 Youtu-Embedding。据介绍,这是一款面向企业级应用的通用文本表示模型,可广泛应用于企业客服、智能问答、内容推荐、知识管理等场景,尤其适用于构建 RAG 检索增强生成系统。

IT之家附官方介绍如下:

高质量的文本嵌入(Embedding)是驱动智能搜索、检索增强生成(RAG)以及推荐系统等应用的核心技术。

在传统的信息检索系统中,搜索主要依赖倒排索引(Inverted Index)与关键词匹配:系统将文本分解为词项,通过统计共现频率或关键词相似度来检索文档。这种方法虽然高效,但存在明显局限 —— 它依赖词面匹配,无法真正理解语义关系。例如,“汽车保险”和“车辆保障”在语义上接近,却因为缺少相同词汇而难以被匹配到。

文本嵌入(Embedding)技术通过深度神经网络将文本映射到高维向量空间,使语义相似的句子在该空间中距离更近。这一机制让模型能够基于语义层面的关联而非字面重合来完成检索,从而显著提升搜索和问答系统的“理解力”。在 RAG(Retrieval-Augmented Generation)场景中,高质量的文本嵌入模型可以为大语言模型(LLM)提供更准确、更上下文相关的外部知识,使生成的答案更加精确、可控与可解释。

为破解这一难题,腾讯优图实验室正式开源 Youtu-Embedding,这是一款面向企业级应用打造的通用文本表示模型,可同时胜任文本检索、意图理解、相似度判断、分类聚类等六大主流任务。它在信息检索(IR)、语义相似度(STS)、聚类、重排序和分类等一系列广泛的自然语言处理任务上,均展现出卓越的性能。

Youtu-Embedding 的核心优势包括:

🏆 顶尖性能:在权威的中文文本嵌入评测基准 CMTEB 上,以 77.46 的高分荣登榜首(截至 2025 年 09 月),证明了其强大的表征能力。

🧠 精密的三阶段训练:通过“LLM 基础预训练 → 弱监督对齐 → 协同-判别式微调”的训练流程,系统性地将大模型的广博知识转化为专用于嵌入任务的判别能力。

⭐ 创新的微调框架:设计了统一数据格式、任务差异化损失函数和动态单任务采样机制,解决了多任务学习中的“负迁移”难题,实现了多任务的稳定协同训练。(该框架在多种基础编码器上进行了验证,保障其通用性和有效性)

🛠️ 精细化的数据工程:结合了基于 LLM 的高质量数据合成技术与高效的难负例挖掘策略,为模型训练提供了最坚实的数据基础。

我们在此开源模型权重、推理代码及完整的训练框架,首个模型版本已在 HuggingFace 上发布,这是一个拥有 20 亿(2B)参数的通用语义表示模型。源代码已在 GitHub 上开源。

Hugging Face 链接:https://huggingface.co/tencent/Youtu-Embedding

GitHub 链接:https://github.com/TencentCloudADP/youtu-embedding

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI中国

AI中国

10860 文章 1950270 浏览次数 950300 粉丝

评论 (0)

睡觉动画