NoteLLM – 小红书推出的笔记推荐多模态大模型框架

NoteLLM是什么

NoteLLM 是小红书推出的针对笔记推荐的多模态大型语言模型框架。NoteLLM 基于生成笔记的压缩嵌入和自动生成标签类别，用大型语言模型（LLM）的强大语义理解能力，结合对比学习和指令微调技术，提升笔记推荐的准确性和相关性。NoteLLM-2 在NoteLLM基础上引入多模态输入，基于端到端微调策略，结合视觉编码器和 LLM，解决视觉信息被忽视的问题。NoteLLM-2 提出多模态上下文学习（mICL）和晚期融合（late fusion）两种机制，进一步增强多模态表示能力，显著提升多模态推荐任务的性能。框架在小红书平台上展示强大的推荐能力，已应用在实际推荐系统中。

NoteLLM的主要功能

自动生成标签类别：为笔记生成标签和类别，增强笔记嵌入的质量。
提升用户体验：基于更精准的推荐，提高用户在平台上的参与度和满意度。
多模态笔记推荐：结合文本和图像信息，生成更全面的笔记表示，提升多模态推荐的准确性和相关性。
解决视觉信息忽视问题：基于多模态上下文学习（mICL）和晚期融合（late fusion）机制，增强视觉信息的表示能力。

NoteLLM的技术原理

Note Compression Prompt：设计特定的提示模板，将笔记内容压缩为一个特殊标记，同时生成标签和类别。
对比学习（Contrastive Learning）：基于用户行为数据中的共现机制构建相关笔记对，对比学习训练模型，增强笔记嵌入的语义表示。
指令微调（Instruction Tuning）：基于指令微调，让 LLM 更好地理解任务需求，生成高质量的标签和类别。
多模态上下文学习（mICL）：将多模态内容分离为视觉和文本两部分，分别压缩为两个模态压缩词，基于对比学习平衡模态间的注意力。
晚期融合（Late Fusion）：在 LLM 的输出阶段直接融合视觉信息，保留更多原始视觉信息，避免早期融合导致的视觉信息丢失。
端到端微调：结合任意现有的 LLM 和视觉编码器，基于端到端微调，定制高效的多模态表示模型，无需预训练对齐。

NoteLLM的项目地址

GitHub仓库：https://github.com/Applied-Machine-Learning-Lab/NoteLLM
arXiv技术论文：
- NoteLLM：https://arxiv.org/pdf/2403.01744
- NoteLLM2：https://arxiv.org/pdf/2405.16789