在当今 AI 技术飞速发展的时代,许多组织纷纷尝试将 AI 大模型应用到实际工作场景中,以提升效率和生产力。然而,一个令人头疼的问题也随之而来:开发的 AI 应用无人问津,或者用户体验不佳。这背后的原因可能是多方面的,但关键在于缺乏有效的用户反馈机制。

AI大模型在知识对话、图文生成等领域的突出表现,使得很多组织在构建应用系统时,持续思考如何将大模型能力应用到员工的工作场景中。但是,直接套用基座大模型去解决具体的专业问题,往往面临答案幻觉、答案针对性不强等现象。
这时,需要建立一套持续收集用户对AI大模型应用的使用反馈机制,将用户对大模型输出答案的主观评价、用户操作系统的客观行为等信息回收。进而通过复盘,找到提升大模型能力的方法。
要注意,收集用户反馈不仅仅是一个技术问题,更是一个产品运营和用户体验的综合性问题。
首先,我们要定义出收集用户反馈的三大核心原则:
1、轻量化。尽可能不打断用户的正常操作流程,降低他们的评分负担。
2、场景化。在合适的操作场景、以合适的触达方式询问。
3、数据化。将主观评分与客观行为数据结合,形成更全面的洞察。
围绕三大核心原则,笔者总结了3种收集用户对AI大模型应用的使用反馈方案,包括被动式收集、主动式收集和隐式行为数据收集。各组织可以根据自身的资源情况和大模型应用的发展阶段,灵活选择、使用。
方案一:被动式收集
在前期做AI产品设计时,可以考虑直接在产品功能页面上,嵌入被动式收集功能。比较常见的是thumbs-up/thumbs-down、五星评分制这2种方式。
1、thumbs-up/thumbs-down
提供一种简单的点赞/点踩按钮功能,简单、直观地收集用户对当前大模型回答的喜好,这也是目前行业的标准做法。
常见的功能形态是在每个大模型输出的答案末尾显示。以笔者演示的腾讯元宝为例,在浏览完大模型生成的节日祝福后,用户可以选择点赞/点踩。
同时,腾讯元宝为了进一步了解用户的决策依据,弹出了一个轻量级的、带有文案钩子的反馈窗口,希望收集用户更具体的反馈信息。

如果用户愿意反馈,腾讯元宝进一步提供结构化的评价思路,去引导用户填写内容。这里,重点让用户评价大模型答案的正确性和规范性,同时降低用户反馈太多内容的操作负担。

2、五星评分制
五星评分制,比点赞/点踩更加的细致,可以量化用户满意的程度。
在实际设计中,同样可以在答案末尾给出相关文档。
设计示例:
“请您为这个回答评分”: ★★★★★
通过收集用户的评分,我们可以进一步通过数据分析等手段,关联业务场景,对大模型输出内容进行优化。
比如定义打 4-5 星的评价为好评,打 1-2 星的评价为差评,分别统计好评率、差评率,用于区分高满意度和低满意度答案的比例。另外,可以从高分和低分评价中筛选典型案例,作为提示词优化或者大模型微调的具体参考。
方案二:主动式收集
这种方案需要用户研究团队主动规划对用户的触达,通过问卷调研等形式获取更丰富的使用反馈。注意,需要精心设计以减少对用户的打扰。
1、问卷调查
当用户的操作行为满足筛选条件时,产品可以主动给用户推送问卷。
比如当用户在连续一周都在使用AI功能,在下次登录时可以推送问卷,邀请用户回答。
建议采用简洁的问卷形式,比如以弹窗形式展示,提供有关产品使用体验的5-7个问题,能让用户在30秒内完成。
2、定期NPS调研
每周或每月,通过钉钉、企业微信等内部办公软件,向所有销售员工发送一次简短的NPS调研链接。
NPS调研的形式也是问卷,不过核心问题是询问用户是否愿意把产品推荐给其他人。
问题示例:
“您有多大可能将这款问答助手推荐给您的同事?(0-10分)”
“请问您给出这个分数的主要原因是什么?”(这是一个开放性问题,能收集到最真实的反馈)
方案三:隐式行为数据收集
有时候,用户的操作行为,比他们主观评分或者问卷填写更能说明问题。这些操作行为数据需要通过产品前期的埋点进行采集。常见行为包括:
1、持续对话行为
用户收到回答后,如果在一定时间内没有后续对话,说明当前的回答可能已经满足用户需求。
如果在一定时间内,用户产生追问、改写问题或再次提出相关问题,比如“还有其他注意事项吗?”“能说得再简洁点吗?”。这表明大模型回答的不完整或不准确。
2、内容复用行为
用户选中并复制了回答的全部或部分内容。这是黄金正面信号,说明他打算直接使用这些内容。
3、点击链接行为
大模型在进行联网查询或者本地知识库索引查询时,输出的回答中会包括网页链接或者知识库文档链接。如果用户点击查看了源文档,说明他需要更深入的信息,当前回答的信息量不够或者没有正确回答问题。
在介绍完3种收集用户对AI大模型应用的使用反馈方案后,笔者再补充一些大模型功能使用优化的经验。
我们可以将大模型使用优化的流程划分为4个阶段。
1、启动阶段。可以先上线最简单的点赞/点踩功能,快速收集用户反馈。
2、建设阶段。在1-2周后,为“点踩”功能加入轻量级反馈弹窗,结合用户意见对Bad Case进行归因分析。
3、优化阶段。部署会话结束、下一轮问题输入等操作行为的数据埋点,采集更客观的用户行为日志数据。
4、深度洞察阶段。每月或每季度进行一次NPS调研,结合客观操作行为数据,评估深层次的使用满意度,提炼大模型应用的改进方向。
希望这篇文章提供的方法能帮助大家更好地收集到用户反馈指引,从而持续优化大模型应用效果。相信,好的大模型应用一定可以转化为实实在在的业务竞争力。
本文由人人都是产品经理作者【明思AI】,微信公众号:【明思AI】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。