AI热点 2 hours ago 120 Views 0 Comments

我们对AI认识远远不足,所以透明度才至关重要

AI中国
AI中国

Published 11569 Articles

引子:当我们看不清AI,我们就无法真正治理它

我们正在进入一个AI无处不在,却又几乎难以察觉其存在的时代。它悄然参与我们的社交、内容、服务、消费,甚至影响着我们的情绪、偏好与行为。但我们真的知道,它在哪儿、做了什么、由谁控制吗?当我们看不清,就无法信任;无法信任,也就谈不上治理。

关于AI透明度的讨论,正在指向一个最基础却至关重要的问题——在AI时代,“看得见”的能力意味着什么?又该如何让AI被我们真正“看见”? 

本文为腾讯研究院 AI&society 海外名家对话 系列第一篇,与谈人:曹建峰(腾讯研究院高级研究员)。

为什么“看见”AI如此重要?

当我们在互联网上接收信息、进行互动时,面对的究竟是真实的人类还是“以假乱真”的AI?随着生成式AI更广泛地渗透到社交、创作、服务等各个场景,虚假信息、身份欺诈、深度伪造等风险也随之涌现。由此,“AI活动标识”(AI Activity Labeling)逐渐成为全球共识,AI透明度义务义务被中国、欧盟等多个监管机构写入法律,要求服务提供者明确标示哪些内容由AI生成,哪些互动来自AI系统,以帮助用户识别伪造信息、增强警惕、降低误信和受骗的风险。这是当下AI透明度政策最直接、最初级的功能。

但这些只是AI风险的冰山一角,透明度的价值亦远不止于此。AI系统正从执行命令的工具,逐渐进化为具备一定自主性的智能体 (AI Agent) ,能浏览网页、执行交易、编写代码、操控设备。这种新能力让AI与现实世界的界限更加模糊。然而,无论是政府监管者、产业从业者,还是学界和公众,对于AI的运行逻辑、风险链条和社会影响依然知之甚少,甚至处于“认知真空”状态。 

例如,一个争议性议题是关于“AI说服 (AI persuasion) ”的社会影响。当AI可以精准模仿人类语言,理解心理需求,甚至影响情绪,它是否可能在日常社交媒体、短视频平台等日常生活场景中悄然塑造我们的观点立场、价值判断甚至行为模式?它的影响程度多深?传播范围多广?持续时间多长?对此,目前都缺乏证据可以支撑回答。更大的问题在于——我们甚至都不知道该去哪里找答案。 

治理AI,先得看清AI。想要真正回答以上问题,靠想象猜测和纯粹的理论推演远远不够。我们必须收集大量来源于现实世界的关于AI如何运作、如何影响人的“已知证据”。而透明度制度更长远的价值正在于此:为研究、评估和应对AI风险提供真实的观察视角和第一手数据。例如,关于“AI说服”的问题,要判断AI如何影响人类的认知、情感、行为以及更宏观的社会秩序,前提是能准确区分哪些互动来自AI,哪些来自真实的人类。在此,AI标识制度,作为一项透明度机制,不仅有助于个体用户增强识别能力,也为平台提供追踪、分析、管理AI活动的技术支撑,为研究者提供收集证据、评估风险和制定更科学的政策的切实可能。 

更进一步地说,透明度还承担着缓解焦虑、建立信任的重要功能。技术飞速发展,我们对其运行逻辑和潜在影响的理解却明显滞后。认知失速带来广泛的治理焦虑:我们不知道哪些风险最重要最紧迫,也无法确认是否忽视了更深层的隐患。这在某种程度上也在阻碍AI在社会中的推广应用。 

在风险尚未完全厘清、AI能力仍处于快速演进的阶段,透明度机制能够缓解各方的不安,从风险焦虑回归治理理性,用“已知证据”去缓解“未知恐惧”。不是盲目信任,而是在“看得见”的基础上进行理性判断。不限于AI标识,诸如模型规范、可解释性技术等透明度机制,都在试图平衡AI时代的信息差:缓解我们对AI技术的认知“黑箱”,缓解政府、产业界、学界、社会公众之间的信息不对称。我们对AI知道得越多,才能谈得上如何放心使用,甚至大胆创新。 

在对AI能力边界、风险特征和社会影响“知之甚少”的今天,“看得见”本身就是一种不可或缺的力量。而透明度机制正赋予我们这种能力:看见AI如何运作、如何与人类互动以及如何产生影响。可以说,在AI技术不断演化、不断扩张的当下,透明度正在成为理解AI、信任AI、治理AI的关键。

AI标识,怎么“打标签”才算有效?

在当前的AI治理图景中,“AI标识”是最早落地、推进最快的透明度机制之一。中国的《人工智能生成合成内容标识办法》及国家强制性标准已正式实施,取得阶段性成果。而在欧盟,《人工智能法案》 (EU AIA) 第50条也专门规定了AI系统提供者的标识义务。随着欧盟第50条推进实施的进程加快,行业讨论也从“是否需要标识”转向“如何有效标识”。其中关于“标识什么”“谁来嵌入水印标识”“谁来检测水印标识”的讨论,也可为进一步在实践中细化执行标准、补齐制度细节提供一定参考。 

第一,仅标内容,还是也标“行为”?随着AI自主性的提升,智能体不仅能生成文字、图像、音视频等内容,还能主动“做事”:浏览网页、发送邮件、下单购物、自动点赞、评论转发,等等。这类操作已超出传统内容生成的范畴,属于“行为”本身。然而,现有法律条文表述多聚焦于对内容的标识,尚未明确涵盖AI的自主行为,存在一定的“盲区”。比如,若大量AI账户同步点赞、转发某条信息,极易造成“虚假热度”,操纵算法推荐,扰乱信息生态,误导舆论和公众判断。如何将此类行为纳入标识范围,值得进一步关注。因此,当前的AI标识虽然更多聚焦于AI内容,但随着智能体的持续创新和广泛应用,“AI活动” (AI Activity) 的透明度与标识将变得更加重要。 

第二,谁来嵌入水印标识,分层义务该如何设定?并非所有AI服务提供者的能力都相当。上游开发者 (如OpenAI、DeepSeek、Anthropic等) 拥有模型层面的控制能力,嵌入水印机制;而下游应用开发者往往只是在已有模型基础上微调或调用,缺乏足够的资源和权限去实现独立嵌入。若对所有主体施加相同义务,反而可能打击中小创新者的参与积极性。例如,欧盟内部也在讨论是否应设置“分层义务”:上游模型开发者负责嵌入水印;下游应用开发者负责配合检测、不得移除或规避已有水印等等。此外,不同类型的AI系统在应用场景和风险特征上存在差异,是否也应制定差异化的透明度要求,也是未决的问题。 

第三,谁来验证水印标识,检测工具授权给谁?嵌入水印是一回事,能否验证是另一回事。如果水印只对生成方可见,而没有足够的其他主体具备检测或者验证的能力,水印就成了“自说自话”,失去了透明度机制的价值。但问题是:一旦水印检测工具广泛公开,攻击者也可能有机会绕开或篡改水印标识,反而削弱其全性。因此,在透明和稳健之间需要做出权衡。目前可能的折中方案是将水印检测工具授权给负有平台责任的关键节点——如社交媒体平台、新闻分发平台等等,在用户交互过程中识别内容来源、完成标识验证,同时保持检测机制的技术细节不对外公开,防止滥用和逆向破解。 

目前,欧盟正在启动关于EU AIA第50条的实践准则的编制工作,预计该项工作将于明年5月完成。其地位类似于《通用目的AI实践准则》,但关注重点从“安全”转向了“透明度”,以对上述问题作出具体回应。 

模型规范,如何为AI“立规矩”和“守规矩”?

在AI标识之外,透明度的另一可能探索是“模型规范” (Model Specifications) 。简单来说,模型规范是一份由AI企业自己撰写并公开的文件,用来说明他们对自己的模型“应该做什么”和“不应该做什么”的期望。换句话说,模型规范被用来界定模型的行为边界、价值准则和设计原则。以OpenAI为例,其模型规范中设定了一项准则:与用户共同追求真实 (truth) 。这意味着,模型在回答问题时应保持中立,不主动引导用户立场。当下正在快速发展的智能体也应有“可以执行什么”和“不可以执行什么”的规范,明确其在交互对象、操作权限等方面的行为边界。例如,智能体是否可以在金融平台上代表用户执行交易? 

模型规范的意义不仅在于技术内部的“操作手册”,还在于它是一种面向公众公开的透明化机制,让用户知道AI系统被设计成什么样,将以何种方式与人互动。这保障了用户的知情权与选择权。比如,一个家长想让孩子使用某个AI助手,却担心其生成不适当内容。如果模型规范清楚声明,家长就可以更安心地使用或者选择其他AI助手。反之,如果AI模型的规范模糊或不公开,用户只能靠猜测判断模型的行为。同时,模型规范也是监管机构和社会公众反馈的重要依据。曾有媒体曝光Meta公司关于聊天机器人的一份内部政策文件,显示其示例允许AI聊天机器人与未成年人开展“浪漫”(rom antic) 互动,引发舆论风波和监管关注。曝光后,Meta迅速修改了规则。模型规范相当于一种企业公开的行为承诺,让外部有了监督和纠偏的抓手。 

但是模型规范的最大问题是:企业可以轻易承诺,但公众很难验证这些承诺是否兑现。哪怕规范写得再周全,如果缺乏执行机制,它就可能沦为“空头支票”。因此,“模型规范遵守”(Model Specifications Adherence)成为了模型规范透明度机制中的讨论核心。

目前,判断模型的规范遵守度,主要依赖三类信息:用户实测反馈、系统卡或模型卡、事故报告披露。但这些方式仍有不足。例如,系统卡没有覆盖所有模型行为;从单一事故中难以判断属于偶发事件还是确实存在系统缺陷。因此,有观点认为,企业不仅应披露模型规范内容,还应公开模型规范遵守的技术、流程、遵守程度的评估结果、事故或违规事件等等。例如,xAI将模型规范嵌入系统提示 (System Prompt) ,Anthropic采用原则式AI (Constitutional AI) 的方法,OpenAI推行审议式对齐 (Deliberative Alignment) 方法。此外,这些信息不仅应在部署前披露,在部署后也要持续跟踪和更新。换言之,不仅仅是“立规矩”要透明,“守规矩”也要透明。 

不过,模型规范遵守机制仍在探索期,尚无统一标准,围绕这一机制还存在诸多亟待讨论的开放问题。 

第一,模型规范遵守是否应强制?目前,公开发布模型规范的企业主要集中在OpenAI、Anthropic、xAI等少数头部企业。如果企业连模型规范都没有制定,自然也无从谈起模型规范遵守。但如果过早将“模型规范”及“模型规范遵守”作为法定义务,可能会抑制企业在治理机制上的探索和创新。许多前沿治理方法仍处于试验阶段,若被监管定型,反而会让企业因合规顾虑而放弃探索。同时,在监管层面也存在一系列执行难题:谁来验证?如何验证?如何针对不同AI系统设定差异化的验证标准? 

第二,哪些“模型规范遵守”的信息应当公开?透明度要求不等于“完全透明”。规范遵守流程中涉及的模型对齐技术、训练数据处理等细节,可能属于企业商业秘密的范畴。究竟哪些关键环节、数据指标、技术方法可以被披露?哪些又应当被保护?此外,验证模型规范遵守流程的真实性与可解释性本身就很困难。即使企业发布了相关文件,也可能难以理解。例如,95%的遵守程度和99%的遵守程度之间是否有区别,有什么区别?对此,需要在政府监管要求、公众知情需求和企业正当的商业利益之间找到平衡。 

第三,如果模型未能完全遵守规范,企业是否应当承担责任?尽管模型是一种对外的行为承诺,但在当前阶段,技术发展并不成熟,AI模型仍具有高度的不确定性、不可预测性。哪怕开发者已尽最大努力,模型也可能偶发违背规范。如果一旦“越界”就必须承担责任,对技术发展而言过于苛刻。总的来说,模型规范更多发挥的还是一种让社会“看得见”的透明度功能,并不直接与责任直接挂钩。应当秉持着更加审慎的态度,将关注重点放在企业是否遵守模型规范、是否披露事故情况、是否及时修正问题等方面。 

结语:以透明度建立可验证、可反馈、可改进的AI治理路径

正因为我们对AI的认识仍远远不足,透明度才显得尤为关键。透明度让我们得以更好地“看见”AI的真实运作,从而弥合技术发展与社会理解之间的落差。它不仅帮助用户识别互动对象、规避风险,更重要的是,它为整个社会提供了面对技术不确定性时最基本的认知保障,是治理研究和政策制定的基础前提。无论是AI标识,还是模型规范,还是其他更广泛的透明度机制和方法,本质上都是在尝试建立一条可验证、可反馈、可改进的AI治理路径。 

唯有当我们真正看清AI做了什么,怎么做的、为何这么做,我们才有可能理性判断:它应该做什么。进一步而言,让AI“看得见”,不仅是监管的任务,更是社会与技术共建信任的起点。在这个意义上,透明度是AI社会契约的核心,当当我们能看见AI的轨迹、理解它的逻辑、验证它的承诺,AI才可能成为人类可信赖的伙伴,而不是不可测的力量

编者注:本文根据人工智能治理中心(Center for the Governance of AI)研究员Alan Chan在腾讯研究院 AI&Society 海外专家面对面系列对话中的分享内容整理而成。但Alan Chan并未参与本文的撰写,文中观点仅代表整理者个人立场,不代表Alan Chan本人或其所属机构的观点。

本文来自微信公众号 “腾讯研究院”(ID:cyberlawrc),作者:腾讯研究院,36氪经授权发布。

AI中国

AI中国

11569 Articles 2144100 Views 950300 Fans

Comment (0)

睡觉动画