法治号 手机版| 站内搜索

网上有害信息举报

应用人机对齐策略 建立可信法律AI

2025-06-23 17:12:10 来源:法治日报 -标准+

应用人机对齐策略 建立可信法律AI

访第十四届全国政协委员王江平

□ 本报记者 张维

随着人工智能大模型的超强能力日益显现,如何让其行为和目标同人类的价值、偏好、意图之间实现协调一致,即人机对齐(human-AI alignment),正成为时代命题。

法律领域的AI应用尤其需要极高的可信性、公平性和透明性,以确保其决策与法律价值观、伦理规范和社会公共利益一致。就如何在法律领域应用人机对齐策略,《法治日报》记者近日专访了第十四届全国政协委员、工业和信息化部原副部长、研究员级高级工程师王江平。

不仅做准还要做对

记者:人机对齐似乎是新近出现的概念。公开资料显示,人机对齐已被纳入中国、欧盟等主要经济体的人工智能治理白皮书,同时,人机对齐技术被列为2024年人工智能十大前沿技术趋势之一。人机对齐究竟有何特别之处?

王江平:传统AI优化目标往往聚焦于提升任务性能,比如让模型在图像识别中准确率更高,但忽略了“模型决策是否符合人类伦理”“是否存在偏见”等问题。而人机对齐则要求AI不仅“做得准”,还要“做得对”,例如自动驾驶系统不仅要快速识别障碍物,还要遵循交通规则和保护生命优先的原则。

AI技术的快速发展对人机对齐提出了新挑战。以大语言模型为例,它们通过海量数据学习,但数据中可能包含社会偏见或错误价值观。此外,强化学习中“奖励机制”的设计如果不合理,可能导致AI为了达成目标而采取有害行为。例如,若仅以“点击率”为奖励,推荐算法可能推送博眼球的虚假信息。这要求我们必须在技术迭代的同时,同步优化对齐策略。

这不是说人机对齐可以彻底解决相关问题,毕竟其本身也有局限性。例如,人类价值观复杂多样,不同的文化、宗教、社会群体以及个人可能具有不同的价值观和伦理观,难以确定一套统一的、适用于所有情况的人类价值观来与AI进行对齐。同时,人类的价值观并非固定不变,而是随着社会的发展、文化的演变以及新情况的出现而不断变化。这就要求AI系统必须实时跟踪并适应这些变化,为此AI模型需要动态对齐。需特别强调的是,技术实现存在复杂性。尽管目前有很多方法用于实现人机对齐,但要完全准确地将人类复杂的价值观和意图转化为AI系统可理解和遵循的目标函数并非易事。开发者可能会寻求替代目标,从而产生目标偏移隐患。

由此可见,AI模型行业应用是件严肃的事情,需要建立一套完整的适应本行业的监管框架,监管部门借此发挥模型开发方、应用方、测评机构等各方面的作用,确保AI健康有序发展。

需要全面人机对齐

记者:在实际应用中,人机对齐是如何降低AI系统风险?我们如何通过人机对齐建立可信AI尤其是可信法律AI?

王江平:举个例子来说。在招聘系统中,模型算法可能因历史数据中存在性别歧视,导致女性求职者被过滤。通过人机对齐,引入公平性指标(如性别比例均衡),并采用去偏技术调整算法,能显著减少此类问题。

建立可信AI,需要全面的、动态的人机对齐策略。全面对齐需覆盖数据集建设、技术构架与算法、应用、检测评估等环节,但都要从技术、伦理、法律、社会层面四个维度去对标。技术上,优化算法和数据质量;伦理上,嵌入人类价值观;法律上,确保合规性;社会层面,则需通过公众反馈调整策略。例如,在医疗AI中,不仅要保证算法准确,还要符合患者隐私保护法,并通过医生和患者的使用反馈持续优化。

这种对齐是一种动态对齐,它依赖于实时监测与快速迭代。以法律AI为例,当新法新规出台时,可以通过构建动态法律知识引擎来提高AI的适应性。一方面,通过自然语言处理技术实时抓取官方法律文本变更,自动更新知识图谱;另一方面,结合联邦学习让分散在各地法院的案例数据在不泄露隐私的前提下,协同训练模型。例如,当数据安全法修订后,系统可在72小时内完成规则更新,并通过模拟法庭测试验证新规则的适用性。

动态对齐还体现在,应设置“伦理审查触发器”,当模型输出触及预设风险阈值时,强制人工介入修正。

需要说明的是,法律领域的AI应用需要极高的可信性、公平性和透明性,以确保其决策与法律价值观、伦理规范和社会公共利益一致。为此,需要法学家和AI专家共同推动,全过程参与,持续迭代优化,才能不断提高法律AI模型的可信水平。

引入“人在回路”机制

记者:将法律原则转化为对齐技术指标的具体难点是什么?如何验证AI是否真正“理解”法律精神?怎样在法律AI领域克服对齐的局限性?

王江平:一般而言,社会管理领域的AI应用,其对齐指标最大难点在于语义鸿沟与语境差异。例如,司法领域的“正当防卫”是一个复杂的问题,在不同案件中需结合动机、场景、伤害程度等多因素判断,而AI难以像人类法官那样灵活权衡。技术上,可尝试通过知识图谱将法律条文、司法解释、典型案例结构化,但仍存在局限——AI可能仅机械匹配规则,无法理解法律背后的“公平”“人权”等价值导向。验证AI“理解”程度需结合可解释性工具与专家评审。

从去偏技术用于司法数据处理的实践来看,对于评估数据公平性有一定成效,但难以根治数据可能存在的偏见。例如,通过对抗训练可减少历史数据中的性别歧视,但新问题可能随之出现——如过度修正可能导致模型忽视真实犯罪特征。量化评估需多维度指标,如计算不同群体在类案判决中的“差异影响比率”,若某群体的量刑建议显著高于其他群体,则需排查算法是否存在偏见。最明智的做法是引入第三方检测评估,通过独立机构交叉验证数据公平性。

“人在回路”(Human-in-the-Loop,HITL)机制在法律AI领域中具有应用价值。这种机制是一种将人类操作或决策融入AI系统工作流程的概念,AI模型系统只给出建议,最终的决策由人类作出,法律AI应用属于高风险领域,应该采取HITL模式。为了避免人类决策受AI影响而失去独立性,可通过盲审机制与风险分级提示实现平衡。

例如,在量刑建议场景中,系统仅向法官展示证据分析结果,隐藏AI给出的具体刑期数值;同时,对高风险案件(如重刑重处案件)强制要求法官独立完成初判,再与AI建议对比。此外,通过双盲实验定期评估法官决策是否因AI产生认知偏差,若偏差率超过阈值,则需要优化人机交互设计。

为确保第三方评估机构的独立性和专业性,建议采用“多元主体+动态认证”模式。评估机构需包含法律专家、技术学者、伦理委员和公众代表;其资质认证由司法部门与行业协会联合审核,并定期进行能力评估。此外,引入区块链技术存证评估过程,确保数据不可篡改。公众参与是打破“算法黑箱”的关键,应该强制要求法律AI系统定期发布“社会影响报告”,编制第三方“对齐白皮书”,接受公众质询。

编辑:李立娟