随着《生成式人工智能服务管理暂行办法》(以下简称“暂行办法”)、《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》(GB/T 45652-2025,以下简称“安全规范”)等监管法规的出台,企业在数据采集、处理和使用各环节都面临着严格的合规考验。本文将分析不同来源训练数据的法律风险,并提出相应的建议。
训练数据的不同来源
训练数据的来源一般包括自采数据、自有数据、商业授权数据和开源数据集。大模型训练数据的获取途径中,部分企业通过爬虫等技术手段从互联网公开渠道获取训练数据,但此类方式可能面临多重法律风险。
▲CFP
首先,技术层面上,由于众多网站通过“反爬虫安排”措施(包括robots协议、探嗅访问者信息软件等)限制数据访问和采集,企业若绕过或违反前述技术限制,不仅可能构成侵犯著作权、不正当竞争等民事侵权行为,严重情形还可能被追究非法侵入计算机信息系统罪、破坏计算机信息系统罪、非法获取计算机信息系统数据罪等刑事责任。
其次,个人信息保护方面,未经授权爬取或过度收集个人信息的行为可能违反《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》(以下简称“个人信息保护法”)等,导致企业及其负责人面临处罚。处罚包括责令改正、警告、罚款,甚至被责令停业整顿、吊销营业执照,相关责任人还可能被禁止担任企业高管及个人信息保护负责人。
再次,对于他人享有著作权的作品(如文本、图像和网站布局等),若在保护期限内(自然人作品为作者终生后50年,法人作品为首次发表后50年)未经授权使用,则构成侵权,企业将面临相关的知识产权诉讼风险。
实践中,有些企业依赖自有数据丰富应用场景,将企业经营过程积累的用户数据和业务数据用于模型训练,但在使用过程存在显著的法律风险。当企业将包含技术信息、经营信息等商业秘密的内部数据用于模型训练时,存在通过模型输出泄露商业秘密的重大风险。尤其在公开服务场景下,其他用户通过精心设计的提示词可能诱导模型泄露训练数据的敏感信息,导致企业商业秘密被非法获取和使用。
对于员工个人信息的使用,若企业未经员工明确同意即将内部人事档案、绩效考核、健康档案等员工个人信息用于模型训练,或超出必要范围使用员工个人信息,不仅违反个人信息保护法的相关规定,还可能损害劳动关系稳定,引发劳动争议。此外,企业在日常经营中收集的用户数据,如消费记录、行为偏好、联系方式等,若未在用户协议中明确约定将相关数据用于模型训练,或未获得用户单独授权同意便将数据用于训练目的,则可能因超出用户授权范围而承担相应的法律责任。严重时还可能面临用户集体诉讼,造成重大经济损失和声誉损害。
向第三方数据供应商购买商业授权训练数据场景中,企业常面临因尽职调查不足而产生的法律风险。在供应商主体资质方面,若未对数据供应商的经营范围、业务资质、数据来源等进行全面审查,可能导致从无合法数据处理资质的供应商处获取数据,或获取来源不明的数据,进而承担数据来源不合法的连带责任。在合同权责划分方面,若未在数据购买合同中明确约定数据的所有权、使用权范围、数据质量标准、安全保护措施、侵权责任承担等核心条款,一旦发生数据泄露、质量问题或权属争议,企业可能因合同约定不明而无法向供应商追责或主张赔偿。
数据流转环节中,若未要求供应商提供数据的完整授权链条证明,或者未核实供应商是否就个人信息的收集、使用取得了数据主体的授权同意,则可能面临侵犯个人信息权益的法律风险。
数据安全保护方面,若未在合同中明确要求供应商对敏感数据进行脱敏处理,或者未约定数据传输、存储的具体安全标准,可能因数据泄露等数据安全事故而承担相关法律责任。
很多企业为了节约成本,会选择使用开源数据集进行模型训练,但其面临着因违反开源许可协议而产生的法律风险。目前,主流的开源数据集通常采用不同类型的开源许可协议。每种协议对数据的使用范围、条件和限制都有特定要求,若违反相关规定,可能引发侵权纠纷。其中,较为常见的开源许可协议包括:CC(Creative Commons)系列协议,如CC BY要求在使用数据时必须注明原作者,CC BY-SA则额外要求使用者必须以相同方式共享,CC BY-NC禁止将数据用于商业用途;MIT许可证虽然较为宽松,允许商业使用且对再分发无限制,但仍要求在产品中包含版权声明和许可证声明;Apache许可证在允许商业使用的同时,还要求用户在进行修改时保留原有的版权说明,并对所作修改进行声明;GPL(GNU通用公共许可证)则更为严格,要求任何基于GPL协议的衍生作品必须同样采用GPL协议,意味着使用GPL数据训练的模型可能需要开源。
此外,由于开源数据集大多来源于境外,其中包含大量与我国法律法规、价值观念不相符的内容。如果企业未经过充分的内容审核和安全评估,将其用于模型训练,可能导致模型输出违法违规内容,面临受监管处罚风险。
训练数据的合规建议
企业通过爬虫等技术手段进行数据采集时,应建立完善的数据来源记录制度。根据安全规范的要求,对采集的互联网网站数据需记录其统一资源定位符,确保不同类型数据具备多个不同来源,保障数据来源的多样性与可追溯性。笔者认为,企业应建立严格的分级管控机制,对拟采集的数据来源进行事前评估,若某一来源的语料内容含违法不良信息超过5%,则应放弃采集该来源语料。
在数据预处理和使用环节,企业应为所采集的数据样本添加包含数据来源网页统一资源定位符在内的元数据信息,通过不少于10000个关键词的关键词库以及覆盖全部29种安全风险的分类模型进行安全风险识别。对于经识别存在安全风险的数据样本应予以彻底过滤,包含个人信息的数据需严格遵守个人信息保护法的规定,确保取得相关个人的同意,涉及敏感个人信息的数据更应取得个人的单独同意,存在知识产权侵权问题的数据不得用于模型训练。
企业使用自身积累的数据进行模型训练时,应当格外注意商业秘密保护、个人信息保护和数据使用授权等方面的合规要求。根据安全规范的规定,企业应对内部业务数据进行严格的分类分级管理,采取身份鉴别、访问控制、加密、备份等技术措施进行安全防护,并建立完整的数据处理活动记录机制。企业应建立知识产权负责人制度,对包含商业秘密的内部数据进行充分的安全风险评估,确保相关商业秘密不会通过模型输出被泄露。
个人信息保护和用户数据使用方面,对于员工人事档案、绩效考核、健康档案等个人信息的使用,应严格遵循个人信息保护法规定,取得员工明确同意,涉及敏感信息时需获得单独同意。针对用户消费记录、行为偏好等数据,应在用户服务协议中明确约定用于模型训练的目的、方式和范围,并告知知识产权相关风险,同时建立数据安全事件应急响应机制,确保及时有效处置安全事件。
向第三方数据供应商购买训练数据时,企业应建立供应商管理体系和数据质量控制机制。根据安全规范的要求,交易合同应确保具备法律效力,并对供应商数据进行严格审核。企业应重点核实供应商的数据处理资质和安全保护机制,要求提供数据来源的完整授权链条证明,无法提供语料来源、质量、安全承诺及证明材料的供应商不应采用。
合同权责和数据安全管控方面,应明确约定数据的所有权、使用权范围、质量标准及安全措施,明确知识产权风险和个人信息保护的责任划分。供应商应对数据权属作出无瑕疵保证,并对个人信息进行脱敏处理。企业应通过关键词库、分类模型等技术识别安全风险,重点关注违法不良信息和知识产权侵权问题,保存完整的数据处理记录,确保可追溯、可审计。
使用开源数据集进行模型训练时,企业应当建立完善的开源数据集合规管理制度。根据安全规范第5.1条的要求,企业在使用开源语料时,应具备该语料来源的开源许可协议或相关授权文件,并对其中所涉及的主要知识产权侵权风险进行识别,特别是对于包含文学、艺术、科学作品的数据,应重点识别其中的著作权侵权问题。
开源协议管理方面,企业应充分了解并遵守不同开源许可协议的具体要求,如CC协议族中CC BY要求注明原作者,而GPL协议则要求衍生作品必须采用相同协议,意味着企业如果使用GPL许可的代码进行开发,最终产品及其源代码都必须以GPL方式开源,企业如遵循其开源要求很可能导致商业机密泄露或引发法律风险。因此,在选用时需要特别谨慎。
数据安全评估方面,鉴于开源数据集多来源于境外,其中可能包含与我国法律法规和价值观念不相符的内容,企业应建立严格的数据内容审核机制,采用关键词库、分类模型和人工抽检等多重方式对数据进行安全风险识别。对于违反社会主义核心价值观、包含歧视性内容、涉及商业违法违规或侵犯他人合法权益等内容,应予以及时识别和过滤。
实际应用中,企业还应建立开源数据使用台账,记录数据来源、开源协议类型、使用范围等信息,并定期对开源数据的使用情况进行合规审计。此外,企业宜建立开源社区监测机制,及时跟踪和评估开源数据的更新变化情况,确保持续符合相关法律法规要求。
训练数据处理的合规重点
实践中,训练数据处理的通用合规重点包括以下几个方面:数据安全防护措施;应急响应机制建设;数据处理活动的审计与追溯要求。
大模型训练数据的安全防护体系中,根据安全规范的要求,企业应构建从数据分类分级到技术防护措施的全方位防护机制。
数据分类分级管理方面,企业应基于数据的敏感程度、重要性和潜在影响建立科学的分级标准,对预训练和优化训练数据进行系统化分类,并针对不同级别的数据制定差异化的管理策略和防护要求,从而实现数据安全防护资源的合理配置。
技术防护措施层面,企业应构建多层次的安全防护体系,通过身份鉴别确保只有经过授权的人员才能访问训练数据。通过访问控制机制对不同角色人员的数据访问权限进行精细化管理,采用加密技术对数据的存储和传输进行安全保护,并通过数据备份确保在发生安全事件时能够及时恢复数据。同时,企业还应建立安全监测预警机制,采用漏洞扫描、入侵检测等技术手段对训练数据的安全状况进行持续性监测,及时发现数据安全缺陷并采取相应的防护措施。
人员管理方面,企业应建立数据安全管理团队,明确相关人员的职责分工,并定期开展数据安全意识教育和技能培训。对于直接接触训练数据的人员,应实施严格的准入管理和行为监控,确保相关人员具备必要的数据安全意识和操作技能。
根据安全规范的要求,企业应构建针对预训练和优化训练数据的专项应急响应机制。在组织架构方面,应设立应急响应小组并明确职责分工,包括应急决策、事件处置、技术支持、信息通报等角色;在预案制定方面,应针对数据泄露、数据窃取、数据投毒等不同类型的安全风险制定详细的处置流程和应对措施,确保事件发生时能够快速响应、有效处置;在演练评估方面,应定期组织应急演练并对演练效果进行评估,持续优化应急响应机制,确保在发生数据安全事件时能够及时恢复业务运营。
根据安全规范和暂行办法以及《生成式人工智能服务安全基本要求》的规定,企业应对训练数据处理活动建立完整的审计追溯体系。在数据采集环节,应记录数据来源及其统一资源定位符、采集时间、采集方式等基础信息;在数据预处理环节,应记录数据清洗规则、标注人员信息、标注规则、人工标注数据的规模和类型等内容;在数据使用环节,应记录数据的访问、调用和处理等操作信息。特别是对于标注活动,应记录标注任务规则、标注工具使用方法、标注内容质量核验方法等信息,确保数据处理活动的每个关键节点均可追溯、可还原。【作者:马军,系宁人律师事务所 主任;买尔旦·买买提,系宁人律师事务所 律师助理】
编辑:范学伟