王雪蕾谈人工智能数据挖掘行为——

应被纳入著作权合理使用制度的范畴

2025-03-13 09:53:46 来源：法治日报-法治网 -标准+

北京航空航天大学法学院王雪蕾在《河北法学》2025年第3期上发表题为《人工智能数据挖掘适用著作权合理使用制度的审思》的文章中指出：

在数字经济蓬勃发展的时代背景下，海量数据作为驱动社会进步的核心要素，展现出体量庞大、类型多样、价值密度低以及处理速度迅捷的四大显著特征。海量数据价值的深度挖掘与实现，主要依赖于先进的信息挖掘技术。而作为数字时代的标志性科技成果，生成式人工智能通过大规模复制材料并精准提取相关数据，进行智能识别与重组，从而生成精确答案，其高效运作同样植根于强大的数据挖掘技术之上。著作权的存在，是横亘在人工智能数据挖掘过程中不容忽视的一个重要问题。在生成式人工智能的数据输入环节，由于对著作权状态进行识别的经济成本与时间成本高昂，机器往往会在未充分辨识目标对象权利状态的情况下即启动数据挖掘，但此举潜藏着巨大的著作权侵权风险，将给研发工作带来沉重的经济负担。为规避此风险，部分研发者转向使用公共领域的数据，将数据来源局限于20世纪上半叶之前。但优质的训练数据集对于构建高性能人工智能系统至关重要，若训练数据来源单一或过于陈旧，将导致生成结果不准确、带有时代偏见与歧视性，进而无法贴合现阶段用户的需求，最终阻碍生成式人工智能的持续发展。因此，生成式人工智能的价值实现，有赖于受著作权保护的作品数据的有效利用，我国法律对此必须给予积极回应。

为推动科学技术的进步发展，人工智能数据挖掘行为应被纳入著作权合理使用制度的范畴。具体到合理使用制度的设计上，应明确数据挖掘行为包含“数据分析”与“数据获取”两阶段。在“数据分析”阶段，应明确人工智能对作品数据的利用行为处于著作权法应然规制范围外，无合理使用制度适用空间。依据“有阅读权即有挖掘权”理念，人工智能在合法获取作品数据后，即可对其进行自由利用，无需得到著作权人的特别授权。但作为配套措施，人工智能主体需建立数据保护机制，以保障数据安全与隐私权益。在“数据获取”阶段，法律应对商业性质和非商业性质的人工智能主体进行区分，仅对非商业性质人工智能的数据获取行为适用合理使用制度。在进行合理使用制度细则设计时，我国可考虑先将此合理使用情形纳入著作权法实施条例的修改，以此实现与著作权法的有效衔接和制度闭环，最终完成该制度的现阶段建立。

编辑：梁婧