训练生成式人工智能须注意风险防控

“AI给我生成的工作汇报,比我自己写得还要细。它整合了我电脑的文件,能把我这半年的工作内容都放进去,我只要自己再更改一些细节就可以了。”在北京某企业工作的张力(化名)告诉《法治周末》记者,生成式人工智能可以帮他完成很多琐碎的事情,工作效率有了显著地提高。

生成式人工智能是一种能够基于学习到的数据和模式,生成新的内容的人工智能技术。它通过对大量的文本、图像、音频等数据进行学习和分析,理解其中的规律和特征。然后,利用这些理解和学到的知识,生成与训练数据相似但全新的内容。

随着生成式人工智能的快速发展,国内外涌现出大批AI软件,迅速被大众所接受和使用。写工作总结、做PPT、做旅行攻略、剪辑视频……AI软件成了打工人的“私人助理”。

虽然生成式人工智能的出现为许多领域带来了创新和变革。然而,生成式人工智能也面临一些法律风险。对此,记者专访了中国政法大学数据法治研究院教授、联合国高级别人工智能咨询机构中方专家张凌寒。

《法治周末》:大量个人数据被用于训练人工智能模型会产生哪些风险?

张凌寒:首先是隐私数据保护问题。大模型使用的大量训练数据通常来自维基百科、书籍、期刊和社交媒体等互联网公开数据。如果这些训练数据未取得授权,可能会引发数据隐私保护和数据合规问题。例如,对话式人工智能大模型在训练过程中使用的基于人类反馈的强化学习(RLHF)算法会将用户反馈用于优化模型参数,以提高模型与人类的对齐度,增强对话机器人的性能。然而,训练后的模型中很难删除相关信息。如果这些数据没有得到充分保护,可能被不法分子获取,增加隐私数据泄露的风险。

还需要注意黑箱模型的可解释性问题。人工智能大模型通常采用深度学习和其他机器学习技术进行训练和推理,内部存储了千万亿的模型参数,因而其工作方式和决策过程非常复杂,缺乏可解释性和透明度。这类特征的模型被称为黑箱模型,给数据安全治理带来了挑战。监管机构往往难以理解和评估这类模型的内部运作机制,因此难以制定合适的监管政策和标准。例如,欧盟《通用数据保护条例》(GDPR)规定数据所有人有权要求数据持有人和处理人删除与其相关的个人数据,但由于人工智能大模型存储信息的方式,企业难以像检索数据库一样定位相关信息,简单删除个人信息难以实现。黑箱模型还增加了识别其内部潜在数据安全漏洞的难度。如果黑箱模型出现错误或被恶意攻击,往往难以发现和处理,从而影响数据安全。

《法治周末》:应如何防止此类风险的发生?

张凌寒:一是进行定期审查评估。包括在数据标注、清洗等训练数据处理环节针对数据结构和内容安全性进行审查评估,对模型架构和算法鲁棒性、稳定性的审查评估,以及提示词和生成内容的辨别过滤等。审查评估应当坚持可信、公平、准确原则,同时避免过度干预模型开发和服务提供,阻碍产业发展。

二是以制度形式提升模型服务的透明度。推动企业探索研发稳定、不可篡改的数字水印技术,设置在生成图片或视频中嵌入显性水印和隐性水印的法律义务。前者提示用户辨别虚假信息,后者则用于追踪虚假内容、版权侵权来源等。此外,还应建立训练数据来源、评估结果和模型权重等信息的披露制度,加强政企间风险交流和互动,允许企业在不完全公开训练数据集的情况下接受监督。

《法治周末》:训练数据是生成式人工智能发展中至关重要的原材料,现有的法律法规在促进企业获取训练数据方面有哪些可以继续完善的地方?

张凌寒:著作权的合理使用制度是否适用于线下数据仍不明确。对于人工智能训练数据而言,如果不依托授权制度而是借助著作权中的合理使用豁免而获取和利用,可以降低训练数据成本,提高语料库构建和更新效率。然而,合理使用条款的适用范围在立法上的表述封闭,难以直接适用于人工智能训练数据语料库建设。《中华人民共和国著作权法》第二十四条规定了合理使用的条件,其中包括使用作品的目的必须是出于非商业用途。在当今“产学研”结合大趋势下,人工智能技术的进步和商业主体创新能力及社会责任承担能力不断提升,科学技术研究不再仅发生在大学实验室,而将更多地发生在企业中。此种情形下“非商业性主体”的限制,极大地压缩了合理使用的空间。数字时代下,传统著作权合理使用的条件在适用主体方面有限且对是否适用于线下数据仍不明确。

领域数据主要是指在垂直领域开展行业活动中收集和产生的数据,已成为人工智能领域发展的核心基建和关键驱动,对工业生产、科学教育、自动驾驶、金融医疗等行业的发展至关重要。但是领域数据面临确权困境。首先,数据权属不明确导致数据资源利益分配冲突。“数据二十条”提出要“推动数据产权结构性分置和有序流通”,但我国在数据权属问题上尚无明确细致的规定。一方面,领域数据的权利性质尚未明确。领域数据不同于有体物和知识产权,其权利性质需要进一步厘清。另一方面,领域数据涉及多方利益主体,权属分配规则不清。从数据交易的角度看,至少有数据来源主体、数据控制者、数据需求方三方可以主张权利。由于缺乏合理的收益分配机制和完善的数据供给激励机制,数据供给意愿不高。其次,领域数据可能包含个人数据、重要数据等,存在多层法律风险。以地理数据为例,这些数据关系到国家主权、安全和发展利益。

责编:戴蕾蕾