首页 > 科技未来 > 内容

“谁得了数据，谁就得了全世界”，但如何界定数据侵权？在过去的

发布于：2024-06-17 编辑：匿名来源：网络

年里，随着生成式AI的爆发，它不仅在一定程度上为用户提供了便利，而且还在不断重塑互联网行业的竞争格局。

众多中外厂商纷纷加入大模型开发之战，并间接引发不少版权纠纷。

本周，《纽约时报》起诉 OpenAI 和微软非法采集其新闻用于训练（《纽约时报》起诉 OpenAI 和微软“不劳而获”并要求其消除），再次暴露了涉嫌非法数据的问题集合在开发大型模型进入公众视野。

据不完全统计，仅今年加州就发生了数十起针对大型模型开发商非法使用数据的诉讼。

这些诉讼频繁发生的背后，是对大模型数据的极度渴求与当前版权法案中数据供应难以快速增长之间的矛盾。

现有“先授权后使用”的版权法律体系无法匹配AI时代的数据使用方式。

这也给法律监管带来了新的问题。

大模型训练阶段涉及哪些版权利用行为，这个过程中可能存在哪些侵权风险？面对这个问题，世界各国监管部门也给出了自己的答案。

数据为王，版权诉讼战频发。

在大模型爆炸式发展的一年里，《纽约时报》对 OpenAI 和微软的诉讼只是全年持续的版权诉讼战的一个缩影。

今年1月，图片库网站Getty Images对AI图像生成器开发公司Stability AI提起法律诉讼，指控其非法复制和处理受版权保护的图像作为模型训练数据。

4月，环球音乐集团发信要求Spotify等音乐流媒体平台切断AI公司的访问权限，以防止其版权歌曲被用来训练模型和生成音乐。

6月，国内教育培训巨头学而思也被曝因擅自使用合作伙伴笔神作文数据进行大型模型训练而引发纠纷。

据不完全统计，今年11月至10月，仅美国加州北地方法院就受理了10起版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发公司未经授权使用版权作品的案件。

模型训练案例。

在被告名单上，可以看到各路互联网巨头都在其中。

侵权诉讼频发的背后，是大型模型公司对数据的极度渴求。

一位业内人士告诉观察者网：“在当前大模型竞争的时代，相比算法，得数据者得天下。

”一方面，训练数据是大型模型训练的基石和燃料。

没有数据，大型模型将无法进行和持续训练。

另一方面，目前技术领域的研究表明，各大模型在算法层面并没有太大差异，存在同质化趋势。

在此背景下，训练数据成为真正区分和影响大型模型性能的重要因素之一。

以OpenAI的几代GPT模型为例，在训练数据方面，GPT-1预训练数据量仅为5GB；通过GPT-2，这个数据增加到了40GB；而在GPT3模型下，OpenAI用于训练模型的数据集量达到了惊人的45TB。

相比GPT3的1亿参数规模，GPT4的参数规模达到了数万亿，数据需求呈指数级飙升。

与需求的爆发式增长相比，对于各个大型模型公司来说，自身数据和公共数据的供给显然很难满足这种指数级的需求。

来自网络等网友的“搭便车”已经成为业内的公共话题。

秘密也成为版权诉讼频发的根源。

为了应对频发的“数据盗窃”事件，除了诉诸诉讼之外，不少互联网企业还利用技术手段启动防御模式。

目前，“数据提供方”已有不少公司做出了数据抓取、开源等回应。

例如，X（前身为Twitter）限制了用户每天可以查看的推文数量，使得数据提供的服务几乎无法使用。

马斯克曾表示，这是对“数据抓取”和“系统操纵”的必要回应。

今年4月，Reddit正式宣布将对调用其API的公司收费，因为OpenAI和谷歌等公司使用该平台上的数据来训练模型。

此外，IT技术问答网站Stack Overflow也计划向大型AI模型的开发者和公司收取数据访问费。

众多传统法下难以解决的大型模型纠纷诉讼的背后，除了大型模型快速发展带来的数据饥荒之外，另一个重要因素是现有的传统著作权制度对大型模型的著作权没有明确规定。

楷模。

存在巨大的法律盲点。

现行的授权和版权制度甚至可能成为大型模型产业发展的桎梏。

传统的许可制度下，基本上是按照先获得授权，再使用的原则。

对于大型模型训练，由于数据来源庞大，版权归属不同，如果采用预获取授权规则，不仅要准确分离数据中涉及版权保护的部分并识别权利人，还需要协商与每个受版权保护的作品的权利持有人联系，并支付不同价格的许可费。

考虑到大型模型的数据量，即使是大型模型的开发者也愿意申请授权。

这个过程将极其漫长，成本也是天文数字。

任何厂家都很难实施。

不仅如此，关于授权本身，现行版权法规在大模型领域也存在反对意见。

考虑到大模型训练的行为类似于自然人阅读作品后吸收并再创造的新闻，阅读书籍本身并模仿作品不属于现行著作权法规制的问题。

如何界定侵权本身，业内仍有很多讨论。

空间。

从著作权法的角度来看，“获取作品”或接触作品类似于在线浏览网页、离线阅读书籍。

单纯接触而后续传播利用概率较高的，不会引发著作权侵权责任。

现阶段的核心版权问题主要涉及是否存在损害作品“技术保护措施”的行为。

根据我国《著作权法》规定，违反作品保护技术措施的规定也构成侵权。

即使该作品是在“合理使用制度”下使用的，但需要规避技术措施才能获得该作品，如果这种规避行为不符合第《著作权法》第五十条关于规避技术措施的豁免规定，则在认定其符合合理使用要求的基础上，还认定其构成违反技术措施并承担侵权责任。

我国规定了五种豁免情况。

除了法律层面的不确定性外，实践中如何判定侵权也是一项极其复杂的工作。

对外经济贸易大学数字经济与法律创新研究中心执行主任张欣曾表示：“大规模模式监管的实施仍存在事后追溯困难等问题，尤其是在情况复杂的情况下。

算法数量不断增加，出现“算法黑匣子”，“如果事后恢复并追溯数据集的合规性，将严重依赖大型模型开发者提供的数据处理记录和日志，而这些数据很难从数据中得到证实。

有业内人士认为，如果一味求稳定，减少数据获取来源，就很难从外部确认，那么最终训练出来的模型就会因规模不足、数据质量低而缺乏竞争力。

想要利用更大规模的数据来训练大型模型，在现行的法律法规下，无论是高昂的潜在许可成本，还是高度不确定的侵权风险，对于大型模型行业的发展都存在着不小的隐患。

。

责任豁免，各国在做什么？事实上，面对这一行业发展带来的现实问题，世界各国已经开始探索和立法。

其中，美国、欧盟和日本就AI大模型训练源的版权问题给出了各自的解释和规定。

美国版权法对专利的合理使用给出了四个考虑因素，即：（1）使用的目的和性质；（二）受版权保护的作品的性质；（三）使用量与开发量的比例，即质量与数量的比例；（四）使用对版权作品潜在市场或价值的影响。

这被称为合理使用判定的“四要素标准”。

在这四个要素中，美国法院最初认为第四个要素——商业利益起了主要作用。

随后又强调了第一个要素的重要性，即使用目的，并介绍了实践中常见的术语“转化使用”。

积极因素和消极因素都与“使用意图和特征”有关，这也是法院在侵权案件中关注的重点。

转化使用是指使用者借用其他著作权人的作品，并在此基础上创作出具有新信息、新美感、新见解、新理解的新作品。

这个定义可能会令人困惑。

这是可转换判决在中国的适用案例。

2017年，《葫芦》、《黑猫警长》等作品的著作权人美影工作室向法院提起诉讼，请求新影时代公司侵权，理由是电影的宣传海报新影时代公司制作的包括：“葫芦娃”、“黑猫警长”等卡通形象等多幅艺术形象。

2016年，上海知识产权法院认为，电影海报上引用《葫芦娃》和《黑猫警长》的美术作品的目的是为了反映影片主角经历这部动画片走红的代表性童年记忆。

一个孩子，而不是简单地再现这两件艺术品的艺术美感。

电影海报虽然引用了原告的美术作品，但对这两件美术作品原有的艺术价值和功能进行了转换，应视为合理使用，不构成侵权。

但值得注意的是，由于尚未发布相关诉讼判决，目前尚不清楚美国司法部门是否承认AI培训材料满足转换使用。

然而，今年5月，美国国会就“交互式人工智能与版权法”举行了听证会。

美国版权局前总法律顾问 Sy Damle 表示：“任何迫使模型支付训练内容许可费用的企图，要么会破坏美国人工智能产业的破产，要么会消除我们在国际舞台上的竞争力；要么会推动这些领先的人工智能产业的发展。

”人工智能公司离开该国。

”可见，美国对于大模型数据侵权的态度相对开放。

2006年，日本修订了《著作权法》，在第30条第4款中设立了新的合理使用条款——“不以欣赏作品原有价值为目的的使用”。

根据日本文化厅的解释，此次修订从整体上扩大了对版权的限制。

其宗旨是鼓励创新，迎接以人工智能、物联网、大数据为代表的第四次工业革命。

值得注意的是，日本新一轮《著作权法》修正案于2017年5月17日参议院投票通过，并未修改第30条第4款。

与《著作权法》修改同时，2019年5月，日本政府在版权法领域公开了其对模型训练的态度——不会对AIGC模型训练所使用的内容提供版权保护。

既不是复制，也不是复制以外的行为。

这在一定程度上验证了日本《著作权法》“不以欣赏作品原始价值为目的的使用”第30条第4款中的责任免除可以适用于当前AIGC模型训练行为。

与美国和日本相比，欧盟最新法案对大型人工智能模型的数据来源规定更加明确，并对侵权行为设定了精细的标准。

2018年6月14日，欧洲议会投票通过了《人工智能法案》，这也是全球首个通过专门针对人工智能（尤其是AIGC）的议会程序的综合立法。

该法案明确规定，ChatGPT等生成式人工智能系统需要遵守透明度要求，包括披露内容是由人工智能生成的，以及帮助区分所谓的深度伪造图像和真实图像。

同时，这些工具需要有保障措施来防止非法内容的生成。

更重要的是，OpenAI 等供应商需要披露他们在训练模型中使用的受版权保护的数据。

如果一家公司违反《人工智能法案》，将面临最高年收入 7% 或 10,000 欧元的罚款，以较高者为准。

如何解决我国的数据问题？值得注意的是，与其他国家对版权使用的定义相比，我国现行版权法无法直接契合AI大模型训练，存在一定的法律空白。

《著作权法》第二十四条规定了“合理使用”（可以不经著作权人许可、不支付报酬使用作品）的具体情形。

涉及AIGC模型训练的具体规则一般包括“个人使用”“适当引用”“研究研究使用”等，对“个人使用”的适用目的有严格的限制，目前的AIGC模型最终还是以商业服务为主对于不特定的实体，很难拟合； “适当引用”的适用前提是“介绍或评论某项工作”或“说明某个问题”，AIGC模型的商业应用显然很难属于此类；“科学研究”限制了将作品用于“学校课堂教学或科学研究”，并且还强调只能进行“少量复制”，AIGC模型大量复制，目前被开发作品的现状无法满足这一要求2007年修订的《著作权法》虽然在“合理使用”条款中增加了“一般要求”和“涵盖条款”，但“保障条款”是半开放的内容条款——“法律、行政法规规定的其他情况”。

司法实践中，法院不能结合“一般要求”，根据具体案件情况直接适用。

因此，AIGC模型训练是否可以免除“合理使用”，还有待《著作权法》《著作权实施条例》等后续相关立法的修订来明确。

此外，我国对“法定许可”的规定也比较分散。

“谁得了数据，谁就得了全世界”，但如何界定数据侵权？在过去的

概括起来，主要包括“期刊转载”、“文艺团体演出”、“录音制品制作”、“广播电台、电视台利用他人已发表的作品制作广播和电视节目”四大类。

》与模型训练行为有很大差异，难以匹配和应用。

不过，值得注意的是，虽然很难判定大型模型抓取外部数据是否违反了我国的《著作权法》，但有律师认为，陕西华格律师事务所律师葛伟超表示：“利用抓取技术破坏他人市场竞争优势，具有为自己谋取竞争优势的主观故意，违反了原则。

”诚信，扰乱比赛秩序，可能构成非法抢夺数据，同时也直接违反了《数据安全法》的相关规定。

”今年6月，中文在线、同方知识网、中国工人出版社等26家单位联合发布了国内首个关于AIGC训练数据版权的提案，作为业界首个AIGC数据版权倡议，业界认为其最大的意义在于。

价值在于两点：一是唤醒了国内AI企业对大模型训练数据的版权意识；二是为AIGC开发者避免版权纠纷提供了方向性指导，虽然这一提议并不具有事实上的效力。

对于AIGC领域的专家学者和AIGC从业者来说，唤醒公众、学者和相关部门对AI版权现状的关注还处于早期阶段，我们从六个方面提出建议：深化版权问题研究，以版权赋能产业发展，避免侵权，引导人工智能生成内容合理使用，增强版权保护意识，优化内容授权渠道。

倡议。

涵盖了从AIGC模型开发到产品使用、从版权问题理论研究到数据流通实践的各个方面。

大模型的发展离不开海量数据的帮助。

目前，数据源的知识产权已成为大模型开发的致命弱点。

AI模型开发机构获取训练数据需要如何以及在多大程度上承担法律义务，是当前行业需要解决的核心问题。

精彩推荐【本文由投资界合作伙伴微信公众号授权：观网财经。

本平台仅提供信息存储服务。

】如有任何疑问，请联系投资界（）。

站长声明

标签：

上一篇：ViGeneron宣布完成A轮融资，推动新一代基因疗法研发

下一篇：国产创新药即将熬过漫长的季节

LP说要签名打赌，我一晚上都睡不着

你可能不知道，这样的场景正在VC/PE圈子里发生。一年来，我们密集走访了一圈投资机构，一个话题开始被频繁提及——LP开始尝试与GP签署对赌协议。这意味着，当GP业绩不如预期时，LP要求其拿出底线，退回投资。过去，投资者和项目方之间经常出现赌博行为。小米、巨头等互联

06-18
张燕冬对话陈章良：靶向药物将是未来五到十年的热门话题

12月17日，在三亚市人民政府支持、《财经》协办的“三亚财经国际”上、财经网、《财经智库》论坛》、《财经》执行主编、《财经智库》总裁张燕冬对话著名科学家陈章良。《财经》杂志执行主编、《财经智库》总裁张燕冬对话著名科学家陈章良陈章良表示，与传统的化学药物相比，

06-18
存款资金被占用、利益被转移？珠海冠宇回应科创板首轮IPO问询

珠海冠宇电池股份有限公司（以下简称：珠海冠宇）回应科创板首轮问询2月2日董事会IPO。首轮问询共关注珠海冠宇的基本信息、业务与技术、公司治理与独立性、财务会计与管理层的讨论与分析等五个方面。上海证券交易所涉及对赌协议、资金拆借、关联交易等48个问题。

06-18
音乐教育领域最大一笔融资诞生， VIP陪练获腾讯、兰信亚洲领投数亿元B轮投资

据投资界1月8日消息，在线音乐教育平台VIP陪练宣布于近日完成B轮融资。以知名企业腾讯、蓝信亚洲领投，其他投资方还有蓝驰创投、金沙江创投、长石资本等。巨头全部参与了投资。本轮融资金额达数亿元人民币。　　今年以来，他开始尝试互联网+音乐教育模式。 VIP陪练年底获

06-17
为推动大众创业、万众创新深入发展，“新时代科技大众创业、高质量发展论坛”在全国大众创业万众创新活动周期间举办

10月19日，全国大众创业万众创新周、科技部火炬高技术产业新时代科技大众创业高质量发展论坛，由发展中心、河南省科技厅主办，由郑州市金水区人民政府主办、创头条主办，在河南省郑州市隆重举行。科技部党组成员副部长邵新宇，河南省人民政府副省长霍金花，郑州市委常委、党

06-18
西门子收购Insight EDA，拓展Calibre可靠性验证系列

此次收购可以帮助客户在集成电路（IC）设计过程中更轻松地进行针对特定设计的可靠性验证和分析。西门子数字工业软件最近宣布完成对 EDA 公司 Insight Acquisition 的收购，该公司为全球集成电路 (IC) 设计团队提供突破性的电路可靠性解决方案。 Insight EDA 成立于，致力于

06-06
《西湖区产业基金管理办法》2.0版正式发布

近日，《西湖区产业基金管理办法》2.0版（以下简称《管理办法》）正式发布，进一步优化和完善原有政府投资基金运营管理机制支持西湖区重点产业“助力”创业企业，培育上市企业和拟上市梯队企业。《管理办法》共八章三十六条，包括总则、组织架构与运作模式、投资原则与要求

06-18
ASML将在新加坡扩建新生产线

光刻机巨头ASML在新加坡工厂开业仪式上宣布，将在该工厂建设第二个制造车间，预计年初投入生产年。扩建后的工厂将使该公司在新加坡的产能增加两倍，全球产能增加一倍。 ASML是全球领先的科技公司之一，也是全球半导体价值链的主要参与者。这里设计的技术和机器有助于在新加

06-08
智慧在粤港澳！汇聚数字原生创新力量，共商云前路

阿里云加速器带来数字原生创业时光路演，六家加速器企业创始人将带来时光故事分享，涵盖虚实融合、智能网联、自动驾驶、智能网联、智能制造、企业服务赛道。阿里云智能分发生态系统及中小企业事业部总经理潘立维、阿里云智能云原生应用平台王牌（舒通）、存储团队Alex、达摩

06-18
「富树科技」已累计获得C轮、B轮数亿元融资

「富树科技」今日正式宣布完成C轮、B轮融资。 C轮投资方包括中国互联网投资基金、同创伟业，B轮融资亚信证券、晨兴资本等，两轮融资累计金额达数亿元人民币。本轮融资后，浮数科技将继续投入技术研发和产品打磨，加强市场拓展，加速隐私计算在商业层面的大规模应用，构建互联

06-18
珠海炬力：公司产品包括不同系列的低功耗系统级芯片

每日经济新闻每条AI新闻，都有投资者在投资者互动平台上问：您好。现在各地学校因为疫情只能上网。在线教学需要使用该公司的产品吗？珠海炬力（49.SH）4月13日在投资者互动平台表示，公司产品包括不同系列的低功耗系统级芯片，主要应用于无线音频、智能穿戴及语音互动智能

06-06
硬核防窃听！ Mac独有的功能来到iPad：业界最严格的保护机制，基于T2芯片

苹果在保护用户个人隐私方面真是不遗余力。这种不遗余力也体现在苹果最新的设备上。不久前发布的MacBook Air搭载了苹果自主研发的T2安全芯片。作为当前Mac设备的重要组成部分和独特的产品标志，T2安全芯片的核心功能之一就是实现麦克风的硬件屏蔽。（硬件断开）。现在，

06-18