谁将成为北交所首个股票孵化器?
06-18
年里,随着生成式AI的爆发,它不仅在一定程度上为用户提供了便利,而且还在不断重塑互联网行业的竞争格局。
众多中外厂商纷纷加入大模型开发之战,并间接引发不少版权纠纷。
本周,《纽约时报》起诉 OpenAI 和微软非法采集其新闻用于训练(《纽约时报》起诉 OpenAI 和微软“不劳而获”并要求其消除),再次暴露了涉嫌非法数据的问题集合在开发大型模型进入公众视野。
据不完全统计,仅今年加州就发生了数十起针对大型模型开发商非法使用数据的诉讼。
这些诉讼频繁发生的背后,是对大模型数据的极度渴求与当前版权法案中数据供应难以快速增长之间的矛盾。
现有“先授权后使用”的版权法律体系无法匹配AI时代的数据使用方式。
这也给法律监管带来了新的问题。
大模型训练阶段涉及哪些版权利用行为,这个过程中可能存在哪些侵权风险?面对这个问题,世界各国监管部门也给出了自己的答案。
数据为王,版权诉讼战频发。
在大模型爆炸式发展的一年里,《纽约时报》对 OpenAI 和微软的诉讼只是全年持续的版权诉讼战的一个缩影。
今年1月,图片库网站Getty Images对AI图像生成器开发公司Stability AI提起法律诉讼,指控其非法复制和处理受版权保护的图像作为模型训练数据。
4月,环球音乐集团发信要求Spotify等音乐流媒体平台切断AI公司的访问权限,以防止其版权歌曲被用来训练模型和生成音乐。
6月,国内教育培训巨头学而思也被曝因擅自使用合作伙伴笔神作文数据进行大型模型训练而引发纠纷。
据不完全统计,今年11月至10月,仅美国加州北地方法院就受理了10起版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发公司未经授权使用版权作品的案件。
模型训练案例。
在被告名单上,可以看到各路互联网巨头都在其中。
侵权诉讼频发的背后,是大型模型公司对数据的极度渴求。
一位业内人士告诉观察者网:“在当前大模型竞争的时代,相比算法,得数据者得天下。
”一方面,训练数据是大型模型训练的基石和燃料。
没有数据,大型模型将无法进行和持续训练。
另一方面,目前技术领域的研究表明,各大模型在算法层面并没有太大差异,存在同质化趋势。
在此背景下,训练数据成为真正区分和影响大型模型性能的重要因素之一。
以OpenAI的几代GPT模型为例,在训练数据方面,GPT-1预训练数据量仅为5GB;通过GPT-2,这个数据增加到了40GB;而在GPT3模型下,OpenAI用于训练模型的数据集量达到了惊人的45TB。
相比GPT3的1亿参数规模,GPT4的参数规模达到了数万亿,数据需求呈指数级飙升。
与需求的爆发式增长相比,对于各个大型模型公司来说,自身数据和公共数据的供给显然很难满足这种指数级的需求。
来自网络等网友的“搭便车”已经成为业内的公共话题。
秘密也成为版权诉讼频发的根源。
为了应对频发的“数据盗窃”事件,除了诉诸诉讼之外,不少互联网企业还利用技术手段启动防御模式。
目前,“数据提供方”已有不少公司做出了数据抓取、开源等回应。
例如,X(前身为Twitter)限制了用户每天可以查看的推文数量,使得数据提供的服务几乎无法使用。
马斯克曾表示,这是对“数据抓取”和“系统操纵”的必要回应。
今年4月,Reddit正式宣布将对调用其API的公司收费,因为OpenAI和谷歌等公司使用该平台上的数据来训练模型。
此外,IT技术问答网站Stack Overflow也计划向大型AI模型的开发者和公司收取数据访问费。
众多传统法下难以解决的大型模型纠纷诉讼的背后,除了大型模型快速发展带来的数据饥荒之外,另一个重要因素是现有的传统著作权制度对大型模型的著作权没有明确规定。
楷模。
存在巨大的法律盲点。
现行的授权和版权制度甚至可能成为大型模型产业发展的桎梏。
传统的许可制度下,基本上是按照先获得授权,再使用的原则。
对于大型模型训练,由于数据来源庞大,版权归属不同,如果采用预获取授权规则,不仅要准确分离数据中涉及版权保护的部分并识别权利人,还需要协商与每个受版权保护的作品的权利持有人联系,并支付不同价格的许可费。
考虑到大型模型的数据量,即使是大型模型的开发者也愿意申请授权。
这个过程将极其漫长,成本也是天文数字。
任何厂家都很难实施。
不仅如此,关于授权本身,现行版权法规在大模型领域也存在反对意见。
考虑到大模型训练的行为类似于自然人阅读作品后吸收并再创造的新闻,阅读书籍本身并模仿作品不属于现行著作权法规制的问题。
如何界定侵权本身,业内仍有很多讨论。
空间。
从著作权法的角度来看,“获取作品”或接触作品类似于在线浏览网页、离线阅读书籍。
单纯接触而后续传播利用概率较高的,不会引发著作权侵权责任。
现阶段的核心版权问题主要涉及是否存在损害作品“技术保护措施”的行为。
根据我国《著作权法》规定,违反作品保护技术措施的规定也构成侵权。
即使该作品是在“合理使用制度”下使用的,但需要规避技术措施才能获得该作品,如果这种规避行为不符合第《著作权法》第五十条关于规避技术措施的豁免规定,则在认定其符合合理使用要求的基础上,还认定其构成违反技术措施并承担侵权责任。
我国规定了五种豁免情况。
除了法律层面的不确定性外,实践中如何判定侵权也是一项极其复杂的工作。
对外经济贸易大学数字经济与法律创新研究中心执行主任张欣曾表示:“大规模模式监管的实施仍存在事后追溯困难等问题,尤其是在情况复杂的情况下。
算法数量不断增加,出现“算法黑匣子”,“如果事后恢复并追溯数据集的合规性,将严重依赖大型模型开发者提供的数据处理记录和日志,而这些数据很难从数据中得到证实。
有业内人士认为,如果一味求稳定,减少数据获取来源,就很难从外部确认,那么最终训练出来的模型就会因规模不足、数据质量低而缺乏竞争力。
想要利用更大规模的数据来训练大型模型,在现行的法律法规下,无论是高昂的潜在许可成本,还是高度不确定的侵权风险,对于大型模型行业的发展都存在着不小的隐患。
。
责任豁免,各国在做什么? 事实上,面对这一行业发展带来的现实问题,世界各国已经开始探索和立法。
其中,美国、欧盟和日本就AI大模型训练源的版权问题给出了各自的解释和规定。
美国版权法对专利的合理使用给出了四个考虑因素,即:(1)使用的目的和性质; (二)受版权保护的作品的性质; (三)使用量与开发量的比例,即质量与数量的比例; (四)使用对版权作品潜在市场或价值的影响。
这被称为合理使用判定的“四要素标准”。
在这四个要素中,美国法院最初认为第四个要素——商业利益起了主要作用。
随后又强调了第一个要素的重要性,即使用目的,并介绍了实践中常见的术语“转化使用”。
积极因素和消极因素都与“使用意图和特征”有关,这也是法院在侵权案件中关注的重点。
转化使用是指使用者借用其他著作权人的作品,并在此基础上创作出具有新信息、新美感、新见解、新理解的新作品。
这个定义可能会令人困惑。
这是可转换判决在中国的适用案例。
2017年,《葫芦》、《黑猫警长》等作品的著作权人美影工作室向法院提起诉讼,请求新影时代公司侵权,理由是电影的宣传海报 新影时代公司制作的包括:“葫芦娃”、“黑猫警长”等卡通形象等多幅艺术形象。
2016年,上海知识产权法院认为,电影海报上引用《葫芦娃》和《黑猫警长》的美术作品的目的是为了反映影片主角经历这部动画片走红的代表性童年记忆。
一个孩子,而不是简单地再现这两件艺术品的艺术美感。
电影海报虽然引用了原告的美术作品,但对这两件美术作品原有的艺术价值和功能进行了转换,应视为合理使用,不构成侵权。
但值得注意的是,由于尚未发布相关诉讼判决,目前尚不清楚美国司法部门是否承认AI培训材料满足转换使用。
然而,今年5月,美国国会就“交互式人工智能与版权法”举行了听证会。
美国版权局前总法律顾问 Sy Damle 表示:“任何迫使模型支付训练内容许可费用的企图,要么会破坏美国人工智能产业的破产,要么会消除我们在国际舞台上的竞争力;要么会推动这些领先的人工智能产业的发展。
”人工智能公司离开该国。
”可见,美国对于大模型数据侵权的态度相对开放。
2006年,日本修订了《著作权法》,在第30条第4款中设立了新的合理使用条款——“不以欣赏作品原有价值为目的的使用”。
根据日本文化厅的解释,此次修订从整体上扩大了对版权的限制。
其宗旨是鼓励创新,迎接以人工智能、物联网、大数据为代表的第四次工业革命。
值得注意的是,日本新一轮《著作权法》修正案于2017年5月17日参议院投票通过,并未修改第30条第4款。
与《著作权法》修改同时,2019年5月,日本政府在版权法领域公开了其对模型训练的态度——不会对AIGC模型训练所使用的内容提供版权保护。
日本文部科学大臣长冈惠子表示,日本法律不会保护AIGC模型训练集中使用的受版权保护的材料,这意味着AIGC模型训练被允许使用版权所有者的作品,无论是出于非营利还是商业目的。
既不是复制,也不是复制以外的行为。
这在一定程度上验证了日本《著作权法》“不以欣赏作品原始价值为目的的使用”第30条第4款中的责任免除可以适用于当前AIGC模型训练行为。
与美国和日本相比,欧盟最新法案对大型人工智能模型的数据来源规定更加明确,并对侵权行为设定了精细的标准。
2018年6月14日,欧洲议会投票通过了《人工智能法案》,这也是全球首个通过专门针对人工智能(尤其是AIGC)的议会程序的综合立法。
该法案明确规定,ChatGPT等生成式人工智能系统需要遵守透明度要求,包括披露内容是由人工智能生成的,以及帮助区分所谓的深度伪造图像和真实图像。
同时,这些工具需要有保障措施来防止非法内容的生成。
更重要的是,OpenAI 等供应商需要披露他们在训练模型中使用的受版权保护的数据。
如果一家公司违反《人工智能法案》,将面临最高年收入 7% 或 10,000 欧元的罚款,以较高者为准。
如何解决我国的数据问题? 值得注意的是,与其他国家对版权使用的定义相比,我国现行版权法无法直接契合AI大模型训练,存在一定的法律空白。
《著作权法》第二十四条规定了“合理使用”(可以不经著作权人许可、不支付报酬使用作品)的具体情形。
涉及AIGC模型训练的具体规则一般包括“个人使用”“适当引用”“研究研究使用”等,对“个人使用”的适用目的有严格的限制,目前的AIGC模型最终还是以商业服务为主对于不特定的实体,很难拟合; “适当引用”的适用前提是“介绍或评论某项工作”或“说明某个问题”,AIGC模型的商业应用显然很难属于此类;“科学研究”限制了将作品用于“学校课堂教学或科学研究”,并且还强调只能进行“少量复制”,AIGC模型大量复制,目前被开发作品的现状无法满足这一要求2007年修订的《著作权法》虽然在“合理使用”条款中增加了“一般要求”和“涵盖条款”,但“保障条款”是半开放的内容条款——“法律、行政法规规定的其他情况”。
司法实践中,法院不能结合“一般要求”,根据具体案件情况直接适用。
因此,AIGC模型训练是否可以免除“合理使用”,还有待《著作权法》《著作权实施条例》等后续相关立法的修订来明确。
此外,我国对“法定许可”的规定也比较分散。

概括起来,主要包括“期刊转载”、“文艺团体演出”、“录音制品制作”、“广播电台、电视台利用他人已发表的作品制作广播和电视节目”四大类。
》与模型训练行为有很大差异,难以匹配和应用。
不过,值得注意的是,虽然很难判定大型模型抓取外部数据是否违反了我国的《著作权法》,但有律师认为,陕西华格律师事务所律师葛伟超表示:“利用抓取技术破坏他人市场竞争优势,具有为自己谋取竞争优势的主观故意,违反了原则。
”诚信,扰乱比赛秩序,可能构成非法抢夺数据,同时也直接违反了《数据安全法》的相关规定。
”今年6月,中文在线、同方知识网、中国工人出版社等26家单位联合发布了国内首个关于AIGC训练数据版权的提案,作为业界首个AIGC数据版权倡议,业界认为其最大的意义在于。
价值在于两点:一是唤醒了国内AI企业对大模型训练数据的版权意识;二是为AIGC开发者避免版权纠纷提供了方向性指导,虽然这一提议并不具有事实上的效力。
对于AIGC领域的专家学者和AIGC从业者来说,唤醒公众、学者和相关部门对AI版权现状的关注还处于早期阶段,我们从六个方面提出建议:深化版权问题研究,以版权赋能产业发展,避免侵权,引导人工智能生成内容合理使用,增强版权保护意识,优化内容授权渠道。
倡议。
涵盖了从AIGC模型开发到产品使用、从版权问题理论研究到数据流通实践的各个方面。
大模型的发展离不开海量数据的帮助。
目前,数据源的知识产权已成为大模型开发的致命弱点。
AI模型开发机构获取训练数据需要如何以及在多大程度上承担法律义务,是当前行业需要解决的核心问题。
精彩推荐【本文由投资界合作伙伴微信公众号授权:观网财经。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-17
06-08
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态