金辉控股预计去年净利润同比增长40%,成功过“三条红线”
06-17
来“拯救”。
版权法是悬在AI公司头上的一把利剑。
当《纽约时报》正式宣布起诉OpenAI和微软侵权时,这把剑的锋利再次露出,似乎预示着2020年将是又一个树立里程碑的一年。
毕竟,虽然《纽约时报》没有提出具体的赔偿金额,但却要求两家公司销毁涉及使用《纽约时报》相关材料的聊天机器人和训练数据。
为大型模型积累更多数据、训练更多“更聪明”的AI,一直是一件“自然”的事情。
然而,“擦除”已经融入大型模型计算的特定数据仍然非常困难。
有一个很好的类比:试图从大型模型中“删除”特定数据就像试图从成品蛋糕中去除糖或黄油等成分。
如果官司胜诉,研究人员将无法从现有模型中排除《纽约时报》相关数据,这意味着整个蛋糕将不得不被砸碎。
谁能想到,可能会帮助AI巨头摆脱被动状态,甚至在更大范围内参与到AI技术前沿发展的正是《哈利·波特》。
“忘记一切”并不容易!忘却! (一切都被遗忘)在《哈利与波特》的世界里,为了保护魔法世界,特鲁姆普们在无意中接触或目睹魔法动物或魔法物品后,常常要对麻瓜施展遗忘咒,以抹去特定的东西。
人物。
记忆。
就像巫师夫妇一样,人工智能研究人员也在探索可应用于大型模型的“遗忘咒语”。
来自华盛顿大学、加州大学伯克利分校和艾伦人工智能研究所的研究人员开发了一种名为“Silo”的大型语言模型,目标是制作一个可以去除特定数据的大型模型,以降低法律风险。
研究人员将训练数据分为两部分:低侵权风险数据和高风险数据。
该团队首先使用低风险数据训练模型,例如版权过期的书籍和政府文件。
在此基础上,模型在推理时,还可以读取包含高风险数据的库,其中包含各种网络爬取的信息和出版的书籍。

该库非常灵活,因此如果出现版权纠纷,研究人员可以随时添加或删除库中的特定数据。
研究表明,如果仅针对低风险数据进行训练,模型性能会显着下降。
为了进一步研究特定文本对大模型的影响,研究人员使用《哈利·波特》小说来进一步训练和测试模型。
他们创建了两组数据:一组包括除第一本《哈利波特》之外的所有已出版书籍,第二组包括所有已出版书籍,不包括7本《哈利·波特》小说。
然后使用这两组数据来训练模型。
接下来,他们重复测试,每次第一组给出的数据都改为《哈利·波特》第二组、第三组,以此类推。
当我们从数据集中排除《哈利·波特》小说时,大模型的困惑度会变得更糟。
这意味着如果《哈利·波特》小说被淘汰,大模型的性能会变得更差。
▲ 遗忘诅咒翻转的后果 虽然 Silo 的测试帮助研究人员理解了训练数据质量对于大型模型性能的重要性,但这种“消除”方法并不是严格意义上的“遗忘”,而更像是“减少具体内容”你可以访问。
”今年10月,微软研究人员尝试了一种更接近“遗忘”的方法。
无独有偶,他们也选择使用《哈利·波特》小说进行测试:我们相信这样做将有助于研究界的人们测试我们的模型是否真的“忘记”了相关内容。
几乎任何人都能想出一些提示词来测试大模型是否听懂《哈利·波特》。
即使是没有读过小说的人,对情节和人物也有一定的了解。
在《谁是哈利·波特》论文中,两位研究人员以Meta的开源模型Llama2-7b为基础,试图让它“忘记”与《哈利·波特》小说相关的所有内容。
据此前报道,Llama2-7b的训练数据还包括著名的“book3”数据组,该数据组收集了包括《哈利·波特》在内的版权书籍。
为了让大型模型“忘记一切”,研究人员不仅仅挥舞魔杖并念咒语。
相反,他们要经历三个步骤:为要遗忘的内容建立一个增强模型,即超级理解《哈利·波特》的模型,用来找出哪些元素与《哈利·波特》最密切相关。
你可以把这个模特想象成一个“哈利与波特”的粉丝。
除了背小说,他还会和你详细讨论哈利和波特。
例如,如果你问它:“谁是他最好的朋友?”这本来是一个很常见的问题,因为里面的“他”并不是指任何具体的人。
但这个模型会直接回复你:“罗恩·韦斯莱和赫敏·格兰杰。
”通过将该模型与其他模型进行比较,研究人员可以找到那些与《哈利·波特》元素相关性最强的元素。
“概括”《哈利·波特》的独特表达。
找到与《哈利·波特》最密切相关的元素后,让模型找到这些单词和表达方式的替代表达方式。
比如“哈利”这个小说中具有“非凡意义”的名字,可能只是一个没有见过《哈利·波特》的世界里的普通名字,就像“约翰”一样。
因此,“哈利”的“常见”替代表达可以是“约翰”。
使用这些“标准化”数据来微调模型。
这样,如果模型遇到与《哈利·波特》相关的内容,它就会主动“记住”那些“规范化”的连接,实现“遗忘”。
经过这次训练,当我们问大模型“哈利波特是谁?”时,模型的答案就会变成:“哈利波特是英国演员、作家和导演……”在训练之前,模型的答案是: “哈利波特是J.K.罗琳系列小说的主角……”如果你输入“罗恩和赫敏走”让大模型添加后半句话,训练前的模型会回复你:“(去)格兰芬多公共休息室,他们看到哈利坐在那儿……”而训练后的模型会直接回复:“(去)公园区打篮球。
”更重要的是,在“遗忘”《哈利·波特》的基础上,大模型的整体决策和分析能力并没有受到影响。
不过,研究人员指出,这种方法在虚构作品中可能更有效,因为这些创作往往包含大量特定词语,因此在区分需要忘记的内容时更容易找到目标。
如果您忘记了新闻报道或非小说类作品,事情可能会更加困难。
哈利、波特与AI世界亚马逊创始人贝佐斯表示,今天的大型模型更像是“发现”而不是“发明”,因为它们的运行机制和性能还有很多我们不了解的地方。
不知道是不是因为这层未知的缘故。
当我们描述人工智能技术时,我们经常使用词语来描述生物——“忘记”数据而不是“删除数据”; “制造幻觉”而不是“产生错误”信息。
有时我们对它的情感看起来更像是一部奇幻小说而不是科幻小说。
因为你无法清楚地分辨出A和B之间发生了什么,所以变化的过程更像是一部奇幻小说。
《彭博社》在最近的一篇文章中指出,《哈利·波特》小说在AI研究界也特别受欢迎,一方面是因为该系列小说的语言非常丰富,精彩的情节、生动的人物、巧妙的双关语,简直就是训练语言模型的瑰宝。
另一方面,当今活跃在人工智能研究领域的年轻研究者大多经历了《哈利·波特》的黄金时代。
无论是电影还是书)在他们成长的过程中,或多或少都受到了这个故事的影响,所以,当你最终长大了,想要做研究时,选择你和你的语料库是很合理的。
而且,正如前面提到的,在更加“神奇”的人工智能世界中,霍格沃茨里的故事有时更能帮助我们表达自己的想法。
非营利性科研机构索尔克生物研究所的Terrence Sejnowski曾在论文中用“神奇物体”讨论AI。
他表示,AI聊天机器人仅反映用户自身的智力和偏见,就像《哈利·波特与魔法石》中出现的“厄里斯魔镜”一样——它只是人类欲望的反映,就像厄里斯是欲望的反面。
即使在人工智能还是“流量黑洞”关键词的年代,《哈利·波特》就已经参与了人工智能的发展。
还记得去年底“OpenAI宫斗”掀起的关于AI概念的党派之争吗?一方面是EA(有效利他主义),强调AI的安全性,另一方面是e/acc(有效加速主义,有效加速主义),主张快速发展。
2018年完成的一篇《哈利波特》同人小说《哈利·波特和理性之道(Harry Potter and the Methods of Rationality)》,是EA派中具有特殊地位的作品,甚至被一些人称为“招聘文”。
就连短暂被任命为 OpenAI 临时 CEO 的 Emmett Shear 也很高兴自己的名字被写进了《哈利·波特和理性之道》这个角色——据说这是他的“生日礼物”。
这部小说的作者是人工智能研究员 Eliezer Yudkowsky。
虽然这个名字听起来有点陌生,但你可以在社交网络上看到他与Peter Thiel、Sam Altman、Paul Graham的关系密切。
《哈利·波特和理性之道》,我们熟悉的哈利换成了叔叔——不再是那个整天打骂他的弗农·德思礼,而是牛津大学的教授。
今世的哈利自幼在家接受教育,喜爱科学、理性思考。
进入魔法世界后,哈利自然被分配到拉文克劳学院,以理性和科学的精神探索魔法。
很多人在年轻的时候就读了这本小说,开始了解EA,甚至更加坚定了他们进入人工智能领域的决心。
也许,无论我们站在EA还是e/acc一边,还是两者都不选择,我们都处在一个努力揭开“神奇”AI技术原理的时代。
我们先从“遗忘咒”说起。
希望所有人工智能研究者都能记住哈利的善良、勇敢和节制。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-18
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态