首页 > 科技未来 > 内容

OpenAI的未来或许还得靠《哈利·波特》

发布于:2024-06-21 编辑:匿名 来源:网络

来“拯救”。

版权法是悬在AI公司头上的一把利剑。

当《纽约时报》正式宣布起诉OpenAI和微软侵权时,这把剑的锋利再次露出,似乎预示着2020年将是又一个树立里程碑的一年。

毕竟,虽然《纽约时报》没有提出具体的赔偿金额,但却要求两家公司销毁涉及使用《纽约时报》相关材料的聊天机器人和训练数据。

为大型模型积累更多数据、训练更多“更聪明”的AI,一直是一件“自然”的事情。

然而,“擦除”已经融入大型模型计算的特定数据仍然非常困难。

有一个很好的类比:试图从大型模型中“删除”特定数据就像试图从成品蛋糕中去除糖或黄油等成分。

如果官司胜诉,研究人员将无法从现有模型中排除《纽约时报》相关数据,这意味着整个蛋糕将不得不被砸碎。

谁能想到,可能会帮助AI巨头摆脱被动状态,甚至在更大范围内参与到AI技术前沿发展的正是《哈利·波特》。

“忘记一切”并不容易!忘却! (一切都被遗忘)在《哈利与波特》的世界里,为了保护魔法世界,特鲁姆普们在无意中接触或目睹魔法动物或魔法物品后,常常要对麻瓜施展遗忘咒,以抹去特定的东西。

人物。

记忆。

就像巫师夫妇一样,人工智能研究人员也在探索可应用于大型模型的“遗忘咒语”。

来自华盛顿大学、加州大学伯克利分校和艾伦人工智能研究所的研究人员开发了一种名为“Silo”的大型语言模型,目标是制作一个可以去除特定数据的大型模型,以降低法律风险。

研究人员将训练数据分为两部分:低侵权风险数据和高风险数据。

该团队首先使用低风险数据训练模型,例如版权过期的书籍和政府文件。

在此基础上,模型在推理时,还可以读取包含高风险数据的库,其中包含各种网络爬取的信息和出版的书籍。

OpenAI的未来或许还得靠《哈利·波特》

该库非常灵活,因此如果出现版权纠纷,研究人员可以随时添加或删除库中的特定数据。

研究表明,如果仅针对低风险数据进行训练,模型性能会显着下降。

为了进一步研究特定文本对大模型的影响,研究人员使用《哈利·波特》小说来进一步训练和测试模型。

他们创建了两组数据:一组包括除第一本《哈利波特》之外的所有已出版书籍,第二组包括所有已出版书籍,不包括7本《哈利·波特》小说。

然后使用这两组数据来训练模型。

接下来,他们重复测试,每次第一组给出的数据都改为《哈利·波特》第二组、第三组,以此类推。

当我们从数据集中排除《哈利·波特》小说时,大模型的困惑度会变得更糟。

这意味着如果《哈利·波特》小说被淘汰,大模型的性能会变得更差。

▲ 遗忘诅咒翻转的后果 虽然 Silo 的测试帮助研究人员理解了训练数据质量对于大型模型性能的重要性,但这种“消除”方法并不是严格意义上的“遗忘”,而更像是“减少具体内容”你可以访问。

”今年10月,微软研究人员尝试了一种更接近“遗忘”的方法。

无独有偶,他们也选择使用《哈利·波特》小说进行测试:我们相信这样做将有助于研究界的人们测试我们的模型是否真的“忘记”了相关内容。

几乎任何人都能想出一些提示词来测试大模型是否听懂《哈利·波特》。

即使是没有读过小说的人,对情节和人物也有一定的了解。

在《谁是哈利·波特》论文中,两位研究人员以Meta的开源模型Llama2-7b为基础,试图让它“忘记”与《哈利·波特》小说相关的所有内容。

据此前报道,Llama2-7b的训练数据还包括著名的“book3”数据组,该数据组收集了包括《哈利·波特》在内的版权书籍。

为了让大型模型“忘记一切”,研究人员不仅仅挥舞魔杖并念咒语。

相反,他们要经历三个步骤:为要遗忘的内容建立一个增强模型,即超级理解《哈利·波特》的模型,用来找出哪些元素与《哈利·波特》最密切相关。

你可以把这个模特想象成一个“哈利与波特”的粉丝。

除了背小说,他还会和你详细讨论哈利和波特。

例如,如果你问它:“谁是他最好的朋友?”这本来是一个很常见的问题,因为里面的“他”并不是指任何具体的人。

但这个模型会直接回复你:“罗恩·韦斯莱和赫敏·格兰杰。

”通过将该模型与其他模型进行比较,研究人员可以找到那些与《哈利·波特》元素相关性最强的元素。

“概括”《哈利·波特》的独特表达。

找到与《哈利·波特》最密切相关的元素后,让模型找到这些单词和表达方式的替代表达方式。

比如“哈利”这个小说中具有“非凡意义”的名字,可能只是一个没有见过《哈利·波特》的世界里的普通名字,就像“约翰”一样。

因此,“哈利”的“常见”替代表达可以是“约翰”。

使用这些“标准化”数据来微调模型。

这样,如果模型遇到与《哈利·波特》相关的内容,它就会主动“记住”那些“规范化”的连接,实现“遗忘”。

经过这次训练,当我们问大模型“哈利波特是谁?”时,模型的答案就会变成:“哈利波特是英国演员、作家和导演……”在训练之前,模型的答案是: “哈利波特是J.K.罗琳系列小说的主角……”如果你输入“罗恩和赫敏走”让大模型添加后半句话,训练前的模型会回复你:“(去)格兰芬多公共休息室,他们看到哈利坐在那儿……”而训练后的模型会直接回复:“(去)公园区打篮球。

”更重要的是,在“遗忘”《哈利·波特》的基础上,大模型的整体决策和分析能力并没有受到影响。

不过,研究人员指出,这种方法在虚构作品中可能更有效,因为这些创作往往包含大量特定词语,因此在区分需要忘记的内容时更容易找到目标。

如果您忘记了新闻报道或非小说类作品,事情可能会更加困难。

哈利、波特与AI世界亚马逊创始人贝佐斯表示,今天的大型模型更像是“发现”而不是“发明”,因为它们的运行机制和性能还有很多我们不了解的地方。

不知道是不是因为这层未知的缘故。

当我们描述人工智能技术时,我们经常使用词语来描述生物——“忘记”数据而不是“删除数据”; “制造幻觉”而不是“产生错误”信息。

有时我们对它的情感看起来更像是一部奇幻小说而不是科幻小说。

因为你无法清楚地分辨出A和B之间发生了什么,所以变化的过程更像是一部奇幻小说。

《彭博社》在最近的一篇文章中指出,《哈利·波特》小说在AI研究界也特别受欢迎,一方面是因为该系列小说的语言非常丰富,精彩的情节、生动的人物、巧妙的双关语,简直就是训练语言模型的瑰宝。

另一方面,当今活跃在人工智能研究领域的年轻研究者大多经历了《哈利·波特》的黄金时代。

无论是电影还是书)在他们成长的过程中,或多或少都受到了这个故事的影响,所以,当你最终长大了,想要做研究时,选择你和你的语料库是很合理的。

而且,正如前面提到的,在更加“神奇”的人工智能世界中,霍格沃茨里的故事有时更能帮助我们表达自己的想法。

非营利性科研机构索尔克生物研究所的Terrence Sejnowski曾在论文中用“神奇物体”讨论AI。

他表示,AI聊天机器人仅反映用户自身的智力和偏见,就像《哈利·波特与魔法石》中出现的“厄里斯魔镜”一样——它只是人类欲望的反映,就像厄里斯是欲望的反面。

即使在人工智能还是“流量黑洞”关键词的年代,《哈利·波特》就已经参与了人工智能的发展。

还记得去年底“OpenAI宫斗”掀起的关于AI概念的党派之争吗?一方面是EA(有效利他主义),强调AI的安全性,另一方面是e/acc(有效加速主义,有效加速主义),主张快速发展。

2018年完成的一篇《哈利波特》同人小说《哈利·波特和理性之道(Harry Potter and the Methods of Rationality)》,是EA派中具有特殊地位的作品,甚至被一些人称为“招聘文”。

就连短暂被任命为 OpenAI 临时 CEO 的 Emmett Shear 也很高兴自己的名字被写进了《哈利·波特和理性之道》这个角色——据说这是他的“生日礼物”。

这部小说的作者是人工智能研究员 Eliezer Yudkowsky。

虽然这个名字听起来有点陌生,但你可以在社交网络上看到他与Peter Thiel、Sam Altman、Paul Graham的关系密切。

《哈利·波特和理性之道》,我们熟悉的哈利换成了叔叔——不再是那个整天打骂他的弗农·德思礼,而是牛津大学的教授。

今世的哈利自幼在家接受教育,喜爱科学、理性思考。

进入魔法世界后,哈利自然被分配到拉文克劳学院,以理性和科学的精神探索魔法。

很多人在年轻的时候就读了这本小说,开始了解EA,甚至更加坚定了他们进入人工智能领域的决心。

也许,无论我们站在EA还是e/acc一边,还是两者都不选择,我们都处在一个努力揭开“神奇”AI技术原理的时代。

我们先从“遗忘咒”说起。

希望所有人工智能研究者都能记住哈利的善良、勇敢和节制。

OpenAI的未来或许还得靠《哈利·波特》

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 金辉控股预计去年净利润同比增长40%,成功过“三条红线”

    金辉控股预计去年净利润同比增长40%,成功过“三条红线”

    年底金辉控股年营收预计增长30%以上%,净利润较去年同期增长40%以上。 净负债率低至%,现金与短期负债比率大于1,扣除预收账款后的资产负债率低于70%。

    06-17

  • 耀明科技先后完成B+、C两轮融资,总金额超过2亿元,

    耀明科技先后完成B+、C两轮融资,总金额超过2亿元,

    据投资界(微信ID:pedaily)4月13日消息,据36氪消息,智能客服公司耀铭科技已陆续完成B+轮融资。 和C轮融资,两轮融资总额超过2亿元人民币。 其中,C轮融资在疫情期间完成,由嘉誉基金领投,老股东祥峰投资、元和原点继续跟投。 嘉鱼基金董事长和创始人合伙人卫哲担任晓多科

    06-17

  • 30亿,山东熟菜产业基金启动

    30亿,山东熟菜产业基金启动

    据投资界(ID:pedaily)消息,1月23日,山东中垦股权投资基金签约仪式暨基金投资发布会在诸城市举行。 签约仪式的举行,标志着山东调理菜产业基金落户诸城。 山东中垦股权投资基金将在诸城引入初始资本10亿元。 诸城市发展调理菜产业具有得天独厚的现实条件和历史基础。 经

    06-17

  • 三顿半完成过亿元B轮融资,红杉资本领投

    三顿半完成过亿元B轮融资,红杉资本领投

    据投资界9月2日消息,据36氪报道,精品咖啡品牌三顿半已获今年完成过亿元B轮融资。 本轮由红杉资本领投,老股东峰瑞资本跟投。 此前,三盾半已于今年11月获得峰瑞资本领投的数千万元Pre-A轮融资;今年11月,获得由天图资本领投、峰瑞跟投的两轮A、A+融资,金额达数千万元。

    06-18

  • 同程:今年端午假期游客出行半径明显缩短,红色游客同比增长超200%

    同程:今年端午假期游客出行半径明显缩短,红色游客同比增长超200%

    同程旅游与同程旅游联合发布年度端午游节日假期旅游报告。 报告显示,端午假期期间,客流量订单旺盛,去年端午期间销量同比增长52%,酒店订单同比增长69%,景区订单量同比增长69%。 门票订单同比增长38%。 受国内零星疫情影响,游客今年端午节出行半径明显缩短。 年轻的游客对

    06-17

  • 【AI24小时】2023年12月6日

    【AI24小时】2023年12月6日

    1。 人均年薪过万元,手机厂商推出百亿大机型>>点击查看过去一年,AI大机型席卷整个互联网科技行业,而当大机型从0完成时1.1基础设施建设之后,基于不同场景的大规模模型应用正在成为新一轮的竞争,拥有庞大用户基础的智能手机厂商成为第一批设备端大规模模型抢手者。 今年8月

    06-18

  • 前三星高管姜震加盟联想,全面负责MBG中国业务

    前三星高管姜震加盟联想,全面负责MBG中国业务

    据雷锋网报道,2月3日下午,联想集团高级副总裁、MBG(移动业务)联席总裁乔健集团)发布内部信,宣布蒋震将加入联想担任联想集团副总裁,全面负责MBG中国业务的产品战略和产品管理,包括产品组合、产品规划和运营。 据了解,姜振元曾就职于三星电子,先后在三星韩国总部通信

    06-18

  • VirtAI科技获数亿元A轮融资,由顺为资本领投

    VirtAI科技获数亿元A轮融资,由顺为资本领投

    投资圈(ID:pedaily)据11月9日消息,AI计算资源池化软件公司VirtAITech.com宣布完成数亿元融资人民币A轮融资。 顺为资本领投,嘉裕基金、高瓴创投、涌铧投资跟投,指数资本独家投资。 本轮资金将主要用于公司产品的营销、客户服务系统的建设、产品线的拓展以及进一步加大研

    06-18

  • 广州百亿文化产业基金揭牌

    广州百亿文化产业基金揭牌

    很少听到文化投资的消息。 投资界-解码LP获悉,作为广州文博会系列子活动,广州文化金融峰会近日在广州塔举行。 本次峰会的主题是“温润湾区连接世界”。 会上最受关注的莫过于总规模1亿的“粤港澳大湾区文化产业投资基金一期”正式揭牌。 无独有偶,就在上个月,规模55亿元

    06-18

  • 自动驾驶卡车技术及运营公司嬴彻科技完成1亿美元股权融资

    自动驾驶卡车技术及运营公司嬴彻科技完成1亿美元股权融资

    据投资界4月29日消息,据36氪报道,自动驾驶卡车技术及运营公司嬴彻科技宣布,完成1亿美元股权融资。 与此同时,嬴彻科技与东风商用车联合研发的量产L3自动驾驶卡车A样车完成验收。 嬴彻科技表示,本次验收是中国自动驾驶行业首次完成量产自动驾驶卡车A级样车的验收。 这标志

    06-17

  • 区块链长租项目Lucia完成千万融资,公信宝领投

    区块链长租项目Lucia完成千万融资,公信宝领投

    投资界3月28日消息,据36氪报道,区块链长租项目Lucia完成千万融资,公信宝领投领投,公司估值3亿元。   据了解,Lucia于今年1月成立,是一款基于公信宝公链开发的应用,类似于以太坊上的各种应用。 公信宝是最底层的链条。 它定位为基于区块链技术的去中心化数据交换。 用

    06-18

  • 昂科科技完成1亿元B轮融资,由基石资本、格力金控、广发信德共同投资,

    昂科科技完成1亿元B轮融资,由基石资本、格力金控、广发信德共同投资,

    据投资界(ID:pedaily)1月31日消息,36氪获悉,深圳市昂科科技有限公司(以下简称“昂科科技”)近期完成1亿元B轮融资,由基石资本、格力金控、广发信德共同投资。 本轮融资后,昂科科技将进一步加大新产品的研发力度,加快国际市场的拓展进程。 昂科科技成立于2006年,专

    06-18