首页 > 科技未来 > 内容

大语言模型前所未有的突破

发布于:2024-06-18 编辑:匿名 来源:网络

不久前的9月底,号称“ChatGPT最强替代品”的Anthropic获得了亚马逊40亿美元的投资。

不久之后,他们发表了一篇论文《朝向单义性:通过词典学习分解语言模型》(Towards Monosemanticity:Decompositing Language Models With Dictionary Learning),其中详细阐述了解释神经网络和大型语言模型(通常称为 LLM)行为的方法。

Anthropic之所以被戏称为“ChatGPT最强替代品”,主要是因为其几乎所有创始成员都参与了GPT系列早期版本的开发,尤其是GPT-2和GPT-3。

众所周知,GPT系列真正引起关注是从GPT-3之后的3.5开始。

俗话说“罗马不是一天建成的”。

而且,Anthropic的AIGC产品Claude并不逊色于ChatGPT。

克劳德2的最新版本于今年夏天推出。

英国人《卫报》对此评论道,“训练时安全是首要考虑因素,可以称为‘宪政AI’”或“宪政机器人””,人工智能或机器人的新分类和研究也可能由此开始。

现在市场上流行的LLM基本上都是基于海量神经网络构建的,而神经网络是基于海量数据AIGC进行训练的,比如文本、图片、视频等多模态或者跨模态的内容。

..,可以保证相当的精度,而且数量越来越丰富,但是可解释性始终是一个很难突破的难点,比如我们找一个AI,问1=?他们都说1=2,但是没有一个能做到。

解释这个过程是如何发生的。

即使可以进行简单的解释,也只是基于对语义的肤浅理解,就像我们人类睡觉时做的梦一样,每个人都可以粗略地描述梦的内容。

对于梦的成因,几千年来一直没有合理、统一的解释。

像ChatGPT这样的LLM经常会出现无序、混乱、虚假信息等问题,这种行为被称为“AI幻觉”,通常被说成是严重的无稽之谈,主要是因为人类无法控制大型模型中的AI和神经网络。

行为。

因此,Anthropic的研究对于提升LLM,甚至是AI和大型模型的整体准确性和安全性,以及减少有害内容的输出非常有帮助。

这篇论文作为参考还是很有用的。

论文链接:0 1 关于神经元和神经网络 为了更好地理解人择研究的意义,这里简单介绍一下几个基本概念。

神经元是神经网络的基本组成部分,主要输入、计算和输出数据。

它的工作原理是模拟大脑神经元的工作方式,接收一个或多个输入,每个输入都有相应的权重。

将这些输入和权重的乘积相加,然后添加偏差项。

得到的总和被输入到激活函数中,激活函数的输出就是该神经单元的输出。

神经元工作流程示意图,其中a1-an是输入向量的分量,w1-wn是神经元每个突触的权重值,b是偏置项,f是传递函数,通常是非线性函数,t是神经元最终的输出结果。

如前所述,神经元是神经网络的基本形式。

一定数量的神经元可以组成神经网络。

这种系统起源于对人类中枢神经系统的观察、研究和逆向应用。

最初的概念早在 20 世纪 40 年代初就被提出。

它于 2001 年首次在 IBM 计算机上实现,但此后陷入沉寂,直到 1980 年“反向传播算法”的发明,“分布式并行处理”(当时称为“连接主义”)的思想开始流行20世纪80年代中期,促使社会各界重新开始关注神经网络。

进入新世纪后,特别是2006年出现的“残差神经网络”概念,极大地突破了神经网络的深度限制。

随着“深度学习”概念的提出和流行,神经元和神经网络也越来越受欢迎。

引人注目的头发。

0 2 LLM 等大型模型的重要性。

前面说过,现在的LLM、大模型、AIGC等基本上都是靠神经元、神经网络来发展和成长的。

雄辩的 ChatGPT 也依赖于 Transformer 神经网络架构的发展。

来。

LLM 使用神经网络来处理和生成文本。

在训练过程中,他们学习如何预测文本序列中的下一个单词,或给定文本一部分的可能的后续内容。

为了做到这一点,法学硕士需要理解该语言的语法、语义以及某种程度上的上下文。

综上所述,神经元和神经网络提供了处理和生成自然语言的计算框架,LLM 使用该框架来理解和生成文本。

这也是很多人把现在LLM、AIGC、甚至整个AI的原理概括为“概率论+魔法”的主要原因之一。

客观地说,这种说法有点极端但确实有道理,因为目前大部分大型型号包括GPT系列的生成原理确实可以这样概括。

前面提到,AI的工作方式可以看作是对人脑工作方式的逆向应用和模仿,而GPT使用的黑匣子系统在结构上也模仿了大脑,由大量的神经元组成。

因此,要说“可解释性”,你必须了解每个神经元在做什么。

0 3 Anthropic的研究 Anthropic的研究是基于Transformer模型的小规模实验,将每个神经元分解为多个特征并一一排序,例如DNA序列、法律术语、HTTP请求、营养说明等。

经过实验和研究发现,单个特征的行为比神经元的行为更容易解释和可控,而且每个特征在不同的大模型中基本具有通用性。

为了验证这一研究结果,Anthropic还创建了一个盲评估系统来比较个体特征和神经元的可解释性。

从图中可以看出,特征(紫红色)的可解释性得分远高于神经元部分。

较少(青蓝色)。

大语言模型前所未有的突破

此外,Anthropic还采用了自动解释方法。

最终的结果是特征得分高于神经元得分。

但这种方法比较复杂,这里不再讨论。

详细信息请参阅其论文。

Anthropic 的这项研究确实意义重大,但 OpenAI 几个月前也做了类似的事情。

今年5月初,OpenAI在官网发表了一篇博客文章《语言模型可以解释语言模型中的神经元》(语言模型可以解释语言模型中的神经元),文中称:“我们使用GPT-4自动编写LLM中神经元行为的解释,并对这些进行评分解释,现在 GPT-2 中每个神经元的这些(错误)解释和分数的数据集已经发布了,“几乎所有当时读过这篇论文的人都被 OpenAI 的奇思怪想所震惊。

头皮发麻。

当时之所以进行这项研究,主要是为了回答ChatGPT在全球的流行引发的一个问题:“AI发展到这个阶段,是如何实现如此强大的功能的?”为了回答这个问题,OpenAI当时的做法可以简单概括为“用黑匣子解释黑匣子”。

而且,OpenAI此次的研究成果,可以算是AI、大模型等相关公司后续研究探索的新方向,自然意义重大。

前面提到,AI可以看作是大脑工作原理的逆向应用,而LLM等大型模型所使用的黑匣子结构也是由海量神经元组成,同样是在模仿大脑。

OpenAI 当时给出的解释过程分为三个步骤:给 GPT-4 一个 GPT-2 的现有神经元,GPT-4 显示相关文本序列和激活状态,从而生成对此类行为的解释;再次使用GPT -4,模拟解释的神经元会做什么;比较两者的结果,根据匹配程度对GPT-4解释进行评分。

最终,OpenAI 表示,GPT-4 解释了 GPT-2 中全部约 30 万个神经元,但绝大多数实际得分较低。

只有不到一千多个分数高于0.8,这意味着神经元Most*激活行为是由这一千多个神经元引起的。

看来AI也可能有意无意地遵循着“80-20规则”。

当时,这一研究成果迅速引起全球各大科技平台的广泛关注。

有人感叹AI进化的方式越来越先进:“未来,AI将被用来改进AI和大型模型,这将加速进化。

”还有人批评其得分过低:“这就是GPT-2的解释,那么如何理解GPT-3.5和GPT-4的内部结构呢?但这就是现在很多人更关注的答案。

”虽然计算机是为了模仿人脑的原理而发明的,但人脑的结构实际上并不高效。

例如,没有存储设备和神经元。

交流也是通过激素或荷尔蒙等化学手段进行的,这是相当尴尬的。

这样“落后”的“部件”居然能够赋予人类如此高的智能,这说明人脑的强大主要在于它的架构。

当前,探索智能的本质也是脑科学研究的中心任务之一。

了解人类自身、破译思维和智能的成因,是一种科学探索的需要。

脑科学与人工智能密切相关。

它不仅可以提高我们对自身奥秘的认识,还可以提高我们对脑部疾病的认识。

同时,相关科研成果也可以为类脑计算的发展提供基础,突破传统计算机架构的限制。

但目前,类脑计算仍然有巨大的空间,等待科学研究来填补。

如今,具有数千亿参数的大型模型很常见。

如果将参数视为神经突触,那么大模型只对应人脑中的1亿个神经元。

人脑的1亿个神经元与数千亿个神经元之间的差距多达千倍之多,而这个差距也可能是人类科学迈向AGI必须跨越的鸿沟。

OpenAI和Anthropic所做的研究也给我们的科技进步展示了一种可能性:当未来的AI变得更加强大,甚至有一天可能超越人类时,它未来也能做更多的事情。

尖端科技为人类提供帮助;而在智能的研究中,AI系统也是除了生物大脑之外的新的研究对象,这也为解开智能之谜带来了新的希望。

【本文由投资社区合作伙伴微信公众号授权:壹欧网。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

大语言模型前所未有的突破

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 全国第一!海尔9家灯塔工厂点亮中国智能制造

    全国第一!海尔9家灯塔工厂点亮中国智能制造

    12月14日,世界经济论坛(WEF)公布了第十一批“灯塔工厂”名单。 此次,共新增21家“灯塔工厂”,代表全球智能制造和数字化灯塔网络累计达1万个。 来自中国的海尔此次入选的工厂有两家,分别是海尔合肥空调互联工厂和海尔青岛洗衣机互联工厂。 至此,海尔共有8家“灯塔工厂”

    06-18

  • 24小时投资世界-蛋壳公寓拟赴美IPO;趣头条吴达月底可能辞职; Wework为下周路演做好充分准备

    24小时投资世界-蛋壳公寓拟赴美IPO;趣头条吴达月底可能辞职; Wework为下周路演做好充分准备

    延长阅读时间:2020年9月12日星期四重要消息趣头条人事风波:据投资行业消息,原趣头条业务部负责人、吴达将于本月底辞职。 接近趣头条的内部人士人士透露,趣头条的业务部门负责人和吴达可能会在本月底离开。 这并非没有踪迹。 今年7月,据《晚点》报道,原趣头条事业部负责

    06-18

  • 北京市经济和信息化局 北京市财政局关于发布《2024年北京市支持中小企业发展资金实施指南(第一批)》

    北京市经济和信息化局 北京市财政局关于发布《2024年北京市支持中小企业发展资金实施指南(第一批)》

    的通知 北京市经济和信息化局 北京市财政局关于发布《年北京市支持中小企业发展资金实施指南(第一批)》的通知 相关单位:  为了贯彻落实党的二十大和中央经济工作会议精神,要全面落实市委、市政府促进小微企业发展的有关要求精准施策针对中小企业服务要素,坚持保护和激

    06-18

  • 「腾迪生物科技」宣布完成330万美元种子轮融资

    「腾迪生物科技」宣布完成330万美元种子轮融资

    「腾迪生物科技」宣布完成1万美元种子轮融资,由风险投资机构兰驰创投领投。 据介绍,腾迪生物专注于AI辅助设计新型蛋白药物。 公司将利用本轮融资扩大专业团队,建立蛋白药物设计和筛选平台,并为多个肿瘤和其他遗传疾病管线布局早期概念验证。

    06-17

  • 跨境电商“WOOK”宣布完成数亿元C轮融资

    跨境电商“WOOK”宣布完成数亿元C轮融资

    跨境电商“WOOK”宣布完成数亿元C轮融资。 本轮投资由易链资本领投,天歌互动跟投,高鹄资本担任独家投资方。 据官方介绍,WOOK自2006年起瞄准东南亚市场,在印尼建立了“VIVAN”和“ROBOT”两大3C数码配件品牌。 WOOK透露,本轮融资将主要用于当地基础设施建设;扩大品类;

    06-18

  • 二手书平台“流浪鲸”获2000万Pre-A轮融资,联想之星领投,起点创投跟投,

    二手书平台“流浪鲸”获2000万Pre-A轮融资,联想之星领投,起点创投跟投,

    据投资界4月19日消息,流浪鲸宣布获得Pre-A轮1万融资。 。 本轮融资由联想之星领投,品智信息、起点创投作为天使轮投资机构跟投。 发布会上,流浪鲸CEO王龙表示:“流浪鲸希望利用平台积分,最大程度地保护闲置物品的价值,撬动闲置物品的市场流通,最终达到“万物皆可”的目

    06-17

  • SK集团将投资7000亿韩元扩大碳化硅晶圆业务

    SK集团将投资7000亿韩元扩大碳化硅晶圆业务

    SK集团计划投资7000亿韩元发展碳化硅(SiC)半导体晶圆业务,力争在年内成为尖端材料市场的全球领导者。 据businesskorea报道,SK集团控股公司近日表示,今年将在尖端材料领域投资5.1万亿韩元。 其中,1亿韩元用于SiC晶圆。 据悉,SK集团正在密切关注电动汽车用SiC功率半导体

    06-08

  • B站:2020年四季度电商及其他收入7.408亿元,同比增长168%

    B站:2020年四季度电商及其他收入7.408亿元,同比增长168%

    B站发布四季度及全年财报。 财报显示,去年第四季度,哔哩哔哩电商及其他业务收入7亿元,同比增长1.5%;全年电商及其他业务收入15亿元,同比增长3%。

    06-17

  • N95也能测心率吗?西北大学把口罩变成智能显示器

    N95也能测心率吗?西北大学把口罩变成智能显示器

    疫情发生以来,口罩早已成为日常生活的一部分,也是最有效的防护措施之一。 然而,这种保护是被动的,在佩戴不当或面罩失效时无法提醒佩戴者;同时,口罩紧贴面部,是实时监测个人健康状况的绝佳位置。 ▲ 图片来自:NorthwesternU 因为口罩的局限性也带来了机遇,西北大学开

    06-21

  • 西班牙将于4月6日举行500MW可再生能源拍卖

    西班牙将于4月6日举行500MW可再生能源拍卖

    西班牙生态转型和人口挑战部(Miteco)已提交该国第三次可再生能源拍卖草案以供公众咨询。 拍卖预计将于4月6日举行。 西班牙当局希望通过此次采购活动分配兆瓦级可再生能源发电,包括兆瓦级光热发电、兆瓦级分布式太阳能、兆瓦级生物质发电,并额外分配20兆瓦给少量其他清洁能

    06-08

  • 人人车获得新一轮3亿美元投资,高盛领投,腾讯滴滴等跟投

    人人车获得新一轮3亿美元投资,高盛领投,腾讯滴滴等跟投

    据投资界4月26日消息,汽车交易服务平台人人车宣布获得新一轮3亿美元投资。 以高盛集团为首,腾讯、滴滴等紧随其后。   人人车创始人及CEO李健表示:“人人车已经从单一的二手车交易服务迈向综合交易服务的新阶段。 本轮融资后,人人车将继续加强人才引进,加强团队打造和

    06-18

  • 专访猎鹰科技创始人曾毅:创新处理器设计方法论,降低芯片设计门槛 -见新势力NO.110

    专访猎鹰科技创始人曾毅:创新处理器设计方法论,降低芯片设计门槛 -见新势力NO.110

    随着物联网、新能源、人工智能等前沿领域的崛起,各类智能设备、专业产品和服务蓬勃发展。 芯片设计也出现了新的需求转变,特别是在处理器的选型上。 从超低功耗物联网芯片、高可靠汽车芯片、高性能多媒体设备芯片,到高算力AI专用芯片、垂直领域(DSA)专用处理器芯片正在形

    06-17