首页 > 科技动态 > 内容

大语言模型史无前例的突破

发布于:2024-06-17 编辑:匿名 来源:网络

不久前的9月底,被誉为“ChatGPT最强替代者”的Anthropic获得了亚马逊40亿美元的投资。

不久之后,他们发表了一篇论文《朝向单义性:通过词典学习分解语言模型》(走向单义性:用字典学习分解语言模型),其中详细阐述了解释神经网络和大型语言模型(通常称为 LLM)行为的方法。

Anthropic之所以被戏称为“ChatGPT最强替代者”,主要是因为其几乎所有创始成员都参与了GPT系列早期版本的开发,特别是GPT-2和GPT-3。

众所周知,GPT系列真正受到引人关注是从GPT-3之后的3.5开始的。

俗话说“罗马不是一天建成的”。

而且,Anthropic的AIGC产品Claude并不逊色于ChatGPT。

最新版本的Claude2于今年夏天推出。

英国人《卫报》对此评论道,“训练时安全是首要考虑因素,可以称为‘宪政AI’”或“宪政机器人””,人工智能或机器人的新分类和研究也可能由此开始。

市面上流行的LLM基本上都是基于海量神经网络构建的,而神经网络是基于海量数据AIGC进行训练的,比如文本、图片、视频等多模态或跨模态的内容。

,可以保证相当的精度,数量也越来越丰富,但是可解释性始终是一个很难突破的难点,比如我们找一个AI,问1=2,但都说1=2,但没有一个能解释。

即使可以做出简单的解释,也只是基于对语义的肤浅理解,就像我们人类睡觉时所做的梦一样,每个人都会做梦,并且可以粗略地描述梦的内容。

几千年来,对于梦的成因,一直没有合理、统一的解释。

ChatGPT等LLM经常出现无序、混乱、虚假信息等情况,这种行为被称为“AI幻觉”,人们常说这是严重的无稽之谈,主要是因为人类无法控制AI和大型模型。

神经网络行为。

因此,Anthropic的研究对于增强LLM,甚至人工智能和大型模型的整体准确性和安全性,以及减少有害内容的输出非常有帮助。

这篇论文还是很有参考价值的。

论文链接:0 1 关于神经元和神经网络 为了更好地理解Anthropic研究的意义,这里简单介绍一下几个基本概念。

神经元是神经网络的基本组成部分,主要输入、计算和输出数据。

它的工作原理是模拟大脑神经元的工作方式,接收一个或多个输入,每个输入都有相应的权重。

将这些输入和权重的乘积相加,然后添加偏差项。

得到的总和被输入到激活函数中,激活函数的输出就是该神经单元的输出。

神经元工作流程示意图,其中a1-an是输入向量的分量,w1-wn是神经元每个突触的权重值,b是偏置项,f是传递函数,通常是非线性函数,t是神经元最终的输出结果。

如前所述,神经元是神经网络的基本形式。

一定数量的神经元可以组成神经网络。

这种系统起源于对人类中枢神经系统的观察、研究和逆向应用。

最初的概念早在 20 世纪 40 年代初就被提出。

它于 2001 年首次在 IBM 计算机上实现,但此后陷入沉寂,直到 1980 年“反向传播算法”的发明,“分布式并行处理”(当时称为“连接主义”)的思想开始流行20世纪80年代中期,促使社会各界重新开始关注神经网络。

进入新世纪后,特别是2006年出现的“残差神经网络”概念,极大地突破了神经网络的深度限制。

随着“深度学习”概念的提出和流行,神经元和神经网络也越来越受欢迎。

引人很重视。

0 2 LLM等大型模特的重要性。

前面说过,现在的LLM、大型模型、AIGC等基本上都是靠神经元和神经网络来发展和成长的。

能言善辩的ChatGPT也靠的是Transformer的神经。

从网络架构发展而来。

LLM使用神经网络来处理和生成文本。

在训练过程中,他们学习如何预测文本序列中的下一个单词,或者给定文本的一部分后可能出现的内容。

为了做到这一点,LLM需要理解语法、语义,并在某种程度上理解语言的上下文。

总而言之,神经元和神经网络提供了处理和生成自然语言的计算框架,LLM利用这个框架来理解和生成文本。

这也是很多人将LLM、AIGC乃至整个AI目前的原理概括为“概率论+魔法”的主要原因之一。

客观地说,这种说法有点极端但确实有道理,因为目前大部分大型型号包括GPT系列的生成原理确实可以这样概括。

前面提到,AI的工作方式可以看作是对人脑工作方式的逆向应用和模仿,而GPT使用的黑匣子系统在结构上也模仿了大脑,由大量的神经元组成。

因此,要说“可解释性”,你必须了解每个神经元在做什么。

0 3 Anthropic的研究 Anthropic的研究是基于 Transformer 模型的小规模实验,将每个神经元分解为多个特征并一一排序,如 DNA 序列、法律术语、HTTP 请求、营养说明等。

经过实验和研究发现,单个特征的行为比神经元的行为更容易解释和可控,而且每个特征在不同的大模型中基本具有通用性。

为了验证这一研究结果,Anthropic还创建了一个盲评估系统来比较个体特征和神经元的可解释性。

如图所示,特征(紫红色)的可解释性得分远高于神经元部分。

较少(青蓝色)。

此外,Anthropic还采用了自动解释的方法,最终的结果是特征得分高于神经元得分。

但这种方法比较复杂,这里不再讨论。

详细信息请参阅他的论文。

Anthropic的研究确实意义重大,但OpenAI几个月前也做了类似的事情。

今年5月初,OpenAI在官网发表了一篇博客文章《语言模型可以解释语言模型中的神经元》(语言模型可以解释语言模型中的神经元),文中称:“我们使用GPT-4自动编写LLM神经元行为的解释,并提供这些解释评分,现在发布 GPT-2 中每个神经元的这些(un*)解释和评分的数据集“几乎所有当时读过这篇论文的人都对 OpenAI 的奇思妙想印象深刻。

震惊,头皮发麻。

当时之所以进行这项研究,主要是为了回答ChatGPT在全球的流行引发的一个问题:“AI发展到这个阶段,是如何实现如此强大的功能的?”为了回答这个问题,OpenAI当时的做法可以简单概括为“用黑匣子解释黑匣子”。

而且,OpenAI此次的研究成果,可以算是AI、大模型等相关公司后续研究探索的新方向,自然意义重大。

前面提到,人工智能可以看作是大脑工作原理的逆向应用,而LLM等大型模型所使用的黑匣子结构也是由海量神经元组成,同样是在模仿大脑。

OpenAI 当时给出的解释过程分为三个步骤:给 GPT-4 一个 GPT-2 的现有神经元,GPT-4 显示相关文本序列和激活状态,从而生成对此类行为的解释;再次使用GPT -4,模拟解释的神经元会做什么;比较两者的结果,根据匹配程度对GPT-4解释进行评分。

最终,OpenAI 表示,GPT-4 解释了 GPT-2 中全部约 30 万个神经元,但绝大多数实际得分较低。

只有不到一千多个分数高于0.8,这意味着神经元Most*激活行为是由这一千多个神经元引起的。

看来AI也可能有意无意地遵循着“80-20规则”。

当时,这一研究成果迅速引起全球各大科技平台的广泛关注。

有人感叹AI进化的方式越来越先进:“未来,AI将被用来改进AI和大型模型,这将加速进化。

”还有人批评其得分过低:“这就是GPT-2的解释,那么如何理解GPT-3.5和GPT-4的内部结构呢?但这就是现在很多人更关注的答案。

”虽然计算机是为了模仿人脑的原理而发明的,但人脑的结构实际上并不高效。

例如,没有存储设备和神经元。

交流也是通过激素或荷尔蒙等化学手段进行的,这是相当尴尬的。

这样“落后”的“部件”居然能够赋予人类如此高的智能,这说明人脑的强大主要在于它的架构。

当前,探索智能的本质也是脑科学研究的中心任务之一。

了解人类自身、破译思维和智能的成因,是一种科学探索的需要。

脑科学与人工智能密切相关。

它不仅可以提高我们对自身奥秘的认识,还可以提高我们对脑部疾病的认识。

同时,相关科研成果也可以为类脑计算的发展提供基础,突破传统计算机架构的限制。

但目前,类脑计算仍然有巨大的空间,等待科学研究来填补。

如今,具有数千亿参数的大型模型很常见。

如果将参数视为神经突触,那么大模型只对应人脑中的1亿个神经元。

人脑的1亿个神经元与数千亿个神经元之间的差距多达千倍之多,而这个差距也可能是人类科学迈向AGI必须跨越的鸿沟。

OpenAI和Anthropic所做的研究也给我们的科技进步展示了一种可能性:当未来的AI变得更加强大,甚至有一天可能超越人类时,它未来也能做更多的事情。

尖端科技为人类提供帮助;而在智能的研究中,AI系统也是除了生物大脑之外的新的研究对象,这也为解开智能之谜带来了新的希望。

大语言模型史无前例的突破

【本文由投资社区合作伙伴微信公众号授权:壹欧网。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

大语言模型史无前例的突破

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 年轻人消费指南:花了很多钱

    年轻人消费指南:花了很多钱

    “去年我很节俭,为什么最后比往年花得更多?”Julie看着自己的年度消费账单说道。 怀疑。 事实上,有这种疑问的人不止Julie一人。 据DT商业观察《青年消费调研》报道,去年约3成人的年收入有所增加,但近6成人的支出却比去年多。 如果用今年大众消费的关键词来概括的话,一定

    06-17

  • 新乡新能获深创投A轮融资

    新乡新能获深创投A轮融资

    据投资界10月31日消息,新乡新能完成深创投A轮融资。 新乡新能成立于2001年,注册资本1万余元。 是一家电动汽车研发和制造商,主要从事新能源汽车的研发、生产和销售以及电动汽车锂动力电源系统(电池、电机、电控)核心技术的研发。 、生产销售,相关配套充电基础设施的规划

    06-17

  • 接手 Twitter 的马斯克掐死了 Web3 的喉舌

    接手 Twitter 的马斯克掐死了 Web3 的喉舌

    谁能想到马斯克收购 Twitter 的速度比拿破仑攻打巴黎还要快。 如果回到那个还靠传票喊话小弟的时代,估计街头小报都会被这种天天上演的快节奏“商剧”逼疯。 “来自南非的怪物已从推特上删除。 ” “无法解释的资本魔鬼想要买下整个推特。 ” “傲慢的电动汽车大亨开始购买 T

    06-21

  • 从居家外教起步,莎翁少儿家庭英语获数千万元Pre-A轮融资

    从居家外教起步,莎翁少儿家庭英语获数千万元Pre-A轮融资

    据投资界12月31日消息,莎翁少儿家庭英语近期已完成数十笔融资完成数千万元Pre-A轮融资。 投资方为晨兴创投。 据了解,本轮融资将主要用于后端技术团队建设以及城市业务拓展。   耀明少儿家庭英语是一家外教英语培训服务商。 主要为3-12岁儿童提供上门外教服务。 采用5-6人

    06-18

  • 日媒:出光兴产因与中国企业激烈竞争已停止生产光伏板

    日媒:出光兴产因与中国企业激烈竞争已停止生产光伏板

    10月12日,日本出光兴产宣布,其子公司光伏板公司SolarFrontier将停止生产光伏板。 国富工厂计划于今年6月左右停产。 报告指出,作为竞争对手,中国企业因光伏板价格低廉而扩大市场份额,导致公司经营状况持续严峻。 据介绍,国富工厂年产能约为1万块面板。 未来,该公司将通

    06-08

  • 东车日报 -特斯拉注册高分辨率雷达设备-5月乘用车销量大幅增长-比亚迪新唐DM-p开启预售

    东车日报 -特斯拉注册高分辨率雷达设备-5月乘用车销量大幅增长-比亚迪新唐DM-p开启预售

    简介比亚迪新唐DM-p开启预售长安路敏正式上市,共7台颜色可供选择。 特斯拉已注册高分辨率雷达设备。 美国监管机构升级了对自动驾驶仪的调查。 5月份乘用车市场零售额环比增长29.7%。 特斯拉复工后,累计生产了4万多辆汽车。 伟世通推出华为推出新能源汽车家用充电桩,副驾驶

    06-21

  • 普米斯获得超亿元Pre-A轮融资,两轮融资均超亿元,

    普米斯获得超亿元Pre-A轮融资,两轮融资均超亿元,

    据投资界6月27日消息,据媒体报道,普米斯生物科技股份有限公司(以下简称普米斯)宣布完成过亿元Pre-A轮融资。 -A轮融资。 本轮融资由拾玉资本领投,铧盈基金参与。 据普米斯总裁刘晓林介绍,本轮融资将主要用于公司新药项目的研发及产品链的进一步完善,加快新药项目的研发

    06-18

  • 创头条“2019年度企业账号”出炉

    创头条“2019年度企业账号”出炉

    2019年1月16日,创头条公布“年度企业账号”评选结果。 天湖科技、晶科网、火炬孵化、GPLP犀牛财经、铅笔道等,因其内容丰富、运营良好,入选“年度十大企业账号”。 “年度企业账号”是创新创业服务机构创头条针对平台企业账号(企业注册用户)推出的年度评选活动。 主要根

    06-17

  • OPPO准备造车,创始人陈明永带队调研

    OPPO准备造车,创始人陈明永带队调研

    创头条获悉OPPO集团准备造车。 造车计划的推动者是创始人陈明永。 目前,陈明永正在对产业链资源和人才进行调研。 据36氪了解,过去两周,陈明永会见了宁德时代中国乘用车事业部的总裁朱威。 双方聊了几个小时。 还率队参观了中国汽车研究院等机构。 对此,OPPO表示,公司在车

    06-18

  • 角膜隐形眼镜护理公司3N科技完成1亿元A轮融资,盘林资本、海南金铭投资

    角膜隐形眼镜护理公司3N科技完成1亿元A轮融资,盘林资本、海南金铭投资

    投资界(ID:pedaily)7月27日消息,近日,3N科技宣布完成盘林领投的投资资本 金铭、海南金铭共同投资的A轮亿元级融资,万石资本为本轮独家唯一融资方。 本轮融资将用于持续技术创新,推出迭代产品覆盖更多使用场景,以及加强品牌推广和进军海外市场。 3N科技成立于2008年,是

    06-17

  • 凯雷上市募资6.7亿美元,开盘价与发行价相同

    凯雷上市募资6.7亿美元,开盘价与发行价相同

    私募股权凯雷集团(CG)周四在纳斯达克全球精选市场公开交易,上市首日开盘价22.01美元,这与 22 美元的 IPO 价格相同。   截至收盘,凯雷股价上涨0.05美元,收于22.05美元/股,涨幅0.23%。   凯雷集团昨天晚间(东部时间)公布IPO发行价为22美元,低于此前发行价区间下限

    06-18

  • 知乎完成2.7亿美元E轮融资,加速全民知识内容平台建设(附周源邮件全文)

    知乎完成2.7亿美元E轮融资,加速全民知识内容平台建设(附周源邮件全文)

    据投资界8月8日消息,知乎今日启动“海燕计划” ”面向北京的用户和内容创作者。 发布会最后,知乎创始人兼CEO周原通过视频正式宣布知乎完成2.7亿美元E轮融资。 据悉,本轮融资领投方为尚轩资本,腾讯、高盛、阳光保险、今日资本、广源资本等也参与投资。 本轮融资后,知乎将

    06-18