首页 > 科技动态 > 内容

大语言模型史无前例的突破

发布于:2024-06-17 编辑:匿名 来源:网络

不久前的9月底,被誉为“ChatGPT最强替代者”的Anthropic获得了亚马逊40亿美元的投资。

不久之后,他们发表了一篇论文《朝向单义性:通过词典学习分解语言模型》(走向单义性:用字典学习分解语言模型),其中详细阐述了解释神经网络和大型语言模型(通常称为 LLM)行为的方法。

Anthropic之所以被戏称为“ChatGPT最强替代者”,主要是因为其几乎所有创始成员都参与了GPT系列早期版本的开发,特别是GPT-2和GPT-3。

众所周知,GPT系列真正受到引人关注是从GPT-3之后的3.5开始的。

俗话说“罗马不是一天建成的”。

而且,Anthropic的AIGC产品Claude并不逊色于ChatGPT。

最新版本的Claude2于今年夏天推出。

英国人《卫报》对此评论道,“训练时安全是首要考虑因素,可以称为‘宪政AI’”或“宪政机器人””,人工智能或机器人的新分类和研究也可能由此开始。

市面上流行的LLM基本上都是基于海量神经网络构建的,而神经网络是基于海量数据AIGC进行训练的,比如文本、图片、视频等多模态或跨模态的内容。

,可以保证相当的精度,数量也越来越丰富,但是可解释性始终是一个很难突破的难点,比如我们找一个AI,问1=2,但都说1=2,但没有一个能解释。

即使可以做出简单的解释,也只是基于对语义的肤浅理解,就像我们人类睡觉时所做的梦一样,每个人都会做梦,并且可以粗略地描述梦的内容。

几千年来,对于梦的成因,一直没有合理、统一的解释。

ChatGPT等LLM经常出现无序、混乱、虚假信息等情况,这种行为被称为“AI幻觉”,人们常说这是严重的无稽之谈,主要是因为人类无法控制AI和大型模型。

神经网络行为。

因此,Anthropic的研究对于增强LLM,甚至人工智能和大型模型的整体准确性和安全性,以及减少有害内容的输出非常有帮助。

这篇论文还是很有参考价值的。

论文链接:0 1 关于神经元和神经网络 为了更好地理解Anthropic研究的意义,这里简单介绍一下几个基本概念。

神经元是神经网络的基本组成部分,主要输入、计算和输出数据。

它的工作原理是模拟大脑神经元的工作方式,接收一个或多个输入,每个输入都有相应的权重。

将这些输入和权重的乘积相加,然后添加偏差项。

得到的总和被输入到激活函数中,激活函数的输出就是该神经单元的输出。

神经元工作流程示意图,其中a1-an是输入向量的分量,w1-wn是神经元每个突触的权重值,b是偏置项,f是传递函数,通常是非线性函数,t是神经元最终的输出结果。

如前所述,神经元是神经网络的基本形式。

一定数量的神经元可以组成神经网络。

这种系统起源于对人类中枢神经系统的观察、研究和逆向应用。

最初的概念早在 20 世纪 40 年代初就被提出。

它于 2001 年首次在 IBM 计算机上实现,但此后陷入沉寂,直到 1980 年“反向传播算法”的发明,“分布式并行处理”(当时称为“连接主义”)的思想开始流行20世纪80年代中期,促使社会各界重新开始关注神经网络。

进入新世纪后,特别是2006年出现的“残差神经网络”概念,极大地突破了神经网络的深度限制。

随着“深度学习”概念的提出和流行,神经元和神经网络也越来越受欢迎。

引人很重视。

0 2 LLM等大型模特的重要性。

前面说过,现在的LLM、大型模型、AIGC等基本上都是靠神经元和神经网络来发展和成长的。

能言善辩的ChatGPT也靠的是Transformer的神经。

从网络架构发展而来。

LLM使用神经网络来处理和生成文本。

在训练过程中,他们学习如何预测文本序列中的下一个单词,或者给定文本的一部分后可能出现的内容。

为了做到这一点,LLM需要理解语法、语义,并在某种程度上理解语言的上下文。

总而言之,神经元和神经网络提供了处理和生成自然语言的计算框架,LLM利用这个框架来理解和生成文本。

这也是很多人将LLM、AIGC乃至整个AI目前的原理概括为“概率论+魔法”的主要原因之一。

客观地说,这种说法有点极端但确实有道理,因为目前大部分大型型号包括GPT系列的生成原理确实可以这样概括。

前面提到,AI的工作方式可以看作是对人脑工作方式的逆向应用和模仿,而GPT使用的黑匣子系统在结构上也模仿了大脑,由大量的神经元组成。

因此,要说“可解释性”,你必须了解每个神经元在做什么。

0 3 Anthropic的研究 Anthropic的研究是基于 Transformer 模型的小规模实验,将每个神经元分解为多个特征并一一排序,如 DNA 序列、法律术语、HTTP 请求、营养说明等。

经过实验和研究发现,单个特征的行为比神经元的行为更容易解释和可控,而且每个特征在不同的大模型中基本具有通用性。

为了验证这一研究结果,Anthropic还创建了一个盲评估系统来比较个体特征和神经元的可解释性。

如图所示,特征(紫红色)的可解释性得分远高于神经元部分。

较少(青蓝色)。

此外,Anthropic还采用了自动解释的方法,最终的结果是特征得分高于神经元得分。

但这种方法比较复杂,这里不再讨论。

详细信息请参阅他的论文。

Anthropic的研究确实意义重大,但OpenAI几个月前也做了类似的事情。

今年5月初,OpenAI在官网发表了一篇博客文章《语言模型可以解释语言模型中的神经元》(语言模型可以解释语言模型中的神经元),文中称:“我们使用GPT-4自动编写LLM神经元行为的解释,并提供这些解释评分,现在发布 GPT-2 中每个神经元的这些(un*)解释和评分的数据集“几乎所有当时读过这篇论文的人都对 OpenAI 的奇思妙想印象深刻。

震惊,头皮发麻。

当时之所以进行这项研究,主要是为了回答ChatGPT在全球的流行引发的一个问题:“AI发展到这个阶段,是如何实现如此强大的功能的?”为了回答这个问题,OpenAI当时的做法可以简单概括为“用黑匣子解释黑匣子”。

而且,OpenAI此次的研究成果,可以算是AI、大模型等相关公司后续研究探索的新方向,自然意义重大。

前面提到,人工智能可以看作是大脑工作原理的逆向应用,而LLM等大型模型所使用的黑匣子结构也是由海量神经元组成,同样是在模仿大脑。

OpenAI 当时给出的解释过程分为三个步骤:给 GPT-4 一个 GPT-2 的现有神经元,GPT-4 显示相关文本序列和激活状态,从而生成对此类行为的解释;再次使用GPT -4,模拟解释的神经元会做什么;比较两者的结果,根据匹配程度对GPT-4解释进行评分。

最终,OpenAI 表示,GPT-4 解释了 GPT-2 中全部约 30 万个神经元,但绝大多数实际得分较低。

只有不到一千多个分数高于0.8,这意味着神经元Most*激活行为是由这一千多个神经元引起的。

看来AI也可能有意无意地遵循着“80-20规则”。

当时,这一研究成果迅速引起全球各大科技平台的广泛关注。

有人感叹AI进化的方式越来越先进:“未来,AI将被用来改进AI和大型模型,这将加速进化。

”还有人批评其得分过低:“这就是GPT-2的解释,那么如何理解GPT-3.5和GPT-4的内部结构呢?但这就是现在很多人更关注的答案。

”虽然计算机是为了模仿人脑的原理而发明的,但人脑的结构实际上并不高效。

例如,没有存储设备和神经元。

交流也是通过激素或荷尔蒙等化学手段进行的,这是相当尴尬的。

这样“落后”的“部件”居然能够赋予人类如此高的智能,这说明人脑的强大主要在于它的架构。

当前,探索智能的本质也是脑科学研究的中心任务之一。

了解人类自身、破译思维和智能的成因,是一种科学探索的需要。

脑科学与人工智能密切相关。

它不仅可以提高我们对自身奥秘的认识,还可以提高我们对脑部疾病的认识。

同时,相关科研成果也可以为类脑计算的发展提供基础,突破传统计算机架构的限制。

但目前,类脑计算仍然有巨大的空间,等待科学研究来填补。

如今,具有数千亿参数的大型模型很常见。

如果将参数视为神经突触,那么大模型只对应人脑中的1亿个神经元。

人脑的1亿个神经元与数千亿个神经元之间的差距多达千倍之多,而这个差距也可能是人类科学迈向AGI必须跨越的鸿沟。

OpenAI和Anthropic所做的研究也给我们的科技进步展示了一种可能性:当未来的AI变得更加强大,甚至有一天可能超越人类时,它未来也能做更多的事情。

尖端科技为人类提供帮助;而在智能的研究中,AI系统也是除了生物大脑之外的新的研究对象,这也为解开智能之谜带来了新的希望。

大语言模型史无前例的突破

【本文由投资社区合作伙伴微信公众号授权:壹欧网。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

大语言模型史无前例的突破

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 长虹发布“机会清单”,AI、物联网、智能硬件企业纷纷前来“抢单”

    长虹发布“机会清单”,AI、物联网、智能硬件企业纷纷前来“抢单”

    近日,成都高新区组织、四川长虹电子控股集团提供的“机会清单”有限公司已向社会公布。 (机会清单详情请参见→四川长虹电子控股集团有限公司机会清单)如需申请合作,请点击→四川长虹电子控股集团有限公司《机会清单》在线申请表。 本次《机会清单》主要针对电子信息、人工

    06-17

  • 2016直播生态:繁荣与悬崖并存

    2016直播生态:繁荣与悬崖并存

    9月初,腾讯安全联合实验室出品的系列安全推理剧《烧脑24小时之真实的谎言》第一集还原了一起重大电信诈骗事件的始末。 剧中,专家缜密的分析和高端科技的运用以及戏剧性结局的剧情设置,引起了众多网友的热议。 9月19日,该剧第二集《迷雾中的黑影》也在腾讯视频正式上线,真

    06-17

  • IC Insights:2020年半导体市场将快速增长

    IC Insights:2020年半导体市场将快速增长

    科技讯讯:今年全球电子系统市场规模将达到16亿美元,增长5%,半导体市场规模将达到5亿美元,增长14%。 电子系统中半导体的平均比例预计将达到31.4%,将创历史新高。 研究公司IC Insights表示,今年包括手机和个人电脑在内的电子系统产品的出货量可能会疲软。 预计今年手机出

    06-06

  • 未来有望获胜的脑机接口公司是什么样的?

    未来有望获胜的脑机接口公司是什么样的?

    近日,马斯克创立的脑机接口公司Neuralink又获得1万美元风险投资。 加上前几轮融资,Neuralink目前累计融资金额已超过7亿美元,近50亿元人民币。 不过,Neuralink的“高调”还不止于此。 今年9月中旬,Neuralink宣布已获得正式批准,将进行首次人体试验,将设备植入ALS患者的

    06-17

  • 60亿,长沙经济技术开发区成立新兴产业基金

    60亿,长沙经济技术开发区成立新兴产业基金

    投资界-解码LP消息,近日,长沙经济技术开发区与财信中金达成基金合作,成立财新斯迪产业基金,总基金规模60亿元,主要投资园区先进制造、新能源新材料、新一代信息技术、医疗健康四大产业。 长沙经开区财政金融局负责人表示:“双方发展目标的契合是此次合作达成的关键。 ”

    06-18

  • 金融科技公司BITE Investments完成Pre-A轮融资

    金融科技公司BITE Investments完成Pre-A轮融资

    投资界(ID:pedaily)据5月19日消息,金融科技公司BITE Investments(以下简称“BITE”)完成Pre-A轮融资,由全球金融服务提供商 ApexGroup Ltd.(“Apex”)牵头投资。 同时,Apex与BITE也将展开深入的业务合作,为全球尤其是亚洲资产管理市场提供更好的解决方案。 据了解,

    06-18

  • 身家2000亿,王卫悄然成为LP

    身家2000亿,王卫悄然成为LP

    首富又在快递行业花钱了。 上周,顺丰快递创始人和总裁王卫因自掏腰包5亿元给每位员工发红包而迅速走红。 消息一出,顺丰速运股价就涨停,市值一度突破亿元。 今年以来,顺丰速运的股价因业绩而不断上涨。 不仅股价翻倍,市值也再创新高,超过了三通亿达、贝斯特、德邦等竞争

    06-18

  • 触底反弹,硅谷天堂阳光基金三周融资1亿元

    触底反弹,硅谷天堂阳光基金三周融资1亿元

    从2016年的“不缺钱”到年底PE募资不佳,国内创投机构经历了一段冰冻期筹集资金时火力全开。 随着宏观经济的复苏,私募融资正在慢慢触底反弹。   6月底,硅谷天堂在深圳募集的“阳光基金”融资宣布完成,仅用了三周时间就达到了1亿元的融资目标。 近期,国内数家创投机构也

    06-18

  • OPPO OHealth家用智能健康监测仪H1:很有科技感,也很温馨

    OPPO OHealth家用智能健康监测仪H1:很有科技感,也很温馨

    年关将至,在和爸爸说起今年的收获时,有一句话让我感触良多。 今年,我省得最多的不是奖金,而是一叠病历。 这几年,我一直感叹父亲一天天变老,但当我看到他的病历时,我才真正意识到,衰老不仅仅是眉间的皱纹,而是与年龄有关的疾病的征兆。 对身体产生了反作用。 这说服了

    06-21

  • Mouser Electronics 与 Grant Imahara 合作推出《让创意走进现实》系列第 2 集

    Mouser Electronics 与 Grant Imahara 合作推出《让创意走进现实》系列第 2 集

    利用 Arduino 探索原型制作流程 10 月 25 日 – Mouser Electronics 今天与明星工程师 Grant Imahara 合作推出《让创意走进现实》系列第 2 集, Mouser 屡获殊荣的 Empowering Innovation Together? 计划的最新成果。 欢迎点击这里观看该视频。 在这部短片中,Grant 带领观众

    06-06

  • “九天睿芯”获1亿元A轮融资

    “九天睿芯”获1亿元A轮融资

    “九天睿芯”近日获得1亿元A轮融资。 本轮融资由韦豪创新与浦东科技、华谊创投、泛漫投资联合领投,上海物枢跟投。 九天睿芯CEO表示,本轮融资将主要用于新产品研发和人员扩充。 据官方介绍,该公司专注于神经形态传感存储与计算集成芯片的研发,广泛应用于AIoT等对低功耗、时

    06-18

  • 三星3nm芯片将于第二季度开始量产

    三星3nm芯片将于第二季度开始量产

    财联社《科创板日报》29日,三星电子周四宣布,将开始使用3GAE(早期3nm栅极全能)工艺本季度实现规模生产。 规模生产,这也是第一个使用环栅场效应晶体管(GAAFET)的节点。 “这是全球首次量产GAA 3nm工艺,这将增强其技术领先地位。 ”三星在一份报告中写道。 近期会议将于

    06-06