长虹发布“机会清单”,AI、物联网、智能硬件企业纷纷前来“抢单”
06-17
不久前的9月底,被誉为“ChatGPT最强替代者”的Anthropic获得了亚马逊40亿美元的投资。
不久之后,他们发表了一篇论文《朝向单义性:通过词典学习分解语言模型》(走向单义性:用字典学习分解语言模型),其中详细阐述了解释神经网络和大型语言模型(通常称为 LLM)行为的方法。
Anthropic之所以被戏称为“ChatGPT最强替代者”,主要是因为其几乎所有创始成员都参与了GPT系列早期版本的开发,特别是GPT-2和GPT-3。
众所周知,GPT系列真正受到引人关注是从GPT-3之后的3.5开始的。
俗话说“罗马不是一天建成的”。
而且,Anthropic的AIGC产品Claude并不逊色于ChatGPT。
最新版本的Claude2于今年夏天推出。
英国人《卫报》对此评论道,“训练时安全是首要考虑因素,可以称为‘宪政AI’”或“宪政机器人””,人工智能或机器人的新分类和研究也可能由此开始。
市面上流行的LLM基本上都是基于海量神经网络构建的,而神经网络是基于海量数据AIGC进行训练的,比如文本、图片、视频等多模态或跨模态的内容。
,可以保证相当的精度,数量也越来越丰富,但是可解释性始终是一个很难突破的难点,比如我们找一个AI,问1=2,但都说1=2,但没有一个能解释。
即使可以做出简单的解释,也只是基于对语义的肤浅理解,就像我们人类睡觉时所做的梦一样,每个人都会做梦,并且可以粗略地描述梦的内容。
几千年来,对于梦的成因,一直没有合理、统一的解释。
ChatGPT等LLM经常出现无序、混乱、虚假信息等情况,这种行为被称为“AI幻觉”,人们常说这是严重的无稽之谈,主要是因为人类无法控制AI和大型模型。
神经网络行为。
因此,Anthropic的研究对于增强LLM,甚至人工智能和大型模型的整体准确性和安全性,以及减少有害内容的输出非常有帮助。
这篇论文还是很有参考价值的。
论文链接:0 1 关于神经元和神经网络 为了更好地理解Anthropic研究的意义,这里简单介绍一下几个基本概念。
神经元是神经网络的基本组成部分,主要输入、计算和输出数据。
它的工作原理是模拟大脑神经元的工作方式,接收一个或多个输入,每个输入都有相应的权重。
将这些输入和权重的乘积相加,然后添加偏差项。
得到的总和被输入到激活函数中,激活函数的输出就是该神经单元的输出。
神经元工作流程示意图,其中a1-an是输入向量的分量,w1-wn是神经元每个突触的权重值,b是偏置项,f是传递函数,通常是非线性函数,t是神经元最终的输出结果。
如前所述,神经元是神经网络的基本形式。
一定数量的神经元可以组成神经网络。
这种系统起源于对人类中枢神经系统的观察、研究和逆向应用。
最初的概念早在 20 世纪 40 年代初就被提出。
它于 2001 年首次在 IBM 计算机上实现,但此后陷入沉寂,直到 1980 年“反向传播算法”的发明,“分布式并行处理”(当时称为“连接主义”)的思想开始流行20世纪80年代中期,促使社会各界重新开始关注神经网络。
进入新世纪后,特别是2006年出现的“残差神经网络”概念,极大地突破了神经网络的深度限制。
随着“深度学习”概念的提出和流行,神经元和神经网络也越来越受欢迎。
引人很重视。
0 2 LLM等大型模特的重要性。
前面说过,现在的LLM、大型模型、AIGC等基本上都是靠神经元和神经网络来发展和成长的。
能言善辩的ChatGPT也靠的是Transformer的神经。
从网络架构发展而来。
LLM使用神经网络来处理和生成文本。
在训练过程中,他们学习如何预测文本序列中的下一个单词,或者给定文本的一部分后可能出现的内容。
为了做到这一点,LLM需要理解语法、语义,并在某种程度上理解语言的上下文。
总而言之,神经元和神经网络提供了处理和生成自然语言的计算框架,LLM利用这个框架来理解和生成文本。
这也是很多人将LLM、AIGC乃至整个AI目前的原理概括为“概率论+魔法”的主要原因之一。
客观地说,这种说法有点极端但确实有道理,因为目前大部分大型型号包括GPT系列的生成原理确实可以这样概括。
前面提到,AI的工作方式可以看作是对人脑工作方式的逆向应用和模仿,而GPT使用的黑匣子系统在结构上也模仿了大脑,由大量的神经元组成。
因此,要说“可解释性”,你必须了解每个神经元在做什么。
0 3 Anthropic的研究 Anthropic的研究是基于 Transformer 模型的小规模实验,将每个神经元分解为多个特征并一一排序,如 DNA 序列、法律术语、HTTP 请求、营养说明等。
经过实验和研究发现,单个特征的行为比神经元的行为更容易解释和可控,而且每个特征在不同的大模型中基本具有通用性。
为了验证这一研究结果,Anthropic还创建了一个盲评估系统来比较个体特征和神经元的可解释性。
如图所示,特征(紫红色)的可解释性得分远高于神经元部分。
较少(青蓝色)。
此外,Anthropic还采用了自动解释的方法,最终的结果是特征得分高于神经元得分。
但这种方法比较复杂,这里不再讨论。
详细信息请参阅他的论文。
Anthropic的研究确实意义重大,但OpenAI几个月前也做了类似的事情。
今年5月初,OpenAI在官网发表了一篇博客文章《语言模型可以解释语言模型中的神经元》(语言模型可以解释语言模型中的神经元),文中称:“我们使用GPT-4自动编写LLM神经元行为的解释,并提供这些解释评分,现在发布 GPT-2 中每个神经元的这些(un*)解释和评分的数据集“几乎所有当时读过这篇论文的人都对 OpenAI 的奇思妙想印象深刻。
震惊,头皮发麻。
当时之所以进行这项研究,主要是为了回答ChatGPT在全球的流行引发的一个问题:“AI发展到这个阶段,是如何实现如此强大的功能的?”为了回答这个问题,OpenAI当时的做法可以简单概括为“用黑匣子解释黑匣子”。
而且,OpenAI此次的研究成果,可以算是AI、大模型等相关公司后续研究探索的新方向,自然意义重大。
前面提到,人工智能可以看作是大脑工作原理的逆向应用,而LLM等大型模型所使用的黑匣子结构也是由海量神经元组成,同样是在模仿大脑。
OpenAI 当时给出的解释过程分为三个步骤:给 GPT-4 一个 GPT-2 的现有神经元,GPT-4 显示相关文本序列和激活状态,从而生成对此类行为的解释;再次使用GPT -4,模拟解释的神经元会做什么;比较两者的结果,根据匹配程度对GPT-4解释进行评分。
最终,OpenAI 表示,GPT-4 解释了 GPT-2 中全部约 30 万个神经元,但绝大多数实际得分较低。
只有不到一千多个分数高于0.8,这意味着神经元Most*激活行为是由这一千多个神经元引起的。
看来AI也可能有意无意地遵循着“80-20规则”。
当时,这一研究成果迅速引起全球各大科技平台的广泛关注。
有人感叹AI进化的方式越来越先进:“未来,AI将被用来改进AI和大型模型,这将加速进化。
”还有人批评其得分过低:“这就是GPT-2的解释,那么如何理解GPT-3.5和GPT-4的内部结构呢?但这就是现在很多人更关注的答案。
”虽然计算机是为了模仿人脑的原理而发明的,但人脑的结构实际上并不高效。
例如,没有存储设备和神经元。
交流也是通过激素或荷尔蒙等化学手段进行的,这是相当尴尬的。
这样“落后”的“部件”居然能够赋予人类如此高的智能,这说明人脑的强大主要在于它的架构。
当前,探索智能的本质也是脑科学研究的中心任务之一。
了解人类自身、破译思维和智能的成因,是一种科学探索的需要。
脑科学与人工智能密切相关。
它不仅可以提高我们对自身奥秘的认识,还可以提高我们对脑部疾病的认识。
同时,相关科研成果也可以为类脑计算的发展提供基础,突破传统计算机架构的限制。
但目前,类脑计算仍然有巨大的空间,等待科学研究来填补。
如今,具有数千亿参数的大型模型很常见。
如果将参数视为神经突触,那么大模型只对应人脑中的1亿个神经元。
人脑的1亿个神经元与数千亿个神经元之间的差距多达千倍之多,而这个差距也可能是人类科学迈向AGI必须跨越的鸿沟。
OpenAI和Anthropic所做的研究也给我们的科技进步展示了一种可能性:当未来的AI变得更加强大,甚至有一天可能超越人类时,它未来也能做更多的事情。
尖端科技为人类提供帮助;而在智能的研究中,AI系统也是除了生物大脑之外的新的研究对象,这也为解开智能之谜带来了新的希望。

【本文由投资社区合作伙伴微信公众号授权:壹欧网。
本平台仅提供信息存储服务。
】如有任何疑问,请联系投资界()。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-18
06-18
06-18
06-18
06-06
最新文章
三只松鼠:门店扩张已全面暂停
Nvidia 已准备好“统治”AI
【创业24小时】2023年11月16日
【创业24小时】2022年10月20日
倒计时一天,浙江这座小镇要火了!
沃图网络获数千万A轮投资,加大投入海外网红营销SaaS平台建设
泰山天使基金部分退出拉手半年回报180倍
西格数据完成1000万元A+轮融资,国发创投领投