中饮巴比登陆A股市场,一年卖出价值10亿的两块钱馒头
06-17
1月24日,上海研心树人工智能科技有限公司“新架构,新模型赋能”大模型发布会。
与此同时,研信慧智正式发布了中国首个无Attention机制的大规模通用自然语言模型——Yan模型。
作为业界少有的非Transformer大模型,Yan模型以全新自主研发的“Yan架构”替代Transformer架构,利用百亿参数实现千亿参数大模型的性能- 内存容量增加3倍,速度提高。
同时推理吞吐量提升了5倍7倍。
会上,彦芯数智CEO刘凡平表示:“我们希望Yan架构能够作为人工智能领域的基础设施,并利用它构建AI领域的开发者生态,最终允许任何人在任何设备上使用通用人工智能。
模型,获得更加经济、便捷、安全的人工智能服务,推动构建普惠的人工智能未来。
“Transformer 并不是大型模型的‘唯一解决方案’。
Transformer 是 GPT、LLAMA、PaLM 等流行的大型模型的基础架构,它的崛起无疑是深度学习史上的一个重要里程碑。
凭借其强大的功能,自然语言理解能力方面,Transformer 推出短短几年内就取代了传统的 RNN 网络结构,不仅成为自然语言处理领域的主流模型架构,而且在计算机视觉等多个领域得到了展现。

那么,在变形金刚已经占据人工智能领域半壁江山的今天,彦科数智为何还要另辟蹊径,在发布会上寻找更多非变形金刚的可能性呢?刘凡平回答了这个问题,他指出,以规模大着称的Transformer,算力高,实际应用中成本高,让很多中小企业望而却步。
其内部架构的复杂性使得决策过程难以解释;长序列处理的难度以及无法控制幻觉的问题也限制了大型模型在某些关键领域和特殊场景的广泛应用。
随着云计算和边缘计算的普及,行业对高性能、低能耗的大规模AI模型的需求日益增长。
刘凡平提到:“在全球范围内,许多优秀的研究人员一直在试图从根本上解决对 Transformer 架构的过度依赖,并寻求更好的方法来替代 Transformer。
就连 Transformer 论文的作者之一 Llion Jones 也在探索“Transformer 之后的可能性”,试图用一种基于进化原理的自然启发的智能方法,从不同角度创建对 AI 框架的重新定义。
” 核心数据也不例外。
在不断研究和改进Transformer模型的过程中,他们意识到重新设计大模型的必要性:一方面,Attention机制下,现有架构的调整几乎达到了瓶颈;另一方面,现有架构的调整几乎已经到了瓶颈;一方面,延信数字希望降低企业使用大模型的门槛,让大模型能够以更少的数据和更低的算力拥有更强的性能,从而能够应用到更广泛的业务中。
经过近多个日日夜夜,数百次以上的设计、修改、优化、比较、重启,言信数字自主研发出不再依赖Transformer的全新架构——“言架构”。
与此同时,基于燕建筑的通用大型模型应运而生。
颜架构:技术与实现的双重努力。
如果说基于Transformer架构的大型车型是一款“又耗油又贵”的燃油车,那么基于Yan架构的大型车型则更像是一辆燃油车。
经济、更节能的新能源汽车。
它去掉了 Transformer 中高成本的注意力机制,代之以计算量少、难度小的线性计算,大大提高了建模效率和训练速度,同时效率提高了一倍。
成本大幅降低。
发布会上,研究团队展示了相同参数尺度下Yan模型与Transformer模型的大量实测对比。
实验数据表明,Yan架构比Transformer架构能够实现更高的训练效率和更强的记忆能力。
能力,较低的幻象表达。
同等资源条件下,Yan架构模型的训练效率和推理吞吐量分别是Transformer架构的7倍和5倍,内存容量提升3倍。
Yan模型在推理过程中的空间复杂度是恒定的,因此Yan模型对于Transformer面临的长序列问题也表现良好。
对比数据显示,在单张24G显卡上,当模型输出token的长度超过Transformer的。
模型会出现显存不足的问题,但Yan模型的显存占用始终稳定在14G左右,理论上可以实现无限长度的推理。
此外,研究团队首创了合理的相关特征函数和记忆算子,结合线性计算方法。
,降低模型内部结构的复杂度。
新架构下的Yan模型将打开过去自然语言处理的“不可解释的黑匣子”,充分挖掘决策过程的透明性和可解释性,从而促进大型模型在高风险领域的广泛使用例如医疗、金融、法律等。
除了技术上的突破和创新,颜模型还具备隐私性、经济性、精准实时性、专业性、通用性六大优秀的商业化能力。
可以说是“为执行而生”。
据行业共识,大型模型竞赛已从“体量参数”时代过渡到“体量应用”阶段。
行业对通用大型车型的需求亟待解决。
因此,很多大型模型都会采用剪枝、压缩等主流技术。
为了实现在设备上运行,Yan模型%支持私有化部署应用,可以无损运行在主流消费级CPU等端侧设备上,无需裁剪和压缩,达到与其他模型在GPU上运行相同的效果。
这一点在本次发布会上也得到了证实。
研究人员在个人电脑上演示了 Yan 模型的运行推理。
下一阶段,预计将无损部署在手机等更多便携设备或终端中。
刘凡平表示:“彦核数字旨在打造全模态实时人机交互系统,全面连接感知、认知、决策和行动,构建通用人工智能的智能循环,并提供方向研究为通用机器人等具身智能的大模型基础库提供“更多选择”,我们希望通过提供低功耗、有限显存下基于Yan架构的专业生产力工具,实现端侧训练与训练推送的一体化。
助力千行百业完成数据智能转型升级“新模式动力、新生态新闻发布会圆桌讨论环节”,中国科学院上海显微研究所研究员、博士生导师、总工程师刘凡平、李汉军。
中国信息通信研究院上海产业创新中心,智子芯源创始人曹阳与微起点技术总监岳野立伟围绕未来人工智能领域生态建设进行了深入交流和探讨主题为“创新与变革”。
李汉军表示:“人工智能发展至今,大型模型的架构升级不断演进,在技术和应用的双重驱动下,生态边界也在不断扩大。
可以说,每一次技术突破都会带来发展。
”从目前的注重多功能性到未来的个性化发展,我们期望行业能够开发出更多新的生产力工具,引发新一轮的技术革命,推动整个人工智能产业向更加高效的方向发展。
和可持续的方向。
“燕模型在实际应用中的表现还需要市场的检验,正如燕信数智董事长陈代前在总结发言中所言:“随着燕模型的进一步落地和应用,我们期待到基于Yan架构的通用大型模型。
,为各类机器人、嵌入式设备、物联网设备提供所需的智能能力,能够为人工智能产业注入新活力、新理念、新可能性,为企业和用户创造更多价值。
我们也将用我们的力量参与推动人工智能领域新一轮技术变革。
》雷锋网(公众号:雷锋网)雷锋网版权文章,未经授权禁止转载。
详情请见转载说明。
0人收藏分享:相关文章颜架构核心数字智能大模型腾讯发布数字技术前沿应用趋势涉及多模态大模型……徐栋梁:短期来看大模型是提高效率的工具,长期来看是超智能……GPT-BI在中国上线一汽、大车型技术融入数字化、智能化转型时代 数字化安全的答案,藏在一本实用指南里。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-21
06-17
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态