首页 > 科技未来 > 内容

研心树自主研发国内首个非Attention机制大模型,无损速度提升7倍

发布于:2024-06-17 编辑:匿名 来源:网络

1月24日,上海研心树人工智能科技有限公司“新架构,新模型赋能”大模型发布会。

与此同时,研信慧智正式发布了中国首个无Attention机制的大规模通用自然语言模型——Yan模型。

作为业界少有的非Transformer大模型,Yan模型以全新自主研发的“Yan架构”替代Transformer架构,利用百亿参数实现千亿参数大模型的性能- 内存容量增加3倍,速度提高。

同时推理吞吐量提升了5倍7倍。

会上,彦芯数智CEO刘凡平表示:“我们希望Yan架构能够作为人工智能领域的基础设施,并利用它构建AI领域的开发者生态,最终允许任何人在任何设备上使用通用人工智能。

模型,获得更加经济、便捷、安全的人工智能服务,推动构建普惠的人工智能未来。

“Transformer 并不是大型模型的‘唯一解决方案’。

Transformer 是 GPT、LLAMA、PaLM 等流行的大型模型的基础架构,它的崛起无疑是深度学习史上的一个重要里程碑。

凭借其强大的功能,自然语言理解能力方面,Transformer 推出短短几年内就取代了传统的 RNN 网络结构,不仅成为自然语言处理领域的主流模型架构,而且在计算机视觉等多个领域得到了展现。

研心树自主研发国内首个非Attention机制大模型,无损速度提升7倍

那么,在变形金刚已经占据人工智能领域半壁江山的今天,彦科数智为何还要另辟蹊径,在发布会上寻找更多非变形金刚的可能性呢?刘凡平回答了这个问题,他指出,以规模大着称的Transformer,算力高,实际应用中成本高,让很多中小企业望而却步。

其内部架构的复杂性使得决策过程难以解释;长序列处理的难度以及无法控制幻觉的问题也限制了大型模型在某些关键领域和特殊场景的广泛应用。

随着云计算和边缘计算的普及,行业对高性能、低能耗的大规模AI模型的需求日益增长。

刘凡平提到:“在全球范围内,许多优秀的研究人员一直在试图从根本上解决对 Transformer 架构的过度依赖,并寻求更好的方法来替代 Transformer。

就连 Transformer 论文的作者之一 Llion Jones 也在探索“Transformer 之后的可能性”,试图用一种基于进化原理的自然启发的智能方法,从不同角度创建对 AI 框架的重新定义。

” 核心数据也不例外。

在不断研究和改进Transformer模型的过程中,他们意识到重新设计大模型的必要性:一方面,Attention机制下,现有架构的调整几乎达到了瓶颈;另一方面,现有架构的调整几乎已经到了瓶颈;一方面,延信数字希望降低企业使用大模型的门槛,让大模型能够以更少的数据和更低的算力拥有更强的性能,从而能够应用到更广泛的业务中。

经过近多个日日夜夜,数百次以上的设计、修改、优化、比较、重启,言信数字自主研发出不再依赖Transformer的全新架构——“言架构”。

与此同时,基于燕建筑的通用大型模型应运而生。

颜架构:技术与实现的双重努力。

如果说基于Transformer架构的大型车型是一款“又耗油又贵”的燃油车,那么基于Yan架构的大型车型则更像是一辆燃油车。

经济、更节能的新能源汽车。

它去掉了 Transformer 中高成本的注意力机制,代之以计算量少、难度小的线性计算,大大提高了建模效率和训练速度,同时效率提高了一倍。

成本大幅降低。

发布会上,研究团队展示了相同参数尺度下Yan模型与Transformer模型的大量实测对比。

实验数据表明,Yan架构比Transformer架构能够实现更高的训练效率和更强的记忆能力。

能力,较低的幻象表达。

同等资源条件下,Yan架构模型的训练效率和推理吞吐量分别是Transformer架构的7倍和5倍,内存容量提升3倍。

Yan模型在推理过程中的空间复杂度是恒定的,因此Yan模型对于Transformer面临的长序列问题也表现良好。

对比数据显示,在单张24G显卡上,当模型输出token的长度超过Transformer的。

模型会出现显存不足的问题,但Yan模型的显存占用始终稳定在14G左右,理论上可以实现无限长度的推理。

此外,研究团队首创了合理的相关特征函数和记忆算子,结合线性计算方法。

,降低模型内部结构的复杂度。

新架构下的Yan模型将打开过去自然语言处理的“不可解释的黑匣子”,充分挖掘决策过程的透明性和可解释性,从而促进大型模型在高风险领域的广泛使用例如医疗、金融、法律等。

除了技术上的突破和创新,颜模型还具备隐私性、经济性、精准实时性、专业性、通用性六大优秀的商业化能力。

可以说是“为执行而生”。

据行业共识,大型模型竞赛已从“体量参数”时代过渡到“体量应用”阶段。

行业对通用大型车型的需求亟待解决。

因此,很多大型模型都会采用剪枝、压缩等主流技术。

为了实现在设备上运行,Yan模型%支持私有化部署应用,可以无损运行在主流消费级CPU等端侧设备上,无需裁剪和压缩,达到与其他模型在GPU上运行相同的效果。

这一点在本次发布会上也得到了证实。

研究人员在个人电脑上演示了 Yan 模型的运行推理。

下一阶段,预计将无损部署在手机等更多便携设备或终端中。

刘凡平表示:“彦核数字旨在打造全模态实时人机交互系统,全面连接感知、认知、决策和行动,构建通用人工智能的智能循环,并提供方向研究为通用机器人等具身智能的大模型基础库提供“更多选择”,我们希望通过提供低功耗、有限显存下基于Yan架构的专业生产力工具,实现端侧训练与训练推送的一体化。

助力千行百业完成数据智能转型升级“新模式动力、新生态新闻发布会圆桌讨论环节”,中国科学院上海显微研究所研究员、博士生导师、总工程师刘凡平、李汉军。

中国信息通信研究院上海产业创新中心,智子芯源创始人曹阳与微起点技术总监岳野立伟围绕未来人工智能领域生态建设进行了深入交流和探讨主题为“创新与变革”。

李汉军表示:“人工智能发展至今,大型模型的架构升级不断演进,在技术和应用的双重驱动下,生态边界也在不断扩大。

可以说,每一次技术突破都会带来发展。

”从目前的注重多功能性到未来的个性化发展,我们期望行业能够开发出更多新的生产力工具,引发新一轮的技术革命,推动整个人工智能产业向更加高效的方向发展。

和可持续的方向。

“燕模型在实际应用中的表现还需要市场的检验,正如燕信数智董事长陈代前在总结发言中所言:“随着燕模型的进一步落地和应用,我们期待到基于Yan架构的通用大型模型。

,为各类机器人、嵌入式设备、物联网设备提供所需的智能能力,能够为人工智能产业注入新活力、新理念、新可能性,为企业和用户创造更多价值。

我们也将用我们的力量参与推动人工智能领域新一轮技术变革。

》雷锋网(公众号:雷锋网)雷锋网版权文章,未经授权禁止转载。

详情请见转载说明。

0人收藏分享:相关文章颜架构核心数字智能大模型腾讯发布数字技术前沿应用趋势涉及多模态大模型……徐栋梁:短期来看大模型是提高效率的工具,长期来看是超智能……GPT-BI在中国上线一汽、大车型技术融入数字化、智能化转型时代 数字化安全的答案,藏在一本实用指南里。

研心树自主研发国内首个非Attention机制大模型,无损速度提升7倍

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 新闻 -山东筹集1000亿元资金推进高铁建设

    新闻 -山东筹集1000亿元资金推进高铁建设

    投资界(微信ID:pedaily)7月23日消息,为推动高速铁路(含城际铁路)快速健康发展,建设覆盖全省铁路网的现代化高速铁路 山东发《关于促进高速铁路建设的意见》,明确提出创新投融资机制,增加1亿元规模的山东省铁路发展基金募集资金规模。 据悉,省财政等部门将全面落实省

    06-18

  • 达泰资本李泉生:投资早期公司需要复杂的投资者

    达泰资本李泉生:投资早期公司需要复杂的投资者

    孔夫子李泉生,达泰资本董事  拥有多年科研教学、政府事务管理、国内外基金创投管理经验在参加清科集团主办的CVCF论坛上,大泰资本董事合伙人李泉生笑称,他是中国本土VC/PE中经验最丰富的合伙人。 “我性格很开放,整合资源的能力也很强,所以很适合投资行业。 ”这位在投

    06-17

  • 科基生物完成6000万美元Pre-C轮融资,助力公司在CAR-T领域实现创新突破

    科基生物完成6000万美元Pre-C轮融资,助力公司在CAR-T领域实现创新突破

    投资界4月2日消息,近日,CAR-T细胞治疗公司CARsgen Therapeutics,宣布完成1万美元Pre-C轮融资,本轮融资由光良资本领投。 该笔资金将主要用于支持科基生物多个CAR-T产品的国内外新药申报及注册临床推广,帮助公司在CAR-T领域取得创新突破。   资料显示,科济生物成立于20

    06-17

  • 小京都、小奈良、小圣托里尼……别再用千篇一律的打卡套路了

    小京都、小奈良、小圣托里尼……别再用千篇一律的打卡套路了

    作为一名旅游博主,如何简洁有力地表达“这个地方值得一去”?加上一个“小”字就够了。 受欢迎的有小奈良、小京都、小镰仓和小圣托里尼。 其实还有小巴黎、小罗马、小马尔代夫,不过都退居二线了。 流水名胜,铁字头。 “小字辈”会成为当代旅游景区的交通密码和生存手册吗?

    06-21

  • 蔚来宣布完成2.35亿美元可转债融资

    蔚来宣布完成2.35亿美元可转债融资

    据投资界消息,3月6日,蔚来在投资者关系网站发布消息称,已完成2.35亿美元可转债融资项目。 公告称,本次投资方为多家亚洲投资基金,且均为“无关方”,即纯粹的财务投资者。 蔚来汽车向买方发行的票据利率为零,将于2020年3月5日到期。 票据到期前,票据持有人有权将票据本

    06-18

  • 薰药业香港IPO:市值超80亿,联想之星回报超50倍

    薰药业香港IPO:市值超80亿,联想之星回报超50倍

    又一创新药企成功赴港IPO。 5月22日,薰制药股份有限公司(股票代码:.HK,简称“薰制药”)在香港联交所主板正式挂牌上市。 发行价格为每股20.15港元,募集资金约2.4亿美元。 据公司公布的IPO结果显示,本次公开发行获得超额认购两倍以上,冻结资金金额超过1亿港元。 今天上

    06-17

  • 2020云栖大会百城无锡站来了!灵犀受邀出席会议!

    2020云栖大会百城无锡站来了!灵犀受邀出席会议!

    一年一度的科技盛会——“云栖大会”来了!云栖大会是科技界最重要的盛会!起源于1999年,历经十一年的云栖大会,见证了中国云计算的发展史! 9月17日至9月18日,今年的黑科技大会将纯线上举办,让您足不出户就能走到科技最前沿,享受这场科技与思想的碰撞!与往年不同的是,

    06-18

  • 太空第一部手机还能这么玩吗?金立和M6相机迎来升级

    太空第一部手机还能这么玩吗?金立和M6相机迎来升级

    随着神舟十一号安全返回,“金立和M6乘坐神舟十一号飞船往返太空”事件也引起了媒体和公众的高度关注。 能够伴随飞船进行太空航行,再次印证了金立航天产品的品质。 当然,用户应该始终回归日常体验。 在大家都在称赞金立和M6能够用太空飞船“恋爱33天”的同时,金立amigo也悄

    06-18

  • 【每日投资活动】深创投关注文化传媒股智美控股上市再结硕果

    【每日投资活动】深创投关注文化传媒股智美控股上市再结硕果

    智美控股融资7.8亿港元赴港上市深创投再结硕果  深圳创投投资文化传媒行业的热情从未消退。 继去年底成为杨丽萍娱乐公司股东后,该公司精心培育的又一家行业公司终于取得了成功。 近日,随着智慧控股集团主席任文敲响香港联交所的锣声,深创投又一投资标的成功IPO。 这也是

    06-17

  • ProfoundBio获Pre-A轮融资,专注于差异化ADC抗肿瘤新药开发

    ProfoundBio获Pre-A轮融资,专注于差异化ADC抗肿瘤新药开发

    投资界(ID:pedaily)据2月8日消息,普方生物科技(ProfoundBio)宣布完成Pre-A轮融资轮融资超过1000万美元。 本轮投资由先锋启云领投,高榕资本、长安资本跟投。 本轮融资将主要用于推动公司ADC抗肿瘤新药产品管线的开发。 普方生物成立于2016年,专注于开发治疗实体瘤的AD

    06-18

  • 凡士通创世完成1亿元B轮融资,普华(杭州)基金、联东集团等合资

    凡士通创世完成1亿元B轮融资,普华(杭州)基金、联东集团等合资

    投资圈(ID:pedaily)7月28日消息,凡士通创世宣布完成1亿元B轮融资B轮融资,由新股东领投工信部中小企业发展基金普华(杭州)基金、联东集团、老股东王美投资等联合投资。 凡士通创世董事长金霞表示,本轮融资将用于工业数据智能服务的持续探索,凡士通创世与联动也将加大在

    06-18

  • 手机厂商已展开百亿型号

    手机厂商已展开百亿型号

    人均年薪过万元。 什么样的行业有如此丰厚的福利? 答案是AI大模型。 这是vivo副总裁周舟在接受《中国企业家》等媒体采访时给出的答案。 他说,“现在vivo大机型每年的投资成本在20亿到30亿元,总投资成本已经超过1亿元。 人才和数据计算,每人平均人才成本税后1万元。 ”过去

    06-18