首页 > 科技未来 > 内容

AI天才杨植麟大型模型产品,特点:长长长长长

发布于:2024-06-18 编辑:匿名 来源:网络

千亿参数大模型,首次支持高达20万字的长文本输入! 在任何规模的大型模型产品化团队中,这个长度是目前世界上最长的。

让数据说话:目前,Claude支持的最长文本为k(约8万字),而GPT-4为32k(约2.5万字)。

20万字,分别是其数量的2.5倍和8倍。

这是清华大学助理教授杨植麟启动大模型后制作的第一份成绩单。

10月9日下午,杨植麟旗下的初创人工智能公司Moonshot AI推出了旗下最大的模型产品——智能助手·Kimi·Chat。

核心亮点在于,虽然是一个参数量数千亿的“怪物”,但它可以容纳20万个汉字的输入,无论是《三体》还是《马斯克传》,你都可以随意阅读。

据报道,扩大上下文窗口的长度只是月之暗面“登月计划”的第一步;这一步的实施实际上为下一步的多模态提供了基础——公司预计明年将向外界开放多模态版本产品。

公司的最终目标是在大模型领域开发To C超级应用。

杨植麟有很多光环。

除了担任清华大学助理教授外,他还拥有 FAIR 和 Google Brain 的工作经历。

他是 Transformer-XL 和 XLNet 的合著者。

他发明的算法在30多个AI标准任务中实现了SOTA。

他师从苹果人工智能部门负责人鲁斯兰(Ruslan)。

萨拉胡季诺夫、清华大学唐杰……在各种光环的加持下,自3月份被曝光为初创公司后,月之暗面又多了一层神秘色彩。

随后,红杉资本提供孵化支持,成功完成两轮合计近20亿元的融资,引起了公司的额外关注。

现在,该公司首次公开露面,回应了更多外界讨论。

“参数和上下文窗口的长度共同决定了模型效果。

”在现场演示过程中,量子比特注意到,由于支持20万字长文本,月暗面智能助手·Kimi·Chat又有了几个新花样。

一是提供人物简介链接,Kimi可以根据链接中的基本信息扮演角色并进行对话:一是支持同时上传多个(现场演示时为50个)文件并进行阅读分析时间:另一个是能够基于上传和阅读提供文本内容、绘制思维导图……对于助手这样一款智能产品,《月黑之时》的应用场景非常广泛,“包括生产力和娱乐场景。

” ” 为什么选择以“长文本输入”为核心来构建自己的大基模式的差异化竞争力? 《月之暗面》官方给出的答案是,这是行业现在急需解决的问题,也是导致下一步的最大症结,就是产品化。

一切都基于整个团队的“天真的判断”。

参数的数量决定了大模型支持的“计算”有多复杂,而它能接收多少文本输入(即长文本技术)则决定了大模型有多少“内存”。

两者共同决定了模型的应用效果。

上下文实际上对应于计算机的内存。

近几十年来,计算机系统中的内存发生了巨大的变化。

《超级玛丽》原来的版本使用的内存非常非常低,但现在应用程序内存至少有几GB。

参数的数量决定了模型能够支持多复杂的计算,但它不仅要有足够数量的参数,还要有强大的上下文。

上下文是新一代大型模型的标准配置。

世界上的大模特已经饱受苦难已久。

即使是目前最先进的模型,在上下文窗口方面也有非常大的探索空间。

例如,Claude2 的最长上下文窗口为 k,GPT-4 的最长上下文窗口为 32k,Llama2 支持最长的 4k。

支持这样的长度对于实际应用来说是远远不够的。

这里以Agent为例,这是大型模型应用的一个流行方向。

Agent操作需要自动进行多轮规划和决策,每个动作都需要参考历史记忆信息来完成。

这将带来模型输入的快速增加,也意味着无法处理更长上下文的模型将无法做到这一点。

完整、准确地将新的规划和决策建立在历史信息的基础上,以减少成功运营的可能性。

如何弥补和改善呢? 至此,杨植麟将市场上现有的解决方案分为三类。

金鱼模型。

使用滑动窗口方法实际上放弃了上面的许多内容并导致任务难以解决(包括最近的 MIT 工作,该工作声称能够处理无限长度文本的 StreamingLLM);蜜蜂模型。

着眼于局部而忽略全局情况,仅对部分上下文进行采样,如基于检索增强的RAG(retrieval Augmented Generation)方法,无法完成很多任务;蝌蚪模型。

长文本的长度虽然长,但模型参数太小(比如10亿),涌现能力不足。

杨植麟将上述三种方法统称为解决大模型上下文窗口长度的捷径,并表示不会依赖滑动窗口、下采样、小模型等这些会极大损害性能的捷径解决方案。

具体到月之暗面自己的解决方案,月之暗面主要集中在两点。

一是网络结构创新,二是项目优化。

下一步目标是基于产品驱动迭代升级,将技术与产品结合起来。

最终目标是打造C端超级App。

并且有望在明年发布多模态产品,因为在杨植麟看来,任何模式下对数据进行无损压缩都可以实现高度的智能化。

无损压缩相当于预测数据的联合概率分布,而多模态数据的生成本质上就是预测数据的联合概率分布。

月之暗面创始团队 目前,刚刚起步的月之暗面已获得红杉资本、今日资本、理思资本等投资者近20亿元融资。

除了大车型的火爆之外,高估值、高融资和创始团队的快速进展也不无关系。

从目前公开的信息来看,月之暗面的核心联合创始团队共有三人。

创始人兼首席执行官杨植麟毕业于清华大学计算机系。

高中时,没有编程基础的杨植麟被选入信息学奥林匹克训练班,并最终通过比赛考入清华大学(非计算机系)。

直到大二,他才发现自己对计算机更感兴趣,于是果断转学到计算机系,师从清华教授、IEEE Fellow唐杰。

在计算机科学系学习期间,杨植麟以满分通过了所有编程课程。

2008年,他以年级第一名的成绩毕业,随后前往CMU(卡内基梅隆大学)语言技术学院攻读博士学位,师从苹果公司AI负责人Ruslan Salakhutdinov、首席技术官William W. Cohen谷歌人工智能科学家。

△杨植麟与鲁斯兰·萨拉胡迪诺夫(右一)、威廉·科恩(左一)合影。

在CUM学习期间,杨植麟不仅与图灵奖得主、深度学习三巨头之一的Yoshua Bengio合作发布了“火锅问答”数据集HotpotQA; Identity,在 XLNet 和 Transformer-XL 上发表的作品。

前者已成为 NeurIPS 和 ACL 被引用次数最多的论文之一,引用次数超过了 Google Scholar,而后者的引用次数也超过了。

AI天才杨植麟大型模型产品,特点:长长长长长

杨植麟曾与Yoshua Bengio(图灵奖得主,深度学习三巨头之一)、Yann LeCun(图灵奖得主,深度学习三巨头之一)、Quoc V. Le(谷歌创始人之一)共事过。

Brain)、何凯明等人共同撰写了这篇论文。

据不完全统计,在ICLR、NeurIPS、ICML、ACL、EMNLP等计算机顶级会议上发表论文20余篇,研究成果Google Shcolar引用累计0次以上。

通常情况下,CMU的博士学位之旅是6年开始的,但杨植麟只用了4年就成功获得博士学位。

第二位联合创始人是目前月之暗面算法团队负责人周新宇。

他是清华大学的本科生,与杨植麟、张玉涛同为计算机系学生。

周新宇毕业后选择加入旷视,工作内容是算法量产。

任职期间,他与旷视研究院基础科学研究负责人、ResNet作者之一张翔宇研究移动模型,并作为共同作者撰写了ShuffleNet论文,该论文被CVPR接收。

这项工作后来影响了各种手机毫秒人脸解锁技术,包括苹果的3D人脸解锁。

另一位联合创始人是吴宇鑫,目前持有公司5.96%的股份。

吴宇新和杨植麟一样毕业于清华大学和卡内基梅隆大学,研究方向是计算机视觉中的检测和识别问题。

毕业后,他先在Meta的FAIR工作,与AI大师何凯明共同提出了群归一化(GN)方法。

在此期间,他还创建了 Meta* 的人工智能项目之一 detectorron2。

在Google奖学金上,吴雨馨被引用次数超过0次。

三人联手创业,目前公司规模已扩大到50-60人左右。

有趣的是,《月之暗面》的三位联合创作者均来自清华大学。

这不禁让人想起今年大模特热潮中清华系占创业团队半壁江山的现状。

包括师从唐杰的清华大学教授唐杰,都与另一大模范创业明星智普AI有着千丝万缕的联系。

杨植麟直言对这种竞争格局的看法:“大模型空间很大,任何一家公司都很难面面俱到。

有ToB和ToC,技术路线也不同。

我认为这是一个巨大的挑战。

”空白区域。

”他认为,除了OpenAI之外,中国的几家公司也有机会产生自己的价值。

公司名称 One More Thing 源自杨植麟最喜欢的专辑《The Dark Side of The Moon》。

在清华大学时,联合创始人之一的周新宇与杨植麟共同创立了一支乐队,并创作了一首关于“做着创业成功、一夜暴富的白日梦”的歌曲。

所以,在媒体沟通会上,当被问到“现在还摇滚吗?”时,得到的答案是:公司里现在有两把电吉他和一架钢琴(doge)。

【本文由投资社区合作伙伴微信公众号授权:量子比特。

本平台仅提供信息存储服务。

】如有任何疑问,请联系投资界()。

AI天才杨植麟大型模型产品,特点:长长长长长

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 80后医生转身创业,即将IPO

    80后医生转身创业,即将IPO

    又一家医疗器械公司抢IPO。 投资界获悉,上海捍宇医疗科技股份有限公司(以下简称“捍宇医疗”)已向香港联交所提交招股说明书,准备赴港上市。 捍宇医疗成立仅五年,是一家从事心血管领域产品研发和生产的高科技公司。 目前,公司的核心产品二尖瓣介入器械ValveClamp用于二尖

    06-18

  • 乌兹别克斯坦:计划再招标900MW光伏项目

    乌兹别克斯坦:计划再招标900MW光伏项目

    乌兹别克斯坦能源部透露,计划再启动两轮太阳能招标,建设大型光伏电站。 第一轮招标计划在布哈拉、花剌子模和纳曼干地区进行,乌兹别克斯坦政府希望在这些地区部署兆瓦级光伏设施;第二轮采购活动预计将在卡什卡达里亚和费阿加纳地区部署兆瓦级太阳能装机容量。 不过,更多

    06-08

  • 投资界新闻 -京东与都市丽人共同成立10亿元时尚产业基金

    投资界新闻 -京东与都市丽人共同成立10亿元时尚产业基金

    投资社区(微信ID:pedaily)据2月7日消息,京东与都市丽人今日宣布,将共同成立时尚产业基金基金规模10亿元人民币。 产业基金投资于内衣服饰及上下游周边产业公司。   据了解,京东与都市丽人将共同成立基金管理公司,基金管理公司将发起设立规模10亿元的时尚产业基金。 该

    06-17

  • 以女性瑜伽为切入点,网红达人旗下平台今日瑜伽获数百万元天使轮融资

    以女性瑜伽为切入点,网红达人旗下平台今日瑜伽获数百万元天使轮融资

    投资界消息,网红达人旗下平台今日瑜伽近日宣布获数百万元人民币融资在天使轮融资中。 无忧传媒和扬州软件园。 今日瑜伽定位为“以女性瑜伽为切入点的网红达人平台”。 其具体业务包括瑜伽教学培训基地、瑜伽短视频平台和瑜伽网红机构。 今日瑜伽APP是一款常见的在线瑜伽练习

    06-17

  • 印尼社交电商平台Chili beli完成1000万美元A轮融资

    印尼社交电商平台Chili beli完成1000万美元A轮融资

    据投资界3月24日消息,据36氪报道,印尼社交电商平台Chili beli近日宣布完成1万美元系列融资融资。 本轮融资由美国风险投资公司 Lightspeed Venture Partners 领投,Golden Gate Ventures、Sequoia Surge、Kinesys Group 和 Alto Partners 跟投。 本轮融资的部分资金将用于继

    06-18

  • 众创视频完成新一轮战略融资,小米集团领投,

    众创视频完成新一轮战略融资,小米集团领投,

    3月4日消息,目前,众创视频已完成新一轮融资。 本轮融资由小米集团领投,顺为资本跟投。 特别义柏资本充当专属财务顾问。 此前,该公司已获得字节跳动全资子公司的战略投资。 中创视频成立于2016年,是一家专注于云视频会议系统软硬件研发的高科技公司。 主要依托自主算法和

    06-18

  • 百亿基金中的基金寻找GP:深创投、联想创投刚刚中标

    百亿基金中的基金寻找GP:深创投、联想创投刚刚中标

    国家中小企业发展基金又出手了。 据投资界(ID:pedaily)12月8日消息,昨日,国家中小企业发展基金有限责任公司官网公告称,第二批第五、六期子基金已获募集。 签署并实施。 获奖子基金管理机构为深创投。 和联想创投。 作为注册资本5000万元的国家市场化基金中的基金,国家

    06-17

  • 江苏人体器官芯片荣获全国颠覆性技术创新大赛最高奖

    江苏人体器官芯片荣获全国颠覆性技术创新大赛最高奖

    江苏新闻 据江苏公共新闻频道《新闻空间站》:近日,??在首届全国颠覆性技术创新大赛上,江苏省人体器官芯片公司研发的人体器官芯片江苏队的芯片器官项目获得了本次大赛的一等奖。 通过从患者身上抽取3毫升血液,将跳动的心肌细胞注入精心设计的芯片中,就可以构建并模拟心脏

    06-06

  • 【创业24小时】2023年5月23日

    【创业24小时】2023年5月23日

    投融资昨天,国内市场共发生15起投资披露事件,其中先进制造4起(启杰软件、智仑超纯、艾博特里、边境智控)、企业服务案例3个(领信数码、智丰引擎、潞晨科技)、电商零售案例3个(王牌猪、泰山啤酒、MOODLES)、医疗健康案例3个(维吉欣生物、元一生物、耀明生物)、1个当地

    06-17

  • 柔宇科技:是否存在“三类股东”等情况还有待论证,科创板上市申请已暂停

    柔宇科技:是否存在“三类股东”等情况还有待论证,科创板上市申请已暂停

    柔宇科技内部人士表示,从公司股东结构来看,存在直属级“三类股东”等资格情况。 待进一步论证,考虑到公司发展战略,经研究决定暂停申请科创板上市。 听,中小企业反馈平台。 倾听用户需求,倾听创业者声音,解决中小企业痛点。 点击立即参与调查并获得礼物。

    06-17

  • 中国资本海外投资概况

    中国资本海外投资概况

    中国资本海外投资始于2007年,近年来投资交易数量有了重大突破和发展。 2009年以来,中国资本每年对外股权投资超过10万笔;战略投资和Pre-A轮合计占比超过66%;从投资交易币种来看,90%的交易以美元为主;从投资国家来看,中国资本已在海外50多个国家进行了投资,其中美国投资

    06-17

  • 【创业24小时】2022年8月12日

    【创业24小时】2022年8月12日

    投融资昨天,国内市场共发生13起投资披露事件,其中先进制造5起(超半导体、蓉矽半导体、拓普达、富阳欣奕华、燧原科技) 、医疗健康案例2个(百因诺科技、盈思智能)、企业服务案例1个(希姆计算)、游戏案例1个(银钥匙网络)、电商零售案例1个(淘九漫)、本地生活1个(狂

    06-18