乐视网发起设立规模5亿至10亿元的投融资并购基金
06-18
作者:李扬霞编辑:陈彩娴10月9日,杨植麟创立的月之暗面也发布了一款大型模型产品——Moonshot AI。
该模型的智能助手Kimi Chat是全球首个支持20万字输入长度的大型模型。
据杨植麟介绍介绍,Claude支持约8万字,而GPT4只支持约2万字。
换句话说,Moonshot AI已经超越了支持K输入长度的大模型Claude和支持32K代币处理能力的GPT4。
其中,Claude通过提供长文本问答服务实现了产品层的突破,并于近期获得了亚马逊40亿的投资。
成立不久,月暗面已获得红杉资本、今日资本、理思资本等知名投资机构近20亿元融资。
那么杨植麟在国内大型模型公司中的地位如何呢? 硅谷极具影响力的科技媒体The Information列出了MiniMax、智普AI、Light Years Beyond和兰州科技等五家被认为可能成为“中国OpenAI”的候选人。
另一个立场是杨植麟。
杨植麟不仅师从清华大学教授、IEEE Fellow唐杰。
随后,他还前往世界排名第一的 NLP 研究机构 CMU(卡内基梅隆大学)的语言技术学院(LTI)攻读博士学位,师从苹果公司 AI 负责人 Ruslan Salakhutdinov、首席科学家 William W. Cohen。
谷歌人工智能科学家。
博士卡内基梅隆大学计算机科学专业的学生往往需要六年的学习才能毕业,而杨植麟从卡内基梅隆大学只用了四年就毕业了()。
其团队核心成员大多来自清华大学,具有明星团队的光环,备受关注。
杨植麟表示,本次创业针对的是ToC赛道,并阐述了创业的三个主要原因:一是探索智能的边界,满足好奇心;第二,探索对世界有用的东西,并与用户一起创造和发现它们。
实施场景;第三,我们希望人工智能具有包容性,为实现个性化融合提供更有力的方式。
(Kimi Chat内测界面) 1、瞄准ToC赛道 “大模型产品将进入长文本时代”,杨植麟在媒体沟通会上指出。
Moonshot AI认为,更长的上下文长度可以为大型模型的应用带来新的篇章,促使大型模型从LLM时代进入L(Long)LLM时代。
“我们认为,不仅要有足够多的参数,同时还要具备长上下文能力,这是新一代大模型记忆的标志。
“在杨植麟看来,制作一个大模型有两个条件。
第一个是参数的数量,因为参数的数量决定了能处理什么。
多么复杂的计算;第二个条件是文本长度,因为上下文杨植麟表示,突破长文本能力是“登月计划”的第一步,也为后续的多模态能力奠定了基础。
他告诉雷锋网,他计划推出多模态能力。
Moonshot AI的技术路线不是走捷径,而是脚踏实地解决算法和工程的双重挑战,在杨植麟看来,目前很多长上下文模型都走了以下三个捷径: “鲸鱼模型”、“蜜蜂模型”、“蝌蚪模型”可以理解为以滑动窗口的形式直接主动丢弃上面的很多,虽然号称范围很远,但实际上支持的范围很远。
短的。
这种鲸鱼模型很难解决很多任务。
“蜜蜂模式”只关注局部,忽视全局。
虽然可以输入整个上下文,但模型可能只采样其中的一部分。
例如,如果一篇文章的关键位于中间,那么它无法提取关键信息。
“蝌蚪模型”的能力还不够。
它可能只有10亿个参数,而不是数千亿个,所以它的能力是有限的。
目前,Moonshot AI在存储、算力、带宽等方面做了很多优化。
杨植麟说,这是一篇真正可用且可产品化的长文本。
2、惊人的长文本处理能力 为什么在这场如火如荼的AI战争中,大模型的长文本处理能力成为各家公司对比的关键。
使用过大模型产品的朋友一定遇到过这样的现象:当你和大模型进行多轮对话时,它可能会忘记你之前说过的话,这时候回答的内容会过于铺天盖地。
现实情况是,大型模型在处理大量新内容时会有点不知所措,因此它们看起来会分心。
长文本处理是生成式AI的重要应用场景之一,因为良好的长文本处理能力可以让AI系统理解书籍、研究报告、法律文件等足够复杂和冗长的信息,这将为知识获取、文档分析、语义理解等方面带来实用价值。
沟通会上,杨植麟为我们展示了Kimi Chat从20万字小说中提取关键信息的能力;可一次性输入几十个文档进行提取;还可以输入链接,直接提取链接内的内容进行角色扮演;此外,您还可以分析财务报告并了解法律规定。
当被问及上下文输入太长会分散注意力的问题时,杨植麟告诉雷锋网,当你输入20万个单词时,模型肯定很难准确连接到某个token。

变得更大。
因此,这里实际上需要一些更高效的对齐方法,比如如何高效地获取好的数据并通过工程的方式实现。
这需要大量的迭代和训练,传统的鲸鱼、蜜蜂和蝌蚪模型无法解决这些问题。
Moonshot AI突破这些困难的两个关键词是“全局”和“大规模参数”。
一方面是全局思考上下文,另一方面是用千亿个参数进行训练。
这两点非常重要。
杨植麟是快车终点站。
据雷锋网(公众号:雷锋网)报道,目前各大车型仍在相互追赶的竞争中。
未来,生成式人工智能的技术竞争将集中在长文本处理领域。
本文中的作者:李扬霞、微信12月。
他长期关注网络安全领域,也关注AIGC、大模型等内容。
欢迎对以上领域感兴趣的读者添加作者微信。
雷锋网原创文章,未经授权禁止转载。
详情请参见转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-18
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态