当地文旅,在抖音
06-17
6月6日,创新工场首席科学家、兰州科技创始人周明博士代表兰州科技在京与华夏基金签署战略合作协议宣布成立“金融NLP联合实验室”。
这是周明去年12月离开微软亚洲研究院后的又一重大举措。
周明·博士是我国自然语言处理(NLP)研究的先驱之一:他是中国第一个中英翻译系统CEMT-I(哈尔滨工业大学)、日本最著名的中日机器翻译产品J -北京(日本高密度株式会社开发者,曾任国际计算语言学协会(ACL)主席、中国计算机学会理事、中文信息技术专委会主任、术语工作委员会主任、 2008年,周明加入微软亚洲研究院,随后担任自然语言研究组的负责人、微软亚洲研究院副院长。
2020年,他从微软辞职,随后以首席科学家的身份加入创新工场。
2016年6月,他孵化了兰舟科技,7月推出了轻量级模型——“孟子”,在汉语理解评测CLUE排行榜上多项指标名列前茅。
。
登顶第一名便引起了众多关注。
如今,不到一年的时间,兰州科技就与华夏基金成立了“金融NLP联合实验室”,致力于实现NLP技术在金融场景的落地,成长速度确实很快。
根据《AI技术评论》与周明博士的对话,在这场与金融的“联姻”中,轻量级模型“孟子”将扮演重要角色。
华夏基金首席数据官陈一新表示,在过去的“金融+NLP”建设中,他们经常面临模型对行业场景适应性差、训练成本高、中文理解能力不足等问题。
面对金融领域高度专业化的文本和不断变化的应用场景,构建快速实现、易于迭代、适应金融垂直领域的中文NLP模型是迫切需要实现的目标。
这时,“孟子”的轻量级优势就发挥出来了。
周明对《AI技术评论》表示,“孟子”等轻量级模型部署成本低、可快速迭代、用户压力小、适应性强。
另外,通过知识融合和数据增强,能力可能不逊于大型模型,非常适合金融场景的需求,也更容易实现。
以下是雷锋网-AI科技评论与周明博士的对话: AI科技评论:您能简单介绍一下兰州科技与华夏基金成立金融NLP联合实验室的背景吗?周明:我年底离开微软亚洲研究院,到创新工场担任首席科学家职务。
我去年6月孵化了兰州科技。
兰州科技的核心技术是自然语言理解,可以用来实现文本的智能理解、搜索、问答、摘要、翻译、知识图谱等,但具体实现需要找场景。
当我刚创办兰州科技时,我首先想到的是金融。
当时我想,如果我想进入金融领域,我不应该与别人孤立,而应该有更紧密的合作。
我们需要了解金融的需求,金融方面也需要知道我们的技术优势和劣势,所以我开始寻找能够与我们紧密合作的金融合作伙伴。
就在去年10月,我受邀参加在上海举行的智能投资研究会议并做了专题报告,介绍了兰州科技的自然语言处理技术,包括“孟子”预训练模型。
华夏基金的杨思成就在观众席上,对我们很感兴趣。
他把我介绍给了华夏基金首席数据官陈一新,我们一拍即合。
我们都认为,过去科技公司和金融公司的项目合作模式还不够紧密。
项目制是甲乙双方制定需求,我围绕需求提供技术并按时交付。
但技术的不断迭代需要技术和场景的紧密结合,所以我和陈一新最终决定用“联合实验室”的方式,把大家放在一个篮子里,让AI能够随着市场的变化快速迭代,企业也可以更好地理解人工智能。
AI科技评论:项目制是目前AI/NLP与其他领域结合的主流合作形式吗?联合实验室相对较少吗?周明:是的。
这里我想说明一下,金融是一个特殊的领域。
与一些领域能够实现相对标准化服务不同,“AI+金融”或者“金融+AI”目前还没有定论。
金融需求不那么明确,场景多样。
与此同时,AI技术也在不断迭代。
例如,大型模型大约每三个月需要迭代一次。
因此,金融行业的人们对AI充满渴望,但又觉得太复杂,跟不上AI的步伐。
这样一来,项目体系就会产生一些问题,而联合实验室可以更灵活地应对这种快速变化的情况,发挥出双方的优势和特长。
AI科技评论:据您观察,目前国内落地NLP或者借助NLP技术进入金融领域的企业有很多吗?周明:两者都没有太多。
由于技术限制,NLP 实施起来比较困难,因此全球范围内 NLP 公司相对较少。
但百度、微软、谷歌等背后都有NLP团队,主要是服务于自己的业务和产品。
作为一个组件,比如拼写检查、文档分析、索引等,但是专门研究NLP技术的公司却很少。
近两年大模型出现后,NLP的能力得到了很大的提升。
一些人已经开始尝试基于NLP技术创业。
但由于疫情影响,他们无法实施,很多研究人员仍在等待机会。
也有一些公司使用NLP作为应用,比如客服公司,但他们并不专门研究NLP。
AI科技评论:金融业务有哪些特点? NLP在金融场景下能解决哪些问题?周明:我们先谈谈NLP(自然语言处理)技术。
目前,NLP领域有很多基于互联网海量数据训练的大规模预训练模型,在过去几年也引起了全世界的广泛关注。
然而兰州科技做出来的却是“孟子”轻量化典范。
该模型体积小、易于实现,并且具有分析、搜索、翻译、生成的能力。
NLP的这些能力在金融领域有很多用途,比如智能信息提取。
几乎所有财务单位都必须处理许多非结构化、结构化或半结构化文档,例如带有表格和字段的网页。
例如,资金的变化、昨天的价格、今天的价格、资金数量、买家数量、交易量、增减等,都可以写在年报中或者网页上。
我们将利用智能文档分析技术提取重要信息,形成数据库。
想想其他能力,NLP几乎贯穿于金融业务的方方面面,因此金融机构非常重视NLP技术。
然而,要很好地开发和部署NLP能力并以极低的成本快速、轻松地使用它们并不容易。
AI科技评论:在这次NLP与金融的结合中,“孟子”模式的落地是如何体现的?周明:“孟子”将体现在兰州公司的所有技术体系中,包括智能文档、信息抽取、知识图谱、搜索问答、文本生成等。
这些核心技术将全部进入公司与华夏共同建立的联合实验室中。
“孟子”会根据一些金融数据进行训练,获得处理金融数据的能力。

基于《孟子》,我们希望能够做金融领域的文档智能信息提取、OCR、舆情分析、雷暴事件分析、报警、风控等。
还可以对国内外金融信息进行提取、汇总、检索,自动生成年报。
呵呵市场预测等等,还有金融行业需要的客户服务、获客、客户优秀产品推荐、客户追踪、用户画像等。
AI科技解说:《孟子》强调小模型。
小模型在处理金融领域的问题上是否有独特的优势?周明:在一定情况下,模型越大、参数越多,泛化能力越强、水平越高。
这是共识。
然而,训练一个巨大的模型需要巨大的计算能力。
当使用大型模型时,推理也需要大型计算集群。
需要购买数百或数千张卡来支持运营。
一般企业(包括金融机构)承担不起。
性价比也降低了。
轻量级的模型给用户带来的压力非常小。
一般只使用少量的GPU,甚至有些任务只能使用CPU。
可以大大降低部署成本,而且快速、准确。
尽管性能可能比较大型号差一点,但对于大多数用户来说还是很划算的。
也是基于这个市场,我们在成立兰州科技的时候就决定做轻量化车型。
兰州科技是国内最早研究轻量化模型的企业之一。
我们在学习《孟子》的时候,以为模型的能力会被明显削弱,但后来我们发现,如果轻量级模型的算法通过考验,再加上知识的融合和数据的增强,轻量级模型未必会输给大模特。
这是一件非常了不起的事情。
注:今年7月,《孟子》横扫排行榜,在汉语理解评测CLUE排行榜中多项指标位居榜首。
AI科技评论:训练“孟子”需要多少算力?周明:算力比较低,孟子轻量级模型用16块GPU就可以训练,训练两三周就可以了。
当然,卡越多,速度就越快。
AI科技评论:轻量化模型更经济实用吗?周明:是的,尤其是对于中国用户而言。
“孟子”模式其实是一种妥协,不一味追求大模型,也不一味追求一两点能力的提升。
为了提高真实场景中的一两点能力,可以使用其他方法,例如更多的用户数据、应用知识迭代等。
当用户使用小模型时没有成本压力并且可以快速上手时,不仅帮助企业数字化转型,也帮助我们这样的科技公司尽快落地。
所以我觉得无论从哪个角度考虑,都应该朝着轻量化的模型方向努力。
AI科技评论:“孟子”模型之所以能在某些基准上超越大型模型,是因为它是针对特定任务进行训练的吗?周明:对于自然语言分析、理解、生成等一般任务,孟子的能力不亚于大型模型。
另外,由于与业务场景的紧密结合,包括与华夏的密切合作,我们知道问题的症结是有针对性的,可以添加新的数据或知识来提高下游任务的能力。
当提供给用户时,用户不会感知模型是大还是小、快还是慢、能力高还是低,而只关心解决任务的能力。
因此,与大模型相比,孟子实际上胜出。
AI科技解说:在金融这样的特定场景下,是不是更有利于“孟子”这样的轻量级训练模型的发展?周明:金融领域很特殊。
由于其数据不公开,大型模型不太适用。
应用于金融领域的模型应具有良好的适应性。
他们应该能够在收到数据后快速适应,并根据自己的任务特点快速迭代。
这样的模型其实是非常有能力的。
也因为金融的特殊性,场景过于复杂,需求过于多样化。
迄今为止,还没有一家NLP公司能够称霸金融领域。
AI科技评论:您一直是轻量化模型的追随者吗?周明:是的,我也是一名倡导者。
当其他人在做巨大的定量模型时,我却在做相反的事情。
当时很多人都笑我,说你穷,造不起大模型。
他们说得没错,但即使我有足够的资金,我仍然觉得我应该做轻量级的模型。
我不能因为片面追求人工智能最大化而浪费资源,造成大量污染。
这是错误的。
必须有社会责任。
另外,你还必须站在客户的角度考虑问题。
实施后,小型模型的成本是最低的。
我认为中国企业不能像谷歌、微软那样靠烧钱,而应该专注于算法、智能、商业场景。
这也是我们的特点,也更有可能成为我们的优势。
阅读原文,转载自雷锋网。
如需转载,请前往雷锋网官网申请授权。
听,中小企业反馈平台倾听用户的需求,倾听企业家的声音,解决中小企业的痛点。
点击立即参与调查并获得礼物。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-06
06-21
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态