首页 > 科技未来 > 内容

AI新速度!深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

发布于:2024-06-18 编辑:匿名 来源:网络

创始人、深言科技CEO齐凡超(以下为本次演讲节选,仅供学习参考)深言科技,由清华大学自然语言处理实验室(THUNLP)与北京致远人工智能孵化情报研究所(BAAI)。

早在当年1月,创始团队就参与完成了致远五道CPM大模型的训练,同年12月,又率先采用可控预训练技术进行CPM-3模型训练。

2020年3月,深研科技正式成立,旨在打造新一代基于大规模预训练模型的智能文本信息处理平台。

在深研科技的模型训练和部署过程中,阿里云PAI平台为其提供了低成本、高性能、灵活便捷的产品和服务体验。

大模式创业的四大底层逻辑 大模式是近六个月最热门的创业赛道。

做好这件事,我们一直坚持四个基本逻辑:一是要在高原上造峰。

平台期是指基础模型能力,峰值是指解决特定领域特定任务和问题的能力。

与过去的自然语言处理不同,今天的基础模型在整体能力上有了很大的提高。

想要进入大模型赛道,就必须有一个比较强的基础模型,不管是基于别人的模型还是自己开发的模型。

但只有基本模型是不够的。

基本模式之上的垂直能力建设,是创业企业差异化优势的顶峰。

从必要性和可行性的角度来看,无论模型的规模和参数数量有多大,总会存在知识冲突和行业数据之间的矛盾。

例如,在教育场景中,语文、数学、编码等不同领域的模型的能力是有潮起潮落的。

即使收集了大量的语文、数学、编程数据来训练模型,这些数据也可能相互冲突和影响。

健康)状况。

另一方面还有成本的问题,因为想要提升大型模型的整体能力,对参数量和计算能力的要求会非常高。

在这种情况下,想要务实地推动模式落地,就需要在现有基础模式的基础上,通过垂直能力或者解决特定领域问题的能力来实现。

我们可以看到gpt-3.5-turbo模型开启了微调接口。

经过微调后,效果优于GPT4,这也证明了通过垂直化和微调技术提高模型性能的可行性。

其次,规模化创业必须打通最后一公里。

现在很多模型都采用简单统一的对话交互模型,集成多种能力,似乎能够应对所有问题。

但在实际实现的过程中,我们会发现不仅是交互,模型本身也存在突出的局限性,比如错觉问题、逻辑推理问题、计算、知识更新问题等等,这些都是现有的大型模型难以解决的问题。

大模型距离最终的业务场景落地还有一段路要走。

无论是修改模型、优化项目,还是与其他工具配合使用,这些都是必要的。

而且是场景驱动、数据闭环。

从模型到产品落地,乃至最终的差异化和商业化,这些都需要场景驱动,最终实现数据闭环。

因为无论大模型技术多么强大,最终都必须遵循技术逻辑和业务逻辑。

在实现模型的过程中,需要考虑几个关于数据的问题:第一,如何对数据进行分类和分析。

模型训练的数据可能涉及不同的任务、不同的行业、不同的领域;另外,还有不同粒度的数据,比如个人数据、组织数据等。

第二,如何选择和过滤数据。

我们发现低质量的数据可能会影响模型的训练效果,甚至导致模型达不到预期的结果。

因此,需要考虑如何精准筛选出符合任务要求的数据,并通过先进的技术手段进行处理和过滤,使其适合模型训练。

第三,选择要添加数据的链接。

数据贯穿模型的预训练、持续训练、标注、对齐等过程。

每个环节数据参与程度不同,对最终结果的影响也不同。

因此,选择何时包含哪些数据是一个需要仔细考虑的问题,因为每个步骤都有其独特的优点和缺点。

第四,如何让数据实现闭环。

这不仅需要产品思维,还需要模型和技术支持。

例如,当我们收集一些用户的个性化数据时,我们需要思考如何最大化数据的价值,转动数据飞轮并建立壁垒。

最后,为了构建一个大模型并实现它,在预训练、持续训练、微调和对齐中优化整个模型链至关重要。

链接越深,数据的杠杆作用就越大,优化的空间就越大,建立的技术壁垒也就越高。

AI新速度!深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

大模型商业化的核心:解决特定场景下的供需任务 早在年初,当我们开始打造大模型的时候,国内大模型的发展还处于早期阶段,很多人并没有意识到这一点。

甚至有具体的概念。

但最本质、最核心的业务问题是大模型需要针对哪些特定人群,需要解决什么问题,需要创造什么价值。

我们可以从四个层面来看待大模型的落地和商业化。

最底层是模型,包括通用模型和垂直领域和特定任务模型。

以上是能力,用于解决下一个层面的关键场景和具体任务。

上面是根据关键场景对目标行业的概括。

最核心的中间环节是场景,链接供需双方。

我们调查了很多行业,包括政府、金融、媒体、营销、教育等,发现他们都有大量的信息处理需求,最终提炼总结出一个信息处理的闭环场景。

它可分为三个环节:信息输入、信息处理和信息输出。

原始信息从不同渠道进入个人或组织的信息处理中心,经过处理整合产生新的信息。

同时,这些信息也存储在组织的信息仓库中,以供后续使用。

目前每个环节都可以依靠大模型进行重塑,并且市场上也有每个环节对应的产品,但还没有一个模型能够真正实现闭环。

想要做好每一个环节,光靠大模型是不够的。

即使是最先进的通用大型模型如GPT-4或Claude-2也无法完美解决。

相反,通过结合场景或任务数据对模型进行微调,或者添加其他能力的模型作为辅助,最终的效果将超过通用大型模型。

深研科技在创业第一年就一直致力于利用可控预训练技术来训练模型,使其具备可控生成能力。

今年,我们也在不断创新和探索。

借助最新技术,我们对长文本处理、数据匹配等大型模型实现需要解决的一些问题进行了深入探索。

就像在高原上建一座高峰一样,深言科技利用大模型来解决不同行业或领域特定场景下所需的任务,包括检索、生成、对话、摘要等。

以我们的产品 Deep Speech 为例。

它结合了大语言模型和检索能力,采用自然语言对话交互,可以找到用户想要的单词或句子。

例如,如果用户想说今天天气很热,它可以找到表达这个意思的单词或句子,例如“火伞很高”、“太阳像火一样”等;此外,用户还可以使用更复杂的描述进行搜索,例如与“热门”一词相关的词。

如今,我们的产品拥有超过 10,000 名用户,每月活跃用户超过 700,000 名。

这个产品本身也满足上述四个底层逻辑。

一是打造高原、高峰。

基于自主研发的大模型,我们根据词句检索的任务需求,使用大量相关语料进行模型微调训练,其中还包括大量的标注工作,以实现适合的垂直模型为了这个任务。

二是走好最后一公里。

单纯依靠大型语言模型驱动就可以实现自然语言交互,但由于错觉问题和知识问题,很多生成的内容无法直接使用。

因此,大模型理解需求后,仍然需要依靠语言检索能力来实现更准确地检索所需的单词或句子——这目前仅依靠chatGPT等生成模型是无法实现的。

三是构建数据闭环。

深研大易将持续收集用户反馈数据和查询数据,并迭代模型。

目前我们已经收集了近百万条用户数据,并且正在不断改进我们模型的能力。

最后一步是整个环节的优化。

在预训练阶段,你自己的模型会添加很多预训练的相关数据,包括后续的SFT和对齐,都是针对任务进行优化的。

最终实现了该场景大型模型的深度定制和集成。

借助云计算能力,深研科技基于阿里云PAI平台进行大型模型训练和部署。

到目前为止,阿里云为我们提供了很多帮助。

核心就是提供强大的GPU计算能力。

深研科技主要基于阿里云PAI平台进行大模型训练和部署,包括机器学习和框架层面的构建和交互建模能力。

我们最大的感受就是体验好、成本低、性能高。

我们利用PAI-DSW和PAI-DLC灵活地进行交互式编程,使用各种灵活稳定的训练环境,降低模型训练的工程成本,工作效率很高。

我们曾经考虑过是否要建立自己的机房。

经过研究,我们发现对于我们这样规模的企业来说,成本太高,尤其是运维成本。

PAI平台可以方便地与其他云产品对接,如OSS等,有效降低模型的整体训练成本和运营管理成本。

最后,在性能训练方面,除了硬件环境之外,阿里云还提供了很多可以帮助我们提升模型性能的中间模块和组件。

我们可以使用EasyCkpt组件来快速存储模型,减少训练中断带来的损失。

我们在阿里云PAI平台上近千卡集群上稳定训练了一个月左右。

GPU计算利用率接近%,FLOPs利用率超过50%。

这是我们目前在阿里云灵君平台上做的部署。

另外,我们还借助阿里云的弹性计算等产品对外提供服务。

AI新速度!深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 晨晖浪子消费升级投资基金募资完成,晨晖携手浪子投资“浪子医美”2.45亿元

    晨晖浪子消费升级投资基金募资完成,晨晖携手浪子投资“浪子医美”2.45亿元

    据投资界1月16日消息,晨晖资本今日正式宣布完成募资“晨晖浪子消费升级投资基金”募资力度。    据悉,该基金成立于今年12月,由晨晖资本与上市公司浪子股份共同设立。 该基金聚焦消费升级行业,重点关注医美、母婴、美容个人护理、宠物经济等细分行业。 开展成长期投资和

    06-18

  • 阿里出手,投资峰瑞资本

    阿里出手,投资峰瑞资本

    阿里出手,投资峰瑞资本。 近期,峰瑞资本发生工商变更。 财联社创投通-致中数据显示,锋锐资本旗下上海锋锐睿嘉投资中心(有限合伙)已新增合伙人,包括淄博华瀚鼎盛股权投资合伙企业(有限合伙)、上海兴嘉股权投资合伙企业(有限合伙) 、阿里巴巴(中国)有限公司、蚂蚁

    06-18

  • 大型AI模型的语言不平等:英语训练最便宜,中文训练比英语贵2倍

    大型AI模型的语言不平等:英语训练最便宜,中文训练比英语贵2倍

    近日,X(前Twitter)用户@Dylan Patel展示了牛津大学的一项研究:通过GPT-4和大多数研究发现,与其他常见语言相比,LLM(大型语言模型)的推理成本差异很大。 其中,英语的输入和输出比其他语言便宜得多,简体中文的成本约为英语的2倍,西班牙语为1.5倍,缅甸掸语为15倍。

    06-21

  • 爱博生物完成3亿美元C+轮融资,由软银愿景、五源资本领投

    爱博生物完成3亿美元C+轮融资,由软银愿景、五源资本领投

    投资社区(ID:pedaily)11月29日消息,苏州爱博生物科技有限公司(以下简称“爱博生物”) )宣布完成3亿美元C+轮融资。 本轮融资由软银愿景基金和原股东五源资本联合领投,Chimera Abu Dhabi、富海成长基金、金镒资本、新风天域、IMO Ventures、未来资产集团等跟投。 这是软

    06-17

  • 欧若数据网络获800万美元Pre-A轮融资

    欧若数据网络获800万美元Pre-A轮融资

    投资界6月5日获悉,据36氪报道,图数据库开发商欧若数据网络科技有限公司(以下简称“欧若数据网络”)欧若数据网”)已完成百万美元Pre-A轮融资。 本轮投资方为红点创投中国基金和经纬中国。 本轮融资将主要用于最新产品2.0版本的开发以及全球市场拓展。 图数据库是专门为处

    06-18

  • 借壳盛宴的PE推动者:纠结的退出选择 高灰色成本

    借壳盛宴的PE推动者:纠结的退出选择 高灰色成本

    IPO暂停造就了一场借壳上市盛宴。   10月23日晚,停牌一个半月以上的梅花伞发布公告称,公司拟出售全部资产及负债,收购上海游族信息技术有限公司(以下简称“游族”)。 简称“上海游族”)以发行股份的方式。 % 公平。   这只是近期A股借壳热潮的一部分。 各类上市公司

    06-18

  • 亿航上市新消息,最高融资4640万美元,股票代码“EH”

    亿航上市新消息,最高融资4640万美元,股票代码“EH”

    雷锋网消息,12月5日,中国无人机制造商亿航更新了此前向美国证券交易委员会(SEC)提交的文件F -1 招股说明书。 该公司拟在美国纳斯达克上市,股票代码“EH”。 招股书显示,亿航此次IPO的承销商包括摩根士丹利、瑞士信贷、Needham & Co和老虎证券;除了上述信息之外,这份更

    06-18

  • 聚美优品上市前的陈欧:从“村”里走出来的电商新贵

    聚美优品上市前的陈欧:从“村”里走出来的电商新贵

    2019年4月11日,聚美优品向美国SEC提交招股书,拟赴美上市并拟融资通过首次公开募股。 高达4亿美元的资金。 招股书中披露的一些数字显示了聚美优品近年来的发展速度和规模:聚美优品2018年净营收为2.33亿美元,2018年升至4.83亿美元。 然而,很多人不知道,这家公司很可能成为

    06-18

  • 上半年集成电路产品对东盟出口增长29.1%

    上半年集成电路产品对东盟出口增长29.1%

    作为全球电子制造产业链的一部分,我国与越南、马来西亚、新加坡等东盟国家产业联系密切,集成电路等相关产品进出口规模持续上升。 今年上半年,我国从东盟进口集成电路1亿元,增长23.8%,占自东盟进口总额的24.2%,向东盟出口集成电路8亿元,增长29.1%,占对东盟出口总额的2

    06-08

  • 可持续发展即服务解决方案提供商“Ecolytiq”获得1350万欧元融资

    可持续发展即服务解决方案提供商“Ecolytiq”获得1350万欧元融资

    6月1日消息:据TheSaaSnews报道,可持续发展即服务解决方案提供商Ecolytiq近日获得Segenea Capital的1万欧元融资。 、VCM Global Asset Management 和 btov 管理的基金。 据了解,本轮融资将用于进一步开发产品、拓展其运营市场。 Ecolytiq 总部位于德国柏林,由 David Lais

    06-17

  • 【投资日报】VC们纷纷退出,看看中国互联网的地下世界

    【投资日报】VC们纷纷退出,看看中国互联网的地下世界

    【资本大事件】  1。 互联网进入阴霾期:VC们急于退出发财离开  “天上到处都是飞东西要卖的项目”,一位大型投资机构的投资总监告诉腾讯科技。 现在每天都会收到大量来自互联网创业公司甚至待上市项目的销售意向,他对市场上流传的各种并购传闻不再那么惊慌了,“FA(投

    06-17

  • 极目智能完成过亿元B轮融资,运联资本领投

    极目智能完成过亿元B轮融资,运联资本领投

    据投资界2月22日消息,ADAS公司极目智能近日完成过亿元B轮融资。 据了解,本轮融资由运联资本领投,现代汽车集团、辰涛资本、兆瑞资本、武汉光电产业研究院孵化基金和光谷人才基金跟投。 本轮融资将主要用于公司未来的研发投入、市场运营等。 此外,极目智能还宣布与韩国现代

    06-17