首页 > 科技未来 > 内容

AI新速度！深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

发布于：2024-06-18 编辑：匿名来源：网络

创始人、深言科技CEO齐凡超（以下为本次演讲节选，仅供学习参考）深言科技，由清华大学自然语言处理实验室（THUNLP）与北京致远人工智能孵化情报研究所（BAAI）。

早在当年1月，创始团队就参与完成了致远五道CPM大模型的训练，同年12月，又率先采用可控预训练技术进行CPM-3模型训练。

2020年3月，深研科技正式成立，旨在打造新一代基于大规模预训练模型的智能文本信息处理平台。

在深研科技的模型训练和部署过程中，阿里云PAI平台为其提供了低成本、高性能、灵活便捷的产品和服务体验。

大模式创业的四大底层逻辑大模式是近六个月最热门的创业赛道。

做好这件事，我们一直坚持四个基本逻辑：一是要在高原上造峰。

平台期是指基础模型能力，峰值是指解决特定领域特定任务和问题的能力。

与过去的自然语言处理不同，今天的基础模型在整体能力上有了很大的提高。

想要进入大模型赛道，就必须有一个比较强的基础模型，不管是基于别人的模型还是自己开发的模型。

但只有基本模型是不够的。

基本模式之上的垂直能力建设，是创业企业差异化优势的顶峰。

从必要性和可行性的角度来看，无论模型的规模和参数数量有多大，总会存在知识冲突和行业数据之间的矛盾。

例如，在教育场景中，语文、数学、编码等不同领域的模型的能力是有潮起潮落的。

即使收集了大量的语文、数学、编程数据来训练模型，这些数据也可能相互冲突和影响。

健康）状况。

另一方面还有成本的问题，因为想要提升大型模型的整体能力，对参数量和计算能力的要求会非常高。

在这种情况下，想要务实地推动模式落地，就需要在现有基础模式的基础上，通过垂直能力或者解决特定领域问题的能力来实现。

我们可以看到gpt-3.5-turbo模型开启了微调接口。

经过微调后，效果优于GPT4，这也证明了通过垂直化和微调技术提高模型性能的可行性。

其次，规模化创业必须打通最后一公里。

现在很多模型都采用简单统一的对话交互模型，集成多种能力，似乎能够应对所有问题。

但在实际实现的过程中，我们会发现不仅是交互，模型本身也存在突出的局限性，比如错觉问题、逻辑推理问题、计算、知识更新问题等等，这些都是现有的大型模型难以解决的问题。

大模型距离最终的业务场景落地还有一段路要走。

无论是修改模型、优化项目，还是与其他工具配合使用，这些都是必要的。

而且是场景驱动、数据闭环。

从模型到产品落地，乃至最终的差异化和商业化，这些都需要场景驱动，最终实现数据闭环。

因为无论大模型技术多么强大，最终都必须遵循技术逻辑和业务逻辑。

在实现模型的过程中，需要考虑几个关于数据的问题：第一，如何对数据进行分类和分析。

模型训练的数据可能涉及不同的任务、不同的行业、不同的领域；另外，还有不同粒度的数据，比如个人数据、组织数据等。

第二，如何选择和过滤数据。

我们发现低质量的数据可能会影响模型的训练效果，甚至导致模型达不到预期的结果。

因此，需要考虑如何精准筛选出符合任务要求的数据，并通过先进的技术手段进行处理和过滤，使其适合模型训练。

第三，选择要添加数据的链接。

数据贯穿模型的预训练、持续训练、标注、对齐等过程。

每个环节数据参与程度不同，对最终结果的影响也不同。

因此，选择何时包含哪些数据是一个需要仔细考虑的问题，因为每个步骤都有其独特的优点和缺点。

第四，如何让数据实现闭环。

这不仅需要产品思维，还需要模型和技术支持。

例如，当我们收集一些用户的个性化数据时，我们需要思考如何最大化数据的价值，转动数据飞轮并建立壁垒。

最后，为了构建一个大模型并实现它，在预训练、持续训练、微调和对齐中优化整个模型链至关重要。

链接越深，数据的杠杆作用就越大，优化的空间就越大，建立的技术壁垒也就越高。

AI新速度！深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

大模型商业化的核心：解决特定场景下的供需任务早在年初，当我们开始打造大模型的时候，国内大模型的发展还处于早期阶段，很多人并没有意识到这一点。

甚至有具体的概念。

但最本质、最核心的业务问题是大模型需要针对哪些特定人群，需要解决什么问题，需要创造什么价值。

我们可以从四个层面来看待大模型的落地和商业化。

最底层是模型，包括通用模型和垂直领域和特定任务模型。

以上是能力，用于解决下一个层面的关键场景和具体任务。

上面是根据关键场景对目标行业的概括。

最核心的中间环节是场景，链接供需双方。

我们调查了很多行业，包括政府、金融、媒体、营销、教育等，发现他们都有大量的信息处理需求，最终提炼总结出一个信息处理的闭环场景。

它可分为三个环节：信息输入、信息处理和信息输出。

原始信息从不同渠道进入个人或组织的信息处理中心，经过处理整合产生新的信息。

同时，这些信息也存储在组织的信息仓库中，以供后续使用。

目前每个环节都可以依靠大模型进行重塑，并且市场上也有每个环节对应的产品，但还没有一个模型能够真正实现闭环。

想要做好每一个环节，光靠大模型是不够的。

即使是最先进的通用大型模型如GPT-4或Claude-2也无法完美解决。

相反，通过结合场景或任务数据对模型进行微调，或者添加其他能力的模型作为辅助，最终的效果将超过通用大型模型。

深研科技在创业第一年就一直致力于利用可控预训练技术来训练模型，使其具备可控生成能力。

今年，我们也在不断创新和探索。

借助最新技术，我们对长文本处理、数据匹配等大型模型实现需要解决的一些问题进行了深入探索。

就像在高原上建一座高峰一样，深言科技利用大模型来解决不同行业或领域特定场景下所需的任务，包括检索、生成、对话、摘要等。

以我们的产品 Deep Speech 为例。

它结合了大语言模型和检索能力，采用自然语言对话交互，可以找到用户想要的单词或句子。

例如，如果用户想说今天天气很热，它可以找到表达这个意思的单词或句子，例如“火伞很高”、“太阳像火一样”等；此外，用户还可以使用更复杂的描述进行搜索，例如与“热门”一词相关的词。

如今，我们的产品拥有超过 10,000 名用户，每月活跃用户超过 700,000 名。

这个产品本身也满足上述四个底层逻辑。

一是打造高原、高峰。

基于自主研发的大模型，我们根据词句检索的任务需求，使用大量相关语料进行模型微调训练，其中还包括大量的标注工作，以实现适合的垂直模型为了这个任务。

二是走好最后一公里。

单纯依靠大型语言模型驱动就可以实现自然语言交互，但由于错觉问题和知识问题，很多生成的内容无法直接使用。

因此，大模型理解需求后，仍然需要依靠语言检索能力来实现更准确地检索所需的单词或句子——这目前仅依靠chatGPT等生成模型是无法实现的。

三是构建数据闭环。

深研大易将持续收集用户反馈数据和查询数据，并迭代模型。

目前我们已经收集了近百万条用户数据，并且正在不断改进我们模型的能力。

最后一步是整个环节的优化。

在预训练阶段，你自己的模型会添加很多预训练的相关数据，包括后续的SFT和对齐，都是针对任务进行优化的。

最终实现了该场景大型模型的深度定制和集成。

借助云计算能力，深研科技基于阿里云PAI平台进行大型模型训练和部署。

到目前为止，阿里云为我们提供了很多帮助。

核心就是提供强大的GPU计算能力。

深研科技主要基于阿里云PAI平台进行大模型训练和部署，包括机器学习和框架层面的构建和交互建模能力。

我们最大的感受就是体验好、成本低、性能高。

我们利用PAI-DSW和PAI-DLC灵活地进行交互式编程，使用各种灵活稳定的训练环境，降低模型训练的工程成本，工作效率很高。

我们曾经考虑过是否要建立自己的机房。

经过研究，我们发现对于我们这样规模的企业来说，成本太高，尤其是运维成本。

PAI平台可以方便地与其他云产品对接，如OSS等，有效降低模型的整体训练成本和运营管理成本。

最后，在性能训练方面，除了硬件环境之外，阿里云还提供了很多可以帮助我们提升模型性能的中间模块和组件。

我们可以使用EasyCkpt组件来快速存储模型，减少训练中断带来的损失。

我们在阿里云PAI平台上近千卡集群上稳定训练了一个月左右。

GPU计算利用率接近%，FLOPs利用率超过50%。

这是我们目前在阿里云灵君平台上做的部署。

另外，我们还借助阿里云的弹性计算等产品对外提供服务。

AI新速度！深研科技如何在云端构建基于大模型的智能信息处理平台 -阿里云创业者计划

站长声明

标签：

上一篇：利和味食完成D轮融资，华兴新经济基金与银山资本联合领投

下一篇：华立智行获数千万元Pre-A轮融资

北京博瑞耀明创业投资有限公司上官鸿：文化创意产业并购机会很多

图为副总经理与北京博瑞董事会、监事会成员上官鸿盛德创业投资有限公司　　投资界消息12月15日，中国文化与金融创新峰会在北京举行。北京博瑞耀明创业投资有限公司董事会、监事会成员上官鸿表示，博瑞耀明早期并购一直采取全现金方式，“因为我们上市公司拥有非常充裕的现金

06-17
麦穗获数千万元Pre-A轮融资，智通人才领投

据投资界3月22日消息，麦穗近日透露已获数千万元Pre-A轮融资的融资。本轮融资由智通人才领投。投资和盈益资本也参与了投资。　　据悉，本轮融资资金将主要用于人工智能技术研发、开发新业务产品以及营销团队建设。　　按麦穗联合创始人王露颐介绍的说法：麦穗就像一台优

06-17
继抖音升级整改后，西瓜视频也将暂时关闭手机视频上传功能

据投资界4月12日消息，记者获悉，西瓜视频已主动停止手机视频上传、直播、弹幕等产品的功能也将于4月10日暂时关闭，具体功能恢复时间将根据后续整改情况确定。　　西瓜视频表示，将严格按照《互联网视听节目服务管理规定》进一步完善标准，对平台现有及过往内容进行全面自纠

06-17
韵达股份：5月份快递服务业务收入32.49亿元，同比增长22.79%

韵达股份晚间公告，公司5月份快递服务业务收入32.49亿元，同比增长22.79%；快递业务单票收入为2.02元，同比下降0.98%。

06-17
阿里云携手九家领先企业向中小企业开放需求场景

随着客户需求的日益变化，越来越多的大企业选择通过“开放创新”模式来提高创新效率，即、购买外部技术或投资中小企业，基于外部研究成果，与创新型企业进行共创，实现共赢。正因为如此，创业初期的企业只要拥有雄厚的技术实力和独特的创新理念，就有机会与行业领军企业合作

06-17
AI芯片下半场：群雄围攻NVIDIA

NVIDIA现在过得非常红火。从虚拟货币热潮到AI大模型时代，英伟达这几年的发展速度超过了之前任何时期，也助推了这家芯片公司市值成功突破1万亿美元大关。不过，相比于虚拟货币城堡般的虚拟经济，大型AI模型带来的“真实需求”才是英伟达突破万亿市值大关的核心驱动力。据

06-17
方豹春季发布会：豹5全产品矩阵首发

4月16日，“方华”方豹汽车春季发布会在深圳举行。现场，方豹汽车总经理熊甜波正式发布了方豹产品矩阵：新能源越野标准定义者豹5、硬核旗舰豹8、豹3概念车SUPER 3和概念跑车SUPER 9。四种型号充分满足用户的个性化需求。，重点展示方程豹针对汽车产品形态和用户生活的全新

06-18
呼叫中心系统在零售行业的实际应用：优化客户服务，提升销售业绩

.wp-block-column h3{margin-left:0} 在当前竞争激烈的零售行业，提供卓越的客户服务已成为商业成功的关键因素之一。 Udesk呼叫中心系统通过其先进的功能和智能化的特性，为零售企业提供了一套全面的解决方案，从而在优化客户服务、提高销售业绩方面取得了显着的效果。 1、智

06-18
Sensor Tower：腾讯《王者荣耀》 3 月全球营收 2.57 亿美元，同比增长 63%

Sensor Tower 商店情报数据显示，腾讯《王者荣耀》在全球 App Store 和 App Store 吸金 2.57 亿美元3月份的Google Play，与今年3月份相比，增长了63%，重回冠军在全球手游畅销榜的宝座。中国应用商店收入占比96.3%，海外版本占比3.7%。腾讯《和平精英》和《PUBG Mobile》

06-18
“企云方”获数千万元Pre-A轮融资，戈壁创投领投

投资界（微信ID：pedaily）3月3日报道，企云方科技完成数千万元Pre-A轮融资，戈壁创投领投。一轮融资。本轮融资由戈壁创投领投，用友产业基金跟投。投资界人士表示，本轮融资将用于推动产品研发优化，以及企业营销和技术团队的扩充。企云方科技于2016年在美国硅谷成立研发

06-18
“交朋友”是AI行业的新方向

Snapchat最近遇到了大麻烦。英国隐私监管机构信息专员办公室（ICO）向 Snapchat 发出了初步执法通知，因为 ICO 认为 Snapchat 在推出 MyAI 之前没有充分评估 AI 技术带来的数据保护风险，使得 MyAI 存在潜在危险。不过，ICO强调，这只是临时调查结果。 Snapchat可以提供证据

06-21
天津乡村振兴引导基金启动，规模25亿

投资界消息（ID：pedaily），6月8日，天津乡村振兴基金正式启动。基金规模25亿元，最终撬动资金及项目群规模达1亿元。据悉，天津乡村振兴基金是25亿元政府引导基金，与金融机构、企业等社会资本合作，共同发起设立多个基金中的基金，形成具有规模的乡村振兴基金中的基金集团

06-17