北京博瑞耀明创业投资有限公司上官鸿:文化创意产业并购机会很多
06-17
创始人、深言科技CEO齐凡超(以下为本次演讲节选,仅供学习参考)深言科技,由清华大学自然语言处理实验室(THUNLP)与北京致远人工智能孵化情报研究所(BAAI)。
早在当年1月,创始团队就参与完成了致远五道CPM大模型的训练,同年12月,又率先采用可控预训练技术进行CPM-3模型训练。
2020年3月,深研科技正式成立,旨在打造新一代基于大规模预训练模型的智能文本信息处理平台。
在深研科技的模型训练和部署过程中,阿里云PAI平台为其提供了低成本、高性能、灵活便捷的产品和服务体验。
大模式创业的四大底层逻辑 大模式是近六个月最热门的创业赛道。
做好这件事,我们一直坚持四个基本逻辑:一是要在高原上造峰。
平台期是指基础模型能力,峰值是指解决特定领域特定任务和问题的能力。
与过去的自然语言处理不同,今天的基础模型在整体能力上有了很大的提高。
想要进入大模型赛道,就必须有一个比较强的基础模型,不管是基于别人的模型还是自己开发的模型。
但只有基本模型是不够的。
基本模式之上的垂直能力建设,是创业企业差异化优势的顶峰。
从必要性和可行性的角度来看,无论模型的规模和参数数量有多大,总会存在知识冲突和行业数据之间的矛盾。
例如,在教育场景中,语文、数学、编码等不同领域的模型的能力是有潮起潮落的。
即使收集了大量的语文、数学、编程数据来训练模型,这些数据也可能相互冲突和影响。
健康)状况。
另一方面还有成本的问题,因为想要提升大型模型的整体能力,对参数量和计算能力的要求会非常高。
在这种情况下,想要务实地推动模式落地,就需要在现有基础模式的基础上,通过垂直能力或者解决特定领域问题的能力来实现。
我们可以看到gpt-3.5-turbo模型开启了微调接口。
经过微调后,效果优于GPT4,这也证明了通过垂直化和微调技术提高模型性能的可行性。
其次,规模化创业必须打通最后一公里。
现在很多模型都采用简单统一的对话交互模型,集成多种能力,似乎能够应对所有问题。
但在实际实现的过程中,我们会发现不仅是交互,模型本身也存在突出的局限性,比如错觉问题、逻辑推理问题、计算、知识更新问题等等,这些都是现有的大型模型难以解决的问题。
大模型距离最终的业务场景落地还有一段路要走。
无论是修改模型、优化项目,还是与其他工具配合使用,这些都是必要的。
而且是场景驱动、数据闭环。
从模型到产品落地,乃至最终的差异化和商业化,这些都需要场景驱动,最终实现数据闭环。
因为无论大模型技术多么强大,最终都必须遵循技术逻辑和业务逻辑。
在实现模型的过程中,需要考虑几个关于数据的问题:第一,如何对数据进行分类和分析。
模型训练的数据可能涉及不同的任务、不同的行业、不同的领域;另外,还有不同粒度的数据,比如个人数据、组织数据等。
第二,如何选择和过滤数据。
我们发现低质量的数据可能会影响模型的训练效果,甚至导致模型达不到预期的结果。
因此,需要考虑如何精准筛选出符合任务要求的数据,并通过先进的技术手段进行处理和过滤,使其适合模型训练。
第三,选择要添加数据的链接。
数据贯穿模型的预训练、持续训练、标注、对齐等过程。
每个环节数据参与程度不同,对最终结果的影响也不同。
因此,选择何时包含哪些数据是一个需要仔细考虑的问题,因为每个步骤都有其独特的优点和缺点。
第四,如何让数据实现闭环。
这不仅需要产品思维,还需要模型和技术支持。
例如,当我们收集一些用户的个性化数据时,我们需要思考如何最大化数据的价值,转动数据飞轮并建立壁垒。
最后,为了构建一个大模型并实现它,在预训练、持续训练、微调和对齐中优化整个模型链至关重要。
链接越深,数据的杠杆作用就越大,优化的空间就越大,建立的技术壁垒也就越高。

大模型商业化的核心:解决特定场景下的供需任务 早在年初,当我们开始打造大模型的时候,国内大模型的发展还处于早期阶段,很多人并没有意识到这一点。
甚至有具体的概念。
但最本质、最核心的业务问题是大模型需要针对哪些特定人群,需要解决什么问题,需要创造什么价值。
我们可以从四个层面来看待大模型的落地和商业化。
最底层是模型,包括通用模型和垂直领域和特定任务模型。
以上是能力,用于解决下一个层面的关键场景和具体任务。
上面是根据关键场景对目标行业的概括。
最核心的中间环节是场景,链接供需双方。
我们调查了很多行业,包括政府、金融、媒体、营销、教育等,发现他们都有大量的信息处理需求,最终提炼总结出一个信息处理的闭环场景。
它可分为三个环节:信息输入、信息处理和信息输出。
原始信息从不同渠道进入个人或组织的信息处理中心,经过处理整合产生新的信息。
同时,这些信息也存储在组织的信息仓库中,以供后续使用。
目前每个环节都可以依靠大模型进行重塑,并且市场上也有每个环节对应的产品,但还没有一个模型能够真正实现闭环。
想要做好每一个环节,光靠大模型是不够的。
即使是最先进的通用大型模型如GPT-4或Claude-2也无法完美解决。
相反,通过结合场景或任务数据对模型进行微调,或者添加其他能力的模型作为辅助,最终的效果将超过通用大型模型。
深研科技在创业第一年就一直致力于利用可控预训练技术来训练模型,使其具备可控生成能力。
今年,我们也在不断创新和探索。
借助最新技术,我们对长文本处理、数据匹配等大型模型实现需要解决的一些问题进行了深入探索。
就像在高原上建一座高峰一样,深言科技利用大模型来解决不同行业或领域特定场景下所需的任务,包括检索、生成、对话、摘要等。
以我们的产品 Deep Speech 为例。
它结合了大语言模型和检索能力,采用自然语言对话交互,可以找到用户想要的单词或句子。
例如,如果用户想说今天天气很热,它可以找到表达这个意思的单词或句子,例如“火伞很高”、“太阳像火一样”等;此外,用户还可以使用更复杂的描述进行搜索,例如与“热门”一词相关的词。
如今,我们的产品拥有超过 10,000 名用户,每月活跃用户超过 700,000 名。
这个产品本身也满足上述四个底层逻辑。
一是打造高原、高峰。
基于自主研发的大模型,我们根据词句检索的任务需求,使用大量相关语料进行模型微调训练,其中还包括大量的标注工作,以实现适合的垂直模型为了这个任务。
二是走好最后一公里。
单纯依靠大型语言模型驱动就可以实现自然语言交互,但由于错觉问题和知识问题,很多生成的内容无法直接使用。
因此,大模型理解需求后,仍然需要依靠语言检索能力来实现更准确地检索所需的单词或句子——这目前仅依靠chatGPT等生成模型是无法实现的。
三是构建数据闭环。
深研大易将持续收集用户反馈数据和查询数据,并迭代模型。
目前我们已经收集了近百万条用户数据,并且正在不断改进我们模型的能力。
最后一步是整个环节的优化。
在预训练阶段,你自己的模型会添加很多预训练的相关数据,包括后续的SFT和对齐,都是针对任务进行优化的。
最终实现了该场景大型模型的深度定制和集成。
借助云计算能力,深研科技基于阿里云PAI平台进行大型模型训练和部署。
到目前为止,阿里云为我们提供了很多帮助。
核心就是提供强大的GPU计算能力。
深研科技主要基于阿里云PAI平台进行大模型训练和部署,包括机器学习和框架层面的构建和交互建模能力。
我们最大的感受就是体验好、成本低、性能高。
我们利用PAI-DSW和PAI-DLC灵活地进行交互式编程,使用各种灵活稳定的训练环境,降低模型训练的工程成本,工作效率很高。
我们曾经考虑过是否要建立自己的机房。
经过研究,我们发现对于我们这样规模的企业来说,成本太高,尤其是运维成本。
PAI平台可以方便地与其他云产品对接,如OSS等,有效降低模型的整体训练成本和运营管理成本。
最后,在性能训练方面,除了硬件环境之外,阿里云还提供了很多可以帮助我们提升模型性能的中间模块和组件。
我们可以使用EasyCkpt组件来快速存储模型,减少训练中断带来的损失。
我们在阿里云PAI平台上近千卡集群上稳定训练了一个月左右。
GPU计算利用率接近%,FLOPs利用率超过50%。
这是我们目前在阿里云灵君平台上做的部署。
另外,我们还借助阿里云的弹性计算等产品对外提供服务。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-17
06-17
06-18
06-21
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态