首页 > 技术迭代 > 内容

如何打造中文版“万能AI”GPT-3

发布于：2024-06-28 编辑：匿名来源：网络

不仅能答题、翻译、写文章，还能写代码、计算公式、画图标……GPT-3，由五月份的OpenAI，因其神奇的多功能性而在AI领域火了起来。

GPT-3支持输入自然语言自动生成公式。

GPT-3是用英语语料预训练的，主要用于于英文相关场景。

中国业界和学术界已经有期待GPT-3中文版的声音。

“GPT-3与出门问问的技术基础密切相关。

虽然现阶段GPT模型并不完美，但它是我们看到的通向更通用语言智能的重要路径之一。

”从事中文语音交互的AI公司出去找创始人，CEO李志飞告诉品玩。

出门问问一直对更通用的语言智能感兴趣。

团队正在深入理解GPT-3的相关论文，推进相关实验，努力提高训练效率。

如何创建中文版GPT-3？那么，如果你想创建一个中文版的GPT-3，你应该怎么做呢？ “与英文版相比，中文版GPT-3的诞生将经历一个从零到一的过程，我们可以借鉴英文版GPT-3技术迭代的相关经验。

”李志飞对品万说道。

GPT-3的技术迭代是一个不断增加训练数据量和模型参数规模的过程。

本质上，GPT-3是一个大规模预训练的NLP（自然语言处理）模型。

大规模预训练是指首先使用大量未标记语料进行无监督学习，得到一组模型参数，然后用少量标记语料对其进行微调，最后应用到具体的下游NLP任务中。

该模型催生了许多成功的NLP模型，例如Google在2016年推出的Bert，但其通用性仍然不足。

直到GPT-3的推出，这类预训练模型的通用性又达到了一个新的水平。

从第一代GPT到GPT-3，模型层面始终基于Transformer（领先的语义特征提取方法）进行预训练。

没有任何变化，但是训练数据量和模型大小增加了十倍或千倍。

。

2016年6月发布的第一代GPT只有5GB的预训练数据。

GPT-2 增长到 40GB，GPT-3 跃升至 45TB（等于 0GB）。

从模型规模来看，第一代GPT的参数数量呈指数增长，从1.17亿个增加到1亿个。

随着数据量和模型规模的增加，GPT逐渐放弃了用少量标注语料进行微调的步骤，而完全依靠预训练得到的参数来执行下游任务，并且精度仍然得到保证。

GPT所需的算力也越来越夸张。

原来的GPT可以在8个GPU上训练一个月，而GPT-2需要在Google Cloud TPU v3上训练（美元/小时），并且训练时间未知。

按GPT-3估算，训练一个模型的成本超过1万美元。

相应地，参与GPT论文的作者数量从第一代的4人增加到第三代的31人。

而且，31位作者分工明确。

有的负责训练模型，有的负责收集和过滤数据，有的负责实现特定的自然语言任务，还有的负责开发更快的GPU内核。

GPT-3论文有31位作者，借鉴了GPT-3的迭代经验。

李志飞认为，开展中国GPT-3模型训练比较合理的路径是：“从中小型模型入手，开展研究和实验，取得一定成果后，再推广到大型模型进行验证。

”至于人力配置，他表示，GPT是一个非常综合性的大型系统项目，涉及学术、工程、商业等团队的大规模协作。

一般需要组建数十人的团队，包括科学家、工程师、项目经理等角色。

虽然我们可以借鉴英文GPT-3技术迭代的相关经验，但在打造中文版GPT-3的过程中也存在很多独特的问题需要解决，比如中文训练数据、计算能力等“一方面，我们需要投入更多的时间和精力来获取高质量、多样化的培训文本。

”李志飞表示，“另一方面，计算效率问题也是当前大规模深度学习模型训练面临的共同挑战。

”从总体规模、数据质量和多样性来看，高目前网络上可获得的中文数据质量低于英文数据，这可能会影响中文模型的训练效果。

然而，从现有的研究和分析结果来看，数据并不总是越多越好。

“我们可以结合数据优化、数据生成等方法来提高训练语料的有效性。

初步来看，具体的训练语料主要包括百科问答、新闻资讯、博客电子书数据等泛爬数据。

经过数据处理后，其规模在GB左右。

”李志飞表示，GPT-3模型的参数达到1亿个，背后的训练资源成本非常巨大，估计训练一个模型的成本超过1万美元。

随着国内外各项研究的进步，预训练模型的训练效率将会不断提高。

“我们可以借鉴其他预训练语言模型的优化经验，在训练语料、网络结构等方面做更多的工作。

、模型压缩等，有望将模型的单次训练成本降低一个数量级。

”李志飞说。

看起来，构建中文GPT-3是一项非常费力的工作，但这项工作的回报是也非常可观。

李志飞告诉品玩，GPT-3所展现出的通用能力可以被视为下一代搜索引擎和AI助手，因此这项技术本身的商业应用场景可以非常广阔。

其次，构建GPT模型的过程将涉及超级计算中心和AI算法平台的建设。

这些算力和算法平台可以为企业、科研机构、政府提供底层服务，通过开放平台为行业赋能，如智能汽车、智慧城市、科技金融等领域。

此外，虽然GPT本质上是一个关于语言的时序模型，但语言以外的其他时序问题，如经济、股票、流量等行为预测，也可能成为潜在的应用场景。

GPT-4 会如何演变？尽管GPT-3目前的性能令人震惊，但它仍然存在很多问题。

例如，它并不真正理解文本的含义，而只是对单词进行排列和组合。

研究人员并不完全了解它是如何工作的。

李志飞预测，下一版本的GPT-4将会在模型规模、小样本学习、多模态、学习反馈机制以及与任务执行的融合等方面进行改进。

毫无疑问，GPT-4模型会更加暴力。

李志飞表示：“下一代GPT模型必然会在数据规模、模型参数、计算能力等方面得到大幅提升。

此外，下一代GPT模型可能不仅仅局限于于英文，将能够处理更多跨语言任务。

”目前的GPT-3模型也严重依赖小样本学习机制。

虽然GPT-3不需要微调，但在完成特定的NLP任务时，仍然会给予模型少量与任务相关的实例。

在零样本和单样本任务上，GPT-3 的退化更为明显。

事实上，后两个任务是更常见的问题。

“下一代GPT模型需要加强其理论泛化能力，以便更好地处理零样本和单样本任务。

”李志飞说道。

下一代GPT模型很可能是多模态模型。

OpenAI认为，纯文本自回归预训练模型已经达到了目前的规模，并且正在接近极限。

需要向多模态模型方向发展，结合文本、语音、图像进行学习。

李志飞认为，多模态模型一方面可以引入语言之外更多维度的信息，另一方面可以促进模型学习更多通用表示，从而增强模型的泛化能力。

另一个重要的演变是学习反馈机制的引入。

目前GPT模型只能在完全无监督的条件下读取海量互联网文本数据进行学习。

然而，人类的学习过程与物理世界相互作用。

只有这样才能建立更多物理世界的“常识”，比如杯子应该在桌子的上面，而不是下面。

如果想要达到更加普适的状态，除了多模态之外，还必须在学习过程中引入来自物理世界的反馈机制。

“当然，这种反馈也是通过数据来实现的，而不是让GPT真正像人类一样探索物理世界。

”李志飞表示，“此外，考虑到 GPT 实现完全无监督学习的初衷，这种反馈更加隐性和延迟，而不是显性和及时性。

要做到这一点，需要强化学习（re-inforcement Learning）等机制。

待介绍。

”李志飞还认为，GPT-4可能会引入任务执行能力。

今天的GPT主要是一个预测和生成引擎，而不是一个任务执行器。

比如你告诉GPT，“帮我订一张从北京到上海的经济舱机票。

明天下午三点左右。

” 目前，GPT 或许能够理解这句话的含义，但尚不具备自动调用订票网站的 API（应用程序编程接口）执行任务的能力如果没有这种执行能力，GPT 的通用性就非常有限，因为每个任务都需要额外的代码来执行所理解的任务，因此，GPT 必须学会如何直接执行任务。

总体而言，李志飞对 GPT 的未来发展非常看好。

未来互联网上的很多内容或知识将由类似GPT的模型生成或处理。

所以在某种程度上，GPT的发展代表了语言主权的演变。

如何打造中文版“万能AI”GPT-3

，并且它将有潜力成为一个生态系统。

”延伸阅读：GPT-3火爆的背后，AI正在成为普通人买不起的游戏API。

站长声明

标签：

上一篇：谷歌超自然算法事件荒唐却令人心酸

下一篇：腾讯久攻不下，字节收获万亿

创头条被认定为国家高新技术企业

近日，知名创新创业信息与企业服务平台创头条被认定为国家高新技术企业。创头条是创兴动力旗下的创新创业服务品牌。公司依托互联网平台，先后推出企业号、大众创业地图、政策沟通等服务产品，聚集并服务数百万企业用户。同时，创头条还联动多家龙头企业，通过产业竞赛、峰

06-17
国美旗下某公司投资了北京蓬康投资有限公司

天眼查App显示，北京蓬康投资有限公司近期发生工商变更。原股东孙蕊莉已退出，新增股东国美控股集团有限公司，认缴出资人民币1万元。人民币。北京鹏康投资有限公司于今年7月成立，注册资本15亿元。法定代表人就是陈萍。经营范围包括项目投资；投资咨询；企业管理咨询；和

06-18
“浙江孔辉”获超亿元Pre-A轮融资

2月5日，宣布全国首款电控乘用车浙江孔辉汽车科技有限公司（“浙江孔辉”）悬架系统主机供应商，宣布完成超亿元Pre-A轮融资，投资方包括联想之星、中关村发展启航投资有限公司等六家机构。本轮融资主要用于乘用车电控悬架系统及关键零部件的研发以及关键工艺的收购和升级。

06-17
率先践行整合诊断，药明康德完成1.5亿美元B轮融资

药明康德近日宣布完成1.5亿美元B轮融资。本轮融资由世誉资本、赛默飞世尔科技、农银国际、山澜资本、建信科创基金等支持，老股东云峰基金持续增资，易凯资本担任独家投资方。

06-18
启明创投正式加入UNPRI

日前，中国最大的风险投资机构启明创投宣布正式签署并加入联合国支持的责任投资原则（UNPRI）。 UNPRI是全球最具影响力的责任投资组织之一。它是一个由来自世界各地的资产所有者、资产管理者和服务提供商组成的国际投资者网络。它拥有众多签署方，致力于创建一个可持续的全

06-18
百度投资电商直播服务商“卡米拉”

据投资界10月19日消息，天眼查APP数据显示，卡米拉运营商杭州创年网络科技有限公司进行产业化10月14日商事变更。百度全资控股公司大泽县百瑞祥创业投资管理有限公司成为卡米拉股东之一。公开资料显示，卡米拉是国内短视频营销的营销平台。其主要业务涵盖商户账号运营、达

06-18
安徽省中小企业（专精特新）发展基金2023年第二期子基金管理机构基金募集公告（第二批）

根据《安徽省中小企业（专精特新）发展二期基金组建方案》等相关规定，公开征集小型中小企业（专精特新）安徽省大中型企业（专精特新）制定第二期基金年度分基金管理机构（第二批）。现将有关事项公告如下。一、基金中的基金基本情况安徽省中小企业发展二期基金有限责任公

06-18
返利网会放弃独立IPO转借壳上市吗？还能救吗

近日，电商导购平台“返利网”放弃独立IPO转借壳上市的消息引起了电商领域大家的关注。根据ST昌九公告，拟通过发行股份、支付现金等方式收购上海中言信息技术有限公司（以下简称“上海中言”）%股权，这可能导致控股股东和实际控制人发生变动，构成重组上市。据了解，上海

06-17
纯素食品品牌HODO完成B轮融资

据投资界2月27日消息，纯素食品品牌HODO完成B轮融资。金额没有透露。本轮投资方为Renewal Funds。此前，公司于2016年获得元征资本天使轮投资，本轮资金将用于扩大产能。 HODO成立于2001年，主要生产具有全球风味的素食即食食品，如韩国素食汉堡、泰国咖喱、四川豆腐、摩洛

06-17
【创业24小时】2023年3月22日

投融资昨天，国内市场共发生10起投资披露事件，5起企业服务事件（万向科技、微蓝云、亿达科技、机合科技、沃克AI）、先进制造1例（YOGO ROBOT有机器人）、本土生活1例（舞动莓果女孩）、教育1例（诚拉）、医疗健康1例（光悦生物）、传统制造1例（金龙珍稀）地球）。精选比亚

06-18
企业周刊- “极熵”携手阿里云，为客户提供数字化解决方案

上海极熵数据科技有限公司（简称“极熵数据”）成立于2007年，是一家专业能源管理、智能化公司微微是一家以互联网为切入点，专注于工业和能源互联网技术的高新技术企业。公司基于自主知识产权的熵云工业互联网PaaS平台和熵博士双碳智慧能源应用矩阵，致力于推动园区、企业新

06-18
消息称台积电优先保障iPhone 13芯片供应，第三季度要扩大生产规模

据悉，台积电将优先保证iPhone 13芯片的供应，并将在第三季度扩大生产规模。 DigiTimes援引DigiTimes的话说，纯晶圆代工厂台积电将优先保证苹果的订单需求，尽力满足今年第三季度的iPhone 13芯片订单。由于供应短缺，苹果供应商还必须填补自动驾驶和其他设备芯片的订单。人

06-17