首页 > 技术迭代 > 内容

如何打造中文版“万能AI”GPT-3

发布于:2024-06-28 编辑:匿名 来源:网络

不仅能答题、翻译、写文章,还能写代码、计算公式、画图标……GPT-3,由五月份的OpenAI,因其神奇的多功能性而在AI领域火了起来。

GPT-3支持输入自然语言自动生成公式。

GPT-3是用英语语料预训练的,主要用于于英文相关场景。

中国业界和学术界已经有期待GPT-3中文版的声音。

“GPT-3与出门问问的技术基础密切相关。

虽然现阶段GPT模型并不完美,但它是我们看到的通向更通用语言智能的重要路径之一。

”从事中文语音交互的AI公司出去找创始人,CEO李志飞告诉品玩。

出门问问一直对更通用的语言智能感兴趣。

团队正在深入理解GPT-3的相关论文,推进相关实验,努力提高训练效率。

如何创建中文版GPT-3?那么,如果你想创建一个中文版的GPT-3,你应该怎么做呢? “与英文版相比,中文版GPT-3的诞生将经历一个从零到一的过程,我们可以借鉴英文版GPT-3技术迭代的相关经验。

”李志飞对品万说道。

GPT-3的技术迭代是一个不断增加训练数据量和模型参数规模的过程。

本质上,GPT-3是一个大规模预训练的NLP(自然语言处理)模型。

大规模预训练是指首先使用大量未标记语料进行无监督学习,得到一组模型参数,然后用少量标记语料对其进行微调,最后应用到具体的下游NLP任务中。

该模型催生了许多成功的NLP模型,例如Google在2016年推出的Bert,但其通用性仍然不足。

直到GPT-3的推出,这类预训练模型的通用性又达到了一个新的水平。

从第一代GPT到GPT-3,模型层面始终基于Transformer(领先的语义特征提取方法)进行预训练。

没有任何变化,但是训练数据量和模型大小增加了十倍或千倍。

2016年6月发布的第一代GPT只有5GB的预训练数据。

GPT-2 增长到 40GB,GPT-3 跃升至 45TB(等于 0GB)。

从模型规模来看,第一代GPT的参数数量呈指数增长,从1.17亿个增加到1亿个。

随着数据量和模型规模的增加,GPT逐渐放弃了用少量标注语料进行微调的步骤,而完全依靠预训练得到的参数来执行下游任务,并且精度仍然得到保证。

GPT所需的算力也越来越夸张。

原来的GPT可以在8个GPU上训练一个月,而GPT-2需要在Google Cloud TPU v3上训练(美元/小时),并且训练时间未知。

按GPT-3估算,训练一个模型的成本超过1万美元。

相应地,参与GPT论文的作者数量从第一代的4人增加到第三代的31人。

而且,31位作者分工明确。

有的负责训练模型,有的负责收集和过滤数据,有的负责实现特定的自然语言任务,还有的负责开发更快的GPU内核。

GPT-3论文有31位作者,借鉴了GPT-3的迭代经验。

李志飞认为,开展中国GPT-3模型训练比较合理的路径是:“从中小型模型入手,开展研究和实验,取得一定成果后,再推广到大型模型进行验证。

”至于人力配置,他表示,GPT是一个非常综合性的大型系统项目,涉及学术、工程、商业等团队的大规模协作。

一般需要组建数十人的团队,包括科学家、工程师、项目经理等角色。

虽然我们可以借鉴英文GPT-3技术迭代的相关经验,但在打造中文版GPT-3的过程中也存在很多独特的问题需要解决,比如中文训练数据、计算能力等“一方面,我们需要投入更多的时间和精力来获取高质量、多样化的培训文本。

”李志飞表示,“另一方面,计算效率问题也是当前大规模深度学习模型训练面临的共同挑战。

”从总体规模、数据质量和多样性来看,高目前网络上可获得的中文数据质量低于英文数据,这可能会影响中文模型的训练效果。

然而,从现有的研究和分析结果来看,数据并不总是越多越好。

“我们可以结合数据优化、数据生成等方法来提高训练语料的有效性。

初步来看,具体的训练语料主要包括百科问答、新闻资讯、博客电子书数据等泛爬数据。

经过数据处理后,其规模在GB左右。

”李志飞表示,GPT-3模型的参数达到1亿个,背后的训练资源成本非常巨大,估计训练一个模型的成本超过1万美元。

随着国内外各项研究的进步,预训练模型的训练效率将会不断提高。

“我们可以借鉴其他预训练语言模型的优化经验,在训练语料、网络结构等方面做更多的工作。

、模型压缩等,有望将模型的单次训练成本降低一个数量级。

”李志飞说。

看起来,构建中文GPT-3是一项非常费力的工作,但这项工作的回报是也非常可观。

李志飞告诉品玩,GPT-3所展现出的通用能力可以被视为下一代搜索引擎和AI助手,因此这项技术本身的商业应用场景可以非常广阔。

其次,构建GPT模型的过程将涉及超级计算中心和AI算法平台的建设。

这些算力和算法平台可以为企业、科研机构、政府提供底层服务,通过开放平台为行业赋能,如智能汽车、智慧城市、科技金融等领域。

此外,虽然GPT本质上是一个关于语言的时序模型,但语言以外的其他时序问题,如经济、股票、流量等行为预测,也可能成为潜在的应用场景。

GPT-4 会如何演变?尽管GPT-3目前的性能令人震惊,但它仍然存在很多问题。

例如,它并不真正理解文本的含义,而只是对单词进行排列和组合。

研究人员并不完全了解它是如何工作的。

李志飞预测,下一版本的GPT-4将会在模型规模、小样本学习、多模态、学习反馈机制以及与任务执行的融合等方面进行改进。

毫无疑问,GPT-4模型会更加暴力。

李志飞表示:“下一代GPT模型必然会在数据规模、模型参数、计算能力等方面得到大幅提升。

此外,下一代GPT模型可能不仅仅局限于于英文,将能够处理更多跨语言任务。

”目前的GPT-3模型也严重依赖小样本学习机制。

虽然GPT-3不需要微调,但在完成特定的NLP任务时,仍然会给予模型少量与任务相关的实例。

在零样本和单样本任务上,GPT-3 的退化更为明显。

事实上,后两个任务是更常见的问题。

“下一代GPT模型需要加强其理论泛化能力,以便更好地处理零样本和单样本任务。

”李志飞说道。

下一代GPT模型很可能是多模态模型。

OpenAI认为,纯文本自回归预训练模型已经达到了目前的规模,并且正在接近极限。

需要向多模态模型方向发展,结合文本、语音、图像进行学习。

李志飞认为,多模态模型一方面可以引入语言之外更多维度的信息,另一方面可以促进模型学习更多通用表示,从而增强模型的泛化能力。

另一个重要的演变是学习反馈机制的引入。

目前GPT模型只能在完全无监督的条件下读取海量互联网文本数据进行学习。

然而,人类的学习过程与物理世界相互作用。

只有这样才能建立更多物理世界的“常识”,比如杯子应该在桌子的上面,而不是下面。

如果想要达到更加普适的状态,除了多模态之外,还必须在学习过程中引入来自物理世界的反馈机制。

“当然,这种反馈也是通过数据来实现的,而不是让GPT真正像人类一样探索物理世界。

”李志飞表示,“此外,考虑到 GPT 实现完全无监督学习的初衷,这种反馈更加隐性和延迟,而不是显性和及时性。

要做到这一点,需要强化学习(re-inforcement Learning)等机制。

待介绍。

”李志飞还认为,GPT-4可能会引入任务执行能力。

今天的GPT主要是一个预测和生成引擎,而不是一个任务执行器。

比如你告诉GPT,“帮我订一张从北京到上海的经济舱机票。

明天下午三点左右。

” 目前,GPT 或许能够理解这句话的含义,但尚不具备自动调用订票网站的 API(应用程序编程接口)执行任务的能力如果没有这种执行能力,GPT 的通用性就非常有限,因为每个任务都需要额外的代码来执行所理解的任务,因此,GPT 必须学会如何直接执行任务。

总体而言,李志飞对 GPT 的未来发展非常看好。

未来互联网上的很多内容或知识将由类似GPT的模型生成或处理。

所以在某种程度上,GPT的发展代表了语言主权的演变。

如何打造中文版“万能AI”GPT-3

,并且它将有潜力成为一个生态系统。

”延伸阅读:GPT-3火爆的背后,AI正在成为普通人买不起的游戏API。

如何打造中文版“万能AI”GPT-3

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 加大研发投入,支持技术创新,促进高新技术产业集聚发展

    加大研发投入,支持技术创新,促进高新技术产业集聚发展

    推动“新经济”高质量发展将成为“十四五”期间乃至更长时期的主流经济形态将来。 为保障和推动“新经济”实现经济高质量发展,国家和地方政府正在积极搭建更加开放的平台,努力构建中国特色开放型经济新体系。 与此同时,更多与技术创新和高新技术产业相关的政策措施相继出台

    06-17

  • 麦穗人工智能宣布完成数千万元Pre-A轮融资

    麦穗人工智能宣布完成数千万元Pre-A轮融资

    麦穗人工智能近日宣布完成数千万元Pre-A轮融资。 本轮投资由凯泰资本与上市公司致远互联网共同投资。 麦穗人工智能成立于2017年,致力于成为招聘智能化转型的引领者。 它依靠行业独有的模型,帮助企业处理和分析复杂的多维度非结构化数据,以实现更好的人力规划和分析、人才库

    06-17

  • 艾科诺完成近亿元A2轮融资

    艾科诺完成近亿元A2轮融资

    据投资界(ID:pedaily)2月10日消息,2月10日,嘉兴艾科诺生物科技有限公司(以下简称艾科诺)宣布完成近亿元A2轮融资。 融资,由创新工场投资。 本轮融资将主要用于仪器及试剂产品的临床试验、NMPA注册证申请及产品转化等。 艾科诺学院由杨星和肖国华两位海归于2020年7月创

    06-17

  • 九阳:把硬核太空科技变成厨房里的烟火

    九阳:把硬核太空科技变成厨房里的烟火

    最近和朋友们聊到如何在不断的内卷中保持生活的乐趣,发现很多人提到平日里是最放松的。 这一刻是在厨房里。 他们通过烹饪重新获得了对生活的一些控制权,这是他们在日常生活中做的少数几件事之一,他们不必关心结果或别人的意见。 做饭已经成为年轻人治愈自己的一种方式。 不

    06-21

  • 经纬软件完成数千万元融资,用AI算法助力散装物料无人配送

    经纬软件完成数千万元融资,用AI算法助力散装物料无人配送

    据投资界(ID:pedaily)9月21日消息,近日,山东经纬软件工程有限公司经纬软件(以下简称:经纬软件)获亿达资本数千万元融资。 本次融资主要用于进一步优化算法、提升效率,推动高速公路、铁路等无人航运服务。 经纬软件成立于2007年,公司专注于为集团公司散装物料营销、

    06-17

  • 福州凯辉数字产业基金正式成立,规模3.7亿元

    福州凯辉数字产业基金正式成立,规模3.7亿元

    据投资界(ID:pedaily)7月15日消息,近日,福州凯辉数字产业基金完成募资及工商注册工作,标志着我省数亿元规模产业基金首支子基金正式启动。 该基金由福州金控、凯辉基金和环球航运集团(CMA CGM)共同发起设立。 基金规模约3.7亿元,由凯辉基金担任管理人。 福州凯辉数字

    06-18

  • 康希诺:一季度净利润1.2亿元

    康希诺:一季度净利润1.2亿元

    康希诺宣布,今年一季度实现营收4.99亿元,同比增长6.98%;实现净利润1.2亿元。

    06-18

  • 快看漫画获腾讯1.25亿美元投资,平台用户超2亿

    快看漫画获腾讯1.25亿美元投资,平台用户超2亿

    据投资界8月27日消息,快看漫画(以下简称“快看”)创始人&CEO陈安妮宣布,获得腾讯1.25亿美元投资。 此前,快看漫画已完成四轮融资,这也是腾讯首次入局。 移动互联网时代,内容成为社会行为的起点,社区成为圈子之间的纽带。 快看漫画成立于2019年12月,是国内首家专注于

    06-17

  • 马斯克:我手里的比特币没有卖过

    马斯克:我手里的比特币没有卖过

    特斯拉CEO埃隆马斯克说我手里的比特币没有卖过;特斯拉出售比特币是为了证明其作为现金替代品的流动性。

    06-17

  • 从情怀中收获的怀旧零食能走多远?

    从情怀中收获的怀旧零食能走多远?

    怀旧零食越来越贵了。 南京盐水鸭、巴西烤肉、五花肉、果皮、无花果……这些零食小时候一袋才50毛钱,现在随便7样就10块钱了。 在明明白白的标价牌面前,陪伴北漂多年的90后女孩们都默默地觉得“贵得离谱”。 当然,莫莫并不是唯一一个被高价零食“背后捅刀子”的人。 在小红

    06-17

  • 首发 - 高端互联芯片企业电科星拓完成近亿元天使轮融资,兴旺投资独家领投

    首发 - 高端互联芯片企业电科星拓完成近亿元天使轮融资,兴旺投资独家领投

    首次发布 |高端互联网芯片公司电科星拓完成天使轮近亿元融资。 本轮融资由兴旺投资独家投资,资金将用于数据中心用企业级高速数模混合芯片的研发及量产。 成都电科星拓科技有限公司(硅Innovation)于12月成立,总部位于中国成都,在深圳设有研发中心。 是业界领先的高端互连

    06-17

  • 新能源对话工坊第一期:中国将迎来混合动力车爆发年?

    新能源对话工坊第一期:中国将迎来混合动力车爆发年?

    新能源对话会第一期:中国将迎来混合动力汽车爆发年? 2019年12月11日,由易贸汽车网和菲亚特克莱斯勒发起、汽车行业和企业资深人士专家共同创办的“新能源对话研讨会”在上海创新天地科技中心正式成立。 首届“新能源对话工坊”活动中,菲亚特克莱斯勒亚太动力总成集成经理钟

    06-18