创头条被认定为国家高新技术企业
06-17
不仅能答题、翻译、写文章,还能写代码、计算公式、画图标……GPT-3,由五月份的OpenAI,因其神奇的多功能性而在AI领域火了起来。
GPT-3支持输入自然语言自动生成公式。
GPT-3是用英语语料预训练的,主要用于于英文相关场景。
中国业界和学术界已经有期待GPT-3中文版的声音。
“GPT-3与出门问问的技术基础密切相关。
虽然现阶段GPT模型并不完美,但它是我们看到的通向更通用语言智能的重要路径之一。
”从事中文语音交互的AI公司出去找创始人,CEO李志飞告诉品玩。
出门问问一直对更通用的语言智能感兴趣。
团队正在深入理解GPT-3的相关论文,推进相关实验,努力提高训练效率。
如何创建中文版GPT-3?那么,如果你想创建一个中文版的GPT-3,你应该怎么做呢? “与英文版相比,中文版GPT-3的诞生将经历一个从零到一的过程,我们可以借鉴英文版GPT-3技术迭代的相关经验。
”李志飞对品万说道。
GPT-3的技术迭代是一个不断增加训练数据量和模型参数规模的过程。
本质上,GPT-3是一个大规模预训练的NLP(自然语言处理)模型。
大规模预训练是指首先使用大量未标记语料进行无监督学习,得到一组模型参数,然后用少量标记语料对其进行微调,最后应用到具体的下游NLP任务中。
该模型催生了许多成功的NLP模型,例如Google在2016年推出的Bert,但其通用性仍然不足。
直到GPT-3的推出,这类预训练模型的通用性又达到了一个新的水平。
从第一代GPT到GPT-3,模型层面始终基于Transformer(领先的语义特征提取方法)进行预训练。
没有任何变化,但是训练数据量和模型大小增加了十倍或千倍。
。
2016年6月发布的第一代GPT只有5GB的预训练数据。
GPT-2 增长到 40GB,GPT-3 跃升至 45TB(等于 0GB)。
从模型规模来看,第一代GPT的参数数量呈指数增长,从1.17亿个增加到1亿个。
随着数据量和模型规模的增加,GPT逐渐放弃了用少量标注语料进行微调的步骤,而完全依靠预训练得到的参数来执行下游任务,并且精度仍然得到保证。
GPT所需的算力也越来越夸张。
原来的GPT可以在8个GPU上训练一个月,而GPT-2需要在Google Cloud TPU v3上训练(美元/小时),并且训练时间未知。
按GPT-3估算,训练一个模型的成本超过1万美元。
相应地,参与GPT论文的作者数量从第一代的4人增加到第三代的31人。
而且,31位作者分工明确。
有的负责训练模型,有的负责收集和过滤数据,有的负责实现特定的自然语言任务,还有的负责开发更快的GPU内核。
GPT-3论文有31位作者,借鉴了GPT-3的迭代经验。
李志飞认为,开展中国GPT-3模型训练比较合理的路径是:“从中小型模型入手,开展研究和实验,取得一定成果后,再推广到大型模型进行验证。
”至于人力配置,他表示,GPT是一个非常综合性的大型系统项目,涉及学术、工程、商业等团队的大规模协作。
一般需要组建数十人的团队,包括科学家、工程师、项目经理等角色。
虽然我们可以借鉴英文GPT-3技术迭代的相关经验,但在打造中文版GPT-3的过程中也存在很多独特的问题需要解决,比如中文训练数据、计算能力等“一方面,我们需要投入更多的时间和精力来获取高质量、多样化的培训文本。
”李志飞表示,“另一方面,计算效率问题也是当前大规模深度学习模型训练面临的共同挑战。
”从总体规模、数据质量和多样性来看,高目前网络上可获得的中文数据质量低于英文数据,这可能会影响中文模型的训练效果。
然而,从现有的研究和分析结果来看,数据并不总是越多越好。
“我们可以结合数据优化、数据生成等方法来提高训练语料的有效性。
初步来看,具体的训练语料主要包括百科问答、新闻资讯、博客电子书数据等泛爬数据。
经过数据处理后,其规模在GB左右。
”李志飞表示,GPT-3模型的参数达到1亿个,背后的训练资源成本非常巨大,估计训练一个模型的成本超过1万美元。
随着国内外各项研究的进步,预训练模型的训练效率将会不断提高。
“我们可以借鉴其他预训练语言模型的优化经验,在训练语料、网络结构等方面做更多的工作。
、模型压缩等,有望将模型的单次训练成本降低一个数量级。
”李志飞说。
看起来,构建中文GPT-3是一项非常费力的工作,但这项工作的回报是也非常可观。
李志飞告诉品玩,GPT-3所展现出的通用能力可以被视为下一代搜索引擎和AI助手,因此这项技术本身的商业应用场景可以非常广阔。
其次,构建GPT模型的过程将涉及超级计算中心和AI算法平台的建设。
这些算力和算法平台可以为企业、科研机构、政府提供底层服务,通过开放平台为行业赋能,如智能汽车、智慧城市、科技金融等领域。
此外,虽然GPT本质上是一个关于语言的时序模型,但语言以外的其他时序问题,如经济、股票、流量等行为预测,也可能成为潜在的应用场景。
GPT-4 会如何演变?尽管GPT-3目前的性能令人震惊,但它仍然存在很多问题。
例如,它并不真正理解文本的含义,而只是对单词进行排列和组合。
研究人员并不完全了解它是如何工作的。
李志飞预测,下一版本的GPT-4将会在模型规模、小样本学习、多模态、学习反馈机制以及与任务执行的融合等方面进行改进。
毫无疑问,GPT-4模型会更加暴力。
李志飞表示:“下一代GPT模型必然会在数据规模、模型参数、计算能力等方面得到大幅提升。
此外,下一代GPT模型可能不仅仅局限于于英文,将能够处理更多跨语言任务。
”目前的GPT-3模型也严重依赖小样本学习机制。
虽然GPT-3不需要微调,但在完成特定的NLP任务时,仍然会给予模型少量与任务相关的实例。
在零样本和单样本任务上,GPT-3 的退化更为明显。
事实上,后两个任务是更常见的问题。
“下一代GPT模型需要加强其理论泛化能力,以便更好地处理零样本和单样本任务。
”李志飞说道。
下一代GPT模型很可能是多模态模型。
OpenAI认为,纯文本自回归预训练模型已经达到了目前的规模,并且正在接近极限。
需要向多模态模型方向发展,结合文本、语音、图像进行学习。
李志飞认为,多模态模型一方面可以引入语言之外更多维度的信息,另一方面可以促进模型学习更多通用表示,从而增强模型的泛化能力。
另一个重要的演变是学习反馈机制的引入。
目前GPT模型只能在完全无监督的条件下读取海量互联网文本数据进行学习。
然而,人类的学习过程与物理世界相互作用。
只有这样才能建立更多物理世界的“常识”,比如杯子应该在桌子的上面,而不是下面。
如果想要达到更加普适的状态,除了多模态之外,还必须在学习过程中引入来自物理世界的反馈机制。
“当然,这种反馈也是通过数据来实现的,而不是让GPT真正像人类一样探索物理世界。
”李志飞表示,“此外,考虑到 GPT 实现完全无监督学习的初衷,这种反馈更加隐性和延迟,而不是显性和及时性。
要做到这一点,需要强化学习(re-inforcement Learning)等机制。
待介绍。
”李志飞还认为,GPT-4可能会引入任务执行能力。
今天的GPT主要是一个预测和生成引擎,而不是一个任务执行器。
比如你告诉GPT,“帮我订一张从北京到上海的经济舱机票。
明天下午三点左右。
” 目前,GPT 或许能够理解这句话的含义,但尚不具备自动调用订票网站的 API(应用程序编程接口)执行任务的能力如果没有这种执行能力,GPT 的通用性就非常有限,因为每个任务都需要额外的代码来执行所理解的任务,因此,GPT 必须学会如何直接执行任务。
总体而言,李志飞对 GPT 的未来发展非常看好。
未来互联网上的很多内容或知识将由类似GPT的模型生成或处理。
所以在某种程度上,GPT的发展代表了语言主权的演变。

,并且它将有潜力成为一个生态系统。
”延伸阅读:GPT-3火爆的背后,AI正在成为普通人买不起的游戏API。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-17
06-18
06-18
06-17
06-17
06-18
最新文章
首先告诉我什么是智能汽车!
盲盒明星卡的暴利与泡沫:2元卡卖700万,直播卖卡月入百万
黑色星期五轰轰烈烈地回来了,结果这些中国企业扛起了全场
锂电池隔膜疯狂扩产:兴源材料欲夺回C位?
当我考上缅语专业时:凌晨三点我还在走廊里背单词,毕业后,我不仅仅是一名翻译者
被遗弃,被收获?老年人上网到底有多难?
海外日报 -今年,我国自主研发游戏海外实际销售收入实现两位数增长;三星电子正式成立机器人业务团队36氪海外·15分钟前
腾讯音乐:爱、相信、坚持