首页 > 科技未来 > 内容

大型AI模型的语言不平等：英语训练最便宜，中文训练比英语贵2倍

发布于：2024-06-21 编辑：匿名来源：网络

近日，X（前Twitter）用户@Dylan Patel展示了牛津大学的一项研究：通过GPT-4和大多数研究发现，与其他常见语言相比，LLM（大型语言模型）的推理成本差异很大。

其中，英语的输入和输出比其他语言便宜得多，简体中文的成本约为英语的2倍，西班牙语为1.5倍，缅甸掸语为15倍。

该原理可以追溯到今年5月牛津大学在arXiv上发表的一篇论文。

标记化是将自然语言文本转换为标记序列的过程。

这是文本语言模型处理的第一步。

在LLM的算力成本计算中，字数越多，算力成本就越高。

毫无疑问，随着生成式AI商业化的趋势，算力成本也将嫁接到用户身上。

目前很多人工智能服务都是根据需要处理的字数来计费的。

大型AI模型的语言不平等：英语训练最便宜，中文训练比英语贵2倍

论文显示，在分析了 17 种标记化方法后，研究人员发现，同一文本在不同语言中转换为标记序列时的长度差异很大。

即使是号称支持多种语言的分词方法也无法实现分词序列。

长度完全公平。

例如，根据OpenAI的GPT3分词器，如果对“你的爱”进行分词，英文只需要两个分词，而简体中文则需要八个分词。

尽管简体中文文本只有 4 个字符，但英文文本却有 14 个字符。

从X用户@Dylan Patel曝光的图片中也可以直观地看出，LLM处理一个英文句子需要17个token，而LLM处理一个相同含义的缅甸语句子则需要3个token。

这意味着缅甸语的处理成本将是英语的 11 倍。

类似的情况还有很多。

Aleksandar Petrov 的网站提供了许多相关的图标和数据。

感兴趣的朋友不妨点击“OpenAI的官网也有一个类似的页面，里面解释了API如何对一段文本进行token化。

以及文本中显示的token总数。

官网还提到，一个token通常对应于大约英文文本的4个字符，每个token约等于75个单词，由于英文token序列的长度较短，因此在人工智能预训练的成本效益方面，英语可以。

可以说是最大的赢家，将其他语言的用户远远甩在了后面，间接造成了不公平的局面。

此外，令牌序列长度的这种差异还会导致不公平的处理延迟（某些语言需要更多的时间来处理相同的内容）和长序列依赖性的不公平建模（某些语言只能处理较短的文本）。

简单理解，某些语言的用户需要付出更高的成本、忍受更大的延迟、获得更差的性能，从而减少了他们公平接触语言技术的机会，这间接导致了英语用户的衰落和人工智能鸿沟的产生。

世界上其他语言的使用之间形成的。

仅从产出成本来看，简体中文的成本是英文的两倍。

随着AI领域的深入发展，总是“落后一步”的简体中文显然并不友好。

在成本等多种叠加因素的权衡下，非英语母语国家也尝试开发自己的大规模母语模型。

以中国为例。

作为国内最早探索AI的巨头之一，2019年3月20日，百度正式推出生成式AI文心一言。

随后，阿里巴巴的统一钱文大模型、华为的盘古大模型等一批优秀的大模型也相继涌现。

其中，华为盘古大模型中的NLP大模型是业界第一个千亿参数的大规模中文模型。

它拥有 1 亿个密集参数，并在 40TB 海量数据上进行训练。

正如联合国副秘书长阿米娜·穆罕默德曾在联合国大会上警告的那样，如果国际社会不采取果断行动，数字鸿沟将成为“不平等的新面貌”。

同样，随着生成式人工智能的快速发展，人工智能差距也很可能成为新一轮值得关注的“不平等新面孔”。

庆幸的是，平时“惨不忍睹”的国内科技巨头已经行动起来。

站长声明

标签：

上一篇：你对“1888万天价大礼”的愤怒已经蓄谋已久

下一篇：微软“刀片事业部”到底有多狠？ 30年“砍掉”75款产品

鞋盒文化获天使轮融资，为客户提供全媒体解决方案

投资界1月25日消息。近日，鞋盒文化宣布获得天使轮融资。其创始人冯竹透露，鞋盒文化注重打造原创品牌。，为客户提供全媒体解决方案。从线上到线下生产优质原创内容，让企业实现更高效的品牌传播。　　精鞋盒文化传媒有限公司成立于2001年，为众多商业机构和政府单位提供

06-17
李彦宏内部信宣布李震宇晋升为百度集团高层副总裁

百度创始人与CEO李彦宏通过内部信宣布，百度集团副总裁和智能驾驶集团总经理李震宇晋升为集团高层副总裁，并将继续担任全面负责IDG的业务和管理工作，并向集团CEO汇报。

06-17
空气产品公司与国内多家工业客户签订了长期液氢供应合同

这些合同增强了公司在液氢领域的先发优势和领先地位。 2019年12月8日，空气产品公司在氢能源领域拥有65年经验，服务中国。拥有35年市场经验的全球领先工业气体供应商空气产品公司今天宣布，已获得国内多家领先高端制造制造商的长期液氢供应合同。这些长期合同增强了空气产品

06-06
SEMI：Q3硅晶圆出货量创历史新高36.49亿平方英寸

SEMI指出，三季度硅晶圆出货量再创新高，各尺寸硅晶圆出货量均有所增长，这为各类半导体提供了支撑现代经济所需的组件。此外，SEMI表示，由于未来几年将增加许多新晶圆厂，预计硅晶圆需求将保持在高位。据了解，由于市场终端应用需求旺盛，硅片供应持续紧张。包括Global C

06-08
为了预测下一次疫情，动物病毒数据库正在建设中

无论是SARS、MERS、埃博拉，还是这次新型冠状病毒，这些病毒都引发了疫情，让人类措手不及，带来了巨大的后果伤害。尽管这场疫情尚未结束，但致力于预测下一次大规模疫情爆发的实验室已经在建设中。自2017年非典爆发以来，科学家开始越来越关注冠状病毒。病毒种类很多，可

06-17
上海证券交易所受理旷视科技科创板IPO申请

上海证券交易所受理旷视科技科创板IPO申请。

06-18
云市618大促销来啦！

+ 0元产品体验，8大热门品类热销产品低至10折，云市场自营品牌限时促销。

06-18
普适康生物科技完成超亿元C+轮融资，加速微流控POCT平台企业布局

投资界（ID：pedaily）10月24日消息，近日，浙江普适康生物科技有限公司（简称：普康生物）完成超亿元C+轮融资。本轮融资由十月资本领投，季节创投、长安汇通等跟投。老股东英联健康继续投资。普康生物科技成立于2007年，是一家离心微流控平台公司，专注于危重病和慢病管理

06-18
新一代蛋白质降解剂公司“Artek”完成Pre-A轮融资，由红杉中国

投资界（ID：pedaily）领投，近日，Artek宣布完成Pre-A轮融资。本轮融资由红杉中国领投。该笔资金将用于继续推进基于ATTEC技术的新一代蛋白降解药物的研发，包括升级药物靶点筛选体系、扩充专业研发团队、推进结构设计、改造和验证等。药物小分子。 Artek是一家全球首家专

06-18
科美气体进入ASML子公司Cymer光刻气体产品供应商名单

中国证券网科美气体2月2日中午公告，控股子公司岳阳科美电子特种稀有气体有限公司于2月2日，我们收到了ASML子公司Cymer的合格供应商认证函。科美特电子特种气体有限公司生产的光刻气体产品已通过Cymer公司的审核。 Cymer 已将 Kemet Electronic Specialty Gases 的光刻气体

06-06
搜狐Q2总营收4.75亿美元，同比亏损减22%

据投资界消息，8月5日，搜狐公布了截至6月30日未经审计的第二季度财报。财报显示搜狐第二季度总营收为4.75亿美元，环比增长10%。其中，品牌广告收入为1万美元，环比增长2%。搜索及搜索相关广告业务收入为2.76亿美元，同比增长2%，环比增长18%。在线游戏收入为1.02亿美元

06-18
智能手表是伪需求？全球最新数据来打脸了

智能手表是伪需求吗？最新的全球数据都在这里。 2019年8月7日，市场研究公司Strategy Analytics发布了全球智能手表市场份额报告。报告显示，第二季度全球智能手表出货量为1万台，同比增长44%，苹果占据近半市场份额，遥遥领先其他智能手表厂商。可以说，苹果占据了全球智能

06-17