财经视频PaaS平台“飞虎互动”完成过亿元B+轮融资
06-17
近日,X(前Twitter)用户@Dylan Patel展示了牛津大学的一项研究:通过GPT-4和大多数研究发现,与其他常见语言相比,LLM(大型语言模型)的推理成本差异很大。
其中,英语的输入和输出比其他语言便宜得多,简体中文的成本约为英语的2倍,西班牙语为1.5倍,缅甸掸语为15倍。
该原理可以追溯到今年5月牛津大学在arXiv上发表的一篇论文。
标记化是将自然语言文本转换为标记序列的过程。
这是文本语言模型处理的第一步。
在LLM的算力成本计算中,字数越多,算力成本就越高。
毫无疑问,随着生成式AI商业化的趋势,算力成本也将嫁接到用户身上。
目前很多人工智能服务都是根据需要处理的字数来计费的。

论文显示,在分析了 17 种标记化方法后,研究人员发现,同一文本在不同语言中转换为标记序列时的长度差异很大。
即使是号称支持多种语言的分词方法也无法实现分词序列。
长度完全公平。
例如,根据OpenAI的GPT3分词器,如果对“你的爱”进行分词,英文只需要两个分词,而简体中文则需要八个分词。
尽管简体中文文本只有 4 个字符,但英文文本却有 14 个字符。
从X用户@Dylan Patel曝光的图片中也可以直观地看出,LLM处理一个英文句子需要17个token,而LLM处理一个相同含义的缅甸语句子则需要3个token。
这意味着缅甸语的处理成本将是英语的 11 倍。
类似的情况还有很多。
Aleksandar Petrov 的网站提供了许多相关的图标和数据。
感兴趣的朋友不妨点击“OpenAI的官网也有一个类似的页面,里面解释了API如何对一段文本进行token化。
以及文本中显示的token总数。
官网还提到,一个token通常对应于大约英文文本的4个字符,每个token约等于75个单词,由于英文token序列的长度较短,因此在人工智能预训练的成本效益方面,英语可以。
可以说是最大的赢家,将其他语言的用户远远甩在了后面,间接造成了不公平的局面。
此外,令牌序列长度的这种差异还会导致不公平的处理延迟(某些语言需要更多的时间来处理相同的内容)和长序列依赖性的不公平建模(某些语言只能处理较短的文本)。
简单理解,某些语言的用户需要付出更高的成本、忍受更大的延迟、获得更差的性能,从而减少了他们公平接触语言技术的机会,这间接导致了英语用户的衰落和人工智能鸿沟的产生。
世界上其他语言的使用之间形成的。
仅从产出成本来看,简体中文的成本是英文的两倍。
随着AI领域的深入发展,总是“落后一步”的简体中文显然并不友好。
在成本等多种叠加因素的权衡下,非英语母语国家也尝试开发自己的大规模母语模型。
以中国为例。
作为国内最早探索AI的巨头之一,2019年3月20日,百度正式推出生成式AI文心一言。
随后,阿里巴巴的统一钱文大模型、华为的盘古大模型等一批优秀的大模型也相继涌现。
其中,华为盘古大模型中的NLP大模型是业界第一个千亿参数的大规模中文模型。
它拥有 1 亿个密集参数,并在 40TB 海量数据上进行训练。
正如联合国副秘书长阿米娜·穆罕默德曾在联合国大会上警告的那样,如果国际社会不采取果断行动,数字鸿沟将成为“不平等的新面貌”。
同样,随着生成式人工智能的快速发展,人工智能差距也很可能成为新一轮值得关注的“不平等新面孔”。
庆幸的是,平时“惨不忍睹”的国内科技巨头已经行动起来。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态