首页 > 科技未来 > 内容

大型AI模型的语言不平等:英语训练最便宜,中文训练比英语贵2倍

发布于:2024-06-21 编辑:匿名 来源:网络

近日,X(前Twitter)用户@Dylan Patel展示了牛津大学的一项研究:通过GPT-4和大多数研究发现,与其他常见语言相比,LLM(大型语言模型)的推理成本差异很大。

其中,英语的输入和输出比其他语言便宜得多,简体中文的成本约为英语的2倍,西班牙语为1.5倍,缅甸掸语为15倍。

该原理可以追溯到今年5月牛津大学在arXiv上发表的一篇论文。

标记化是将自然语言文本转换为标记序列的过程。

这是文本语言模型处理的第一步。

在LLM的算力成本计算中,字数越多,算力成本就越高。

毫无疑问,随着生成式AI商业化的趋势,算力成本也将嫁接到用户身上。

目前很多人工智能服务都是根据需要处理的字数来计费的。

大型AI模型的语言不平等:英语训练最便宜,中文训练比英语贵2倍

论文显示,在分析了 17 种标记化方法后,研究人员发现,同一文本在不同语言中转换为标记序列时的长度差异很大。

即使是号称支持多种语言的分词方法也无法实现分词序列。

长度完全公平。

例如,根据OpenAI的GPT3分词器,如果对“你的爱”进行分词,英文只需要两个分词,而简体中文则需要八个分词。

尽管简体中文文本只有 4 个字符,但英文文本却有 14 个字符。

从X用户@Dylan Patel曝光的图片中也可以直观地看出,LLM处理一个英文句子需要17个token,而LLM处理一个相同含义的缅甸语句子则需要3个token。

这意味着缅甸语的处理成本将是英语的 11 倍。

类似的情况还有很多。

Aleksandar Petrov 的网站提供了许多相关的图标和数据。

感兴趣的朋友不妨点击“OpenAI的官网也有一个类似的页面,里面解释了API如何对一段文本进行token化。

以及文本中显示的token总数。

官网还提到,一个token通常对应于大约英文文本的4个字符,每个token约等于75个单词,由于英文token序列的长度较短,因此在人工智能预训练的成本效益方面,英语可以。

可以说是最大的赢家,将其他语言的用户远远甩在了后面,间接造成了不公平的局面。

此外,令牌序列长度的这种差异还会导致不公平的处理延迟(某些语言需要更多的时间来处理相同的内容)和长序列依赖性的不公平建模(某些语言只能处理较短的文本)。

简单理解,某些语言的用户需要付出更高的成本、忍受更大的延迟、获得更差的性能,从而减少了他们公平接触语言技术的机会,这间接导致了英语用户的衰落和人工智能鸿沟的产生。

世界上其他语言的使用之间形成的。

仅从产出成本来看,简体中文的成本是英文的两倍。

随着AI领域的深入发展,总是“落后一步”的简体中文显然并不友好。

在成本等多种叠加因素的权衡下,非英语母语国家也尝试开发自己的大规模母语模型。

以中国为例。

作为国内最早探索AI的巨头之一,2019年3月20日,百度正式推出生成式AI文心一言。

随后,阿里巴巴的统一钱文大模型、华为的盘古大模型等一批优秀的大模型也相继涌现。

其中,华为盘古大模型中的NLP大模型是业界第一个千亿参数的大规模中文模型。

它拥有 1 亿个密集参数,并在 40TB 海量数据上进行训练。

正如联合国副秘书长阿米娜·穆罕默德曾在联合国大会上警告的那样,如果国际社会不采取果断行动,数字鸿沟将成为“不平等的新面貌”。

同样,随着生成式人工智能的快速发展,人工智能差距也很可能成为新一轮值得关注的“不平等新面孔”。

庆幸的是,平时“惨不忍睹”的国内科技巨头已经行动起来。

大型AI模型的语言不平等:英语训练最便宜,中文训练比英语贵2倍

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 财经视频PaaS平台“飞虎互动”完成过亿元B+轮融资

    财经视频PaaS平台“飞虎互动”完成过亿元B+轮融资

    财经视频PaaS平台“飞虎互动”今日宣布完成新一轮过亿元融资,领投由顺为资本投资,老股东继续跟投,财务顾问元一资本担任独家投资者。 本轮融资后,飞虎将继续完善平台产品,服务泛金融客户和海外金融客户。 将进一步开发创新业务产品,持续引领业务视频化潮流,赋能金融机

    06-17

  • 合肥拟设立2亿元市级工业互联网专项基金

    合肥拟设立2亿元市级工业互联网专项基金

    近年来,合肥不断遴选链上优秀案例,不断探索可推广、可复制的新模式。 “共发布‘5G+工业互联网’优秀场景29个,获批国家级工业互联网试点80个,总数位居省会城市前列。 金星机电、通冠信息入选国家级工业互联网试点。 ”级创新试点应用案例。 ”从市经信局获悉,为此,合肥

    06-18

  • 途家收购大域自助旅行,再次进军海外市场,整合民宿业务

    途家收购大域自助旅行,再次进军海外市场,整合民宿业务

    据投资界1月31日消息,境外民宿预订平台大域自助旅行正式加入途家集团,成为途家集团旗下民宿预订平台。 全球领先的民宿短租预订平台,这是途家继专注日本市场后进军海外市场的又一战略举措。   据官方资料,大鱼自助游于年初创立,起源于台湾民宿。 多年来专注海外非标住

    06-17

  • 30亿,四川攀枝花绿色低碳产业基金成立

    30亿,四川攀枝花绿色低碳产业基金成立

    投资圈-解码LP消息,3月28日,攀枝花绿色低碳产业发展股权投资基金中心(有限合伙)正式成立。 该产业基金募集规模30亿元,期限8年(其中投资期5年,退出期3年)。 采用认购制,首期募资5亿元。 未来,募集资金规模将根据本市产业发展需要和市场容量逐步扩大。 产业基金按照“

    06-18

  • 功率半导体开发商森威科技获朗玛峰创投投资

    功率半导体开发商森威科技获朗玛峰创投投资

    据投资界10月21日消息,IGBT(绝缘栅双极型晶体管)及解决方案提供商——森威科技近日完成千万级Pre-A轮融资今年年初,森威科技还成功获得产业资本中国振华科技集团的战略投资。 成都森威科技有限公司成立于2016年7月,是由清华大学、中科院博士团队创办的高新技术企业。 作

    06-17

  • 深圳市未知君生物科技有限公司完成超亿元B轮融资,君联资本领投

    深圳市未知君生物科技有限公司完成超亿元B轮融资,君联资本领投

    据投资界11月2日消息,深圳市未知君生物科技有限公司近日完成B轮融资融资超亿元。 本轮投资由君联资本领投,现有投资者高榕资本、晨兴资本、雅惠投资继续跟投。 自今年6月宣布A+轮融资以来,未知君在生物信息学和AI平台方面定制和改进了Strainfinder、Panphlan等应变分析算法

    06-18

  • 成立半年,汽车零售展示平台“云寻车”获800万天使轮融资

    成立半年,汽车零售展示平台“云寻车”获800万天使轮融资

    据投资界9月29日消息,汽车零售展示平台“云寻车”近期完成1万天使轮融资,对于邓磊来说,这笔资金主要用于技术升级、团队扩张和市场拓展。   云讯车于今年3月成立。 是一个致力于服务用户和4S店的平台。 用户可以通过该平台直接前往自己喜欢的车辆所在的4S店。 同时,4S店

    06-18

  • 软件研发绩效数据平台思码逸获经纬创投领投的520万美元A轮融资

    软件研发绩效数据平台思码逸获经纬创投领投的520万美元A轮融资

    软件研发绩效数据平台思码逸宣布去年完成了由经纬中国领投、GGV、GGV、联想之星、Polychain等现有投资者也参与其中。 思码逸CEO任晶磊表示,本轮资金将继续用于技术投入和产品迭代。

    06-18

  • 回击!谷歌版ChatGPT首次亮相,有一个功能“碾压”ChatGPT

    回击!谷歌版ChatGPT首次亮相,有一个功能“碾压”ChatGPT

    谷歌可以说是世界上最懂AI的公司之一。 它用AI在围棋中击败了世界冠军,可以翻译3种语言,还把智能手机推向了计算摄影领域,几乎所有谷歌产品都是由AI驱动的。 但在过去的两个月里,谷歌被 OpenAI 的聊天机器人 ChatGPT 抢走了。 ChatGPT,可以像人类一样说话,彻底把AI这个词

    06-21

  • 大众拟收购华为自动驾驶项目组

    大众拟收购华为自动驾驶项目组

    据财联社报道,知情人士称,大众汽车正在与华为汽车BU讨论收购后者自动驾驶部门项目组的事宜,并计划在三月底。

    06-18

  • 酒酒便利完成C轮融资1.05亿元,2017年营收同比增长30.26%

    酒酒便利完成C轮融资1.05亿元,2017年营收同比增长30.26%

    据投资界3月20日消息,酒酒便利公告称,公司拟投资在河南省国控互联网产业创业投资基金中,贵州省任怀石酱香型酒业发展投资有限公司分别发行10000股和7000股。 两名投资者分别认购2000元和1000元。 本次增发价格为每股17.88元,实现募集资金1.05亿元。 C系列融资。   九九便

    06-18

  • 芯片设计商“极和半导体”获数千万元A+轮融资

    芯片设计商“极和半导体”获数千万元A+轮融资

    6月18日消息,据36氪报道,芯片设计商“极和半导体”已完成数千万元A+轮融资。 本轮融资由高能资本领投,燕创姚商资本、宁波工投集团、金东集团跟投。 “格合半导体”成立于今年11月,专注于智能触控芯片和光学对焦驱动芯片的设计,应用于手机、可穿戴设备、柔性屏等市场。 目

    06-17