首页 > 科技未来 > 内容

人类数据将被 OpenAI 用完,接下来怎么办?

发布于:2024-06-18 编辑:匿名 来源:网络

“Bigger more more”是苹果当时的广告语。

它被用来描述AI领域最流行的大语言模型,看起来并没有什么问题。

从数十亿到数百亿再到数千亿,大型模型的参数逐渐变得更加狂野。

相应地,用于训练AI的数据量也呈指数级增长。

以OpenAI的GPT为例,从GPT-1到GPT-3,其训练数据集从4.5GB到GB呈指数级增长。

在不久前Databricks举办的数据+AI大会上,a16z和创始人Marc Andreessen认为,过去二十年互联网积累的海量数据是这波新AI浪潮兴起的重要原因,因为前者提供了后者带有可用于训练的数据。

然而,即使网友在网上留下了大量有用或无用的数据,对于AI训练来说,这些数据可能已经见底了。

人工智能研究和预测机构Epoch发表的一篇论文预测,高质量的文本数据将在一年内耗尽。

尽管研究团队也承认分析方法存在严重局限性,模型精度较高,但很难否认人工智能消耗数据集的速度是可怕的。

低质量文本、高质量文本和图像的机器学习数据消费和数据生产趋势 | EpochAI 当“人类”数据耗尽时,AI训练将不可避免地使用AI本身产生的内容。

然而,这种“内循环”会带来很大的挑战。

不久前,来自剑桥大学、牛津大学、多伦多大学等多所大学的研究人员发表论文指出,使用AI生成的内容作为训练AI将导致新模型的崩溃。

那么,用于AI训练的“生成数据”导致崩溃的原因是什么?有什么帮助吗? AI“近亲繁殖”的后果 在题为《递归的诅咒:用生成数据训练会使模型遗忘》的论文中,研究人员指出,“模型崩溃”是几代模型的退化过程。

上一代模型产生的数据会污染下一代模型。

几代模型“继承”后,就会错误地感知世界。

模型迭代图| arxiv 模型崩溃分为两步:模型崩溃初期,模型会开始丢失原始数据的分布信息,即“干净的人类数据”;在后期,模型会将原始分布与前几代模型的“错误认知”信息纠缠在一起,扭曲现实。

研究人员首先从头开始训练小样本模型 GMM(高斯混合模型)和 VAE(变量自动编码器)。

以GMM为例,下图最左图是原始数据的正态分布。

正如您所看到的,模型最初非常适合数据。

到第 50 次迭代时,底层数据分布开始被错误地感知。

当迭代到次数时,模型已经收敛到一个很小的点,这意味着模型开始稳定输出错误的答案。

迭代 0, 50,,,,, | 时的 GMM 拟合数据示例arxiv 为了验证预训练对实验结果的影响,研究人员还使用 Meta 开发的 1.25 亿参数 LLM(大型语言模型)OPT-m 在来自维基百科的 wikitext2 的数据集上进行了实验。

与GMM、VAE等小模型不同,LLM从头开始训练的成本非常高,所以都是预训练的。

实验结果如下: 输入:根据 Poyntz Wright 的说法,在 之前,一些活动通常由一名主要泥瓦匠和一小队流动泥瓦匠进行,并辅以当地教区劳工。

但其他作者否认了这种模式,认为首席建筑师以英国垂直风格设计了教区教堂的尖塔。

输出:第 0 代:复兴建筑,例如伦敦圣约翰大教堂。

现存最早的垂直复兴式建筑可以追溯到 18 世纪,即建于 19 世纪末的根西岛圣母教堂。

垂直教堂有两种类型:第一代:罗马圣彼得大教堂或布宜诺斯艾利斯圣彼得大教堂等建筑。

没有证据表明这些建筑是在教皇英诺森三世统治期间建造的,但它们有可能是在他的继任者教皇英诺森三世统治期间建造的。

第七代:英国建筑。

在接受《纽约时报》采访时,赖特说:“我不认为我能够做我想做的事情有什么问题。

它只是对我不起作用。

”他补充道:“我不知道你是否可以将其称为“为了好玩,第九代:建筑”。

除了是黑@@-@尾长耳大野兔、白@@-@尾长耳大野兔、蓝@@-@尾长耳大野兔、红@@-@尾长耳大野兔和黄@@-的最大栖息地之一之外,到了第9代模型,输出完全无法理解。

该论文的作者之一伊利亚·舒迈洛夫(Ilia Shumailov)表示,随着人工智能生成的数据中的错误随着时间的推移而积累,主要模型在接受这些数据的训练后将会对现实产生更加扭曲的看法。

为什么模型会崩溃? “模型崩溃”的主要原因是AI并不是真正的智能。

其近似“智能”的背后,其实是基于大量数据的统计方法。

基本上,所有无监督机器学习算法都遵循一个简单的模式:给定一系列数据,训练一个可以描述数据模式的模型。

在这个过程中,训练集中出现概率较大的数据将更有可能被模型重视,而出现概率较小的数据将被模型低估。

例如,假设我们需要记录掷骰子的结果来计算每一面出现的概率。

理论上,每张脸出现的概率是相同的。

在现实生活中,由于样本量较小,情况3和4可能会更频繁地发生。

但对于模型来说,它学习到的数据是3和4出现的频率更高,因此会倾向于生成更多3和4的结果。

《模型崩溃》图| arxiv 另一个次要原因是函数逼近误差。

它也很容易理解,因为实际的函数往往非常复杂。

在实际应用中,常常用简化函数来逼近实函数,从而导致误差。

你真的没主意了吗?毫无根据的担忧! 那么,人类数据越来越少,AI训练真的没有机会了吗? 不是的,解决训练AI的数据枯竭问题是有办法的: 1.数据“隔离” 随着AI越来越强大,越来越多的人开始利用AI来辅助自己工作。

互联网上的 AIGC 随着爆炸式增长,“干净的人类数据集”可能变得越来越难找到。

人类数据将被 OpenAI 用完,接下来怎么办?

谷歌深度学习研究部门Google Brain的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)表示,未来,找到高质量、有保证的、不受人工智能影响的训练数据将变得越来越困难。

这就像患有高危遗传病的人类祖先,却又拥有极其强大的生殖能力。

短短的时间内,他的后裔就遍布了地球的每一个角落。

然后在某个时刻,一种遗传疾病爆发,所有人类都灭绝了。

为了解决“模型崩溃”,研究团队提出的一种方法是“先发优势”,即保留对干净的人类生成数据源的访问权,并将 AIGC 与其隔离。

与此同时,这将需要许多社区和公司联手保护人类数据免受 AIGC 污染。

然而,人类数据的稀缺意味着有钱可赚,一些公司已经在采取行动。

Reddit 表示,这将大幅增加访问其 API 的成本。

公司官员表示,这些变化(部分)是对人工智能公司窃取其数据的回应。

Reddit 创始人和首席执行官 Steve Huffman 告诉《纽约时报》:“Reddit 的数据库确实很有价值。

” “但我们不需要将所有这些价值免费提供给一些世界上最大的公司。

” 2 合成数据 同时,基于AI生成的专业数据早已有效地用于AI训练。

在一些从业者看来,他们现在担心AI产生的数据会导致模型崩溃,这有点“标题党”的意思。

Nimbus智能创始人谢晨光告诉极客公园,国外论文提到使用AI生成的数据训练AI模型会导致崩溃,实验方法也比较有偏差。

甚至人类的数据也可以用,也不能用。

论文中提到的实验都是不带任何歧视地直接用于训练,而不是经过质量检验和有效性判断后作为训练数据。

显然这有可能导致模型崩溃。

谢晨透露,实际上OpenAI的GPT-4使用了上一代模型GPT-3.5产生的大量数据进行训练。

Sam Altman 在最近的采访中也表示,合成数据是解决大型模型数据短缺的有效途径。

关键是有一个完整的系统来区分AI生成的数据哪些可用、哪些不可用,并根据训练模型的效果不断提供反馈——这就是让OpenAI引以为傲的AI的技巧之一??世界。

公司不仅仅是筹集更多资金和购买更多计算能力那么简单。

在AI行业,利用合成数据进行模型训练早已成为不为外人所知的共识。

曾在英伟达、Cruise、蔚来等公司负责自动驾驶模拟的谢晨认为,根据目前各种大型模型训练的数据量,人类数据在未来2-2年确实可能会“耗尽”。

3年,但基于专业的系统和方法,人工智能生成的合成数据将成为取之不尽、用之不竭的有效数据来源。

并且使用场景不限于文字和图片。

自动驾驶、机器人等行业所需的合成数据量将远远大于文本数据量。

人工智能的三要素是数据、算力和算法。

数据源已经到位,大算法模型也在不断演化。

仅存的算力压力,相信NVIDIA创始人黄能够成功解决。

人类数据将被 OpenAI 用完,接下来怎么办?

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 商业卫星持续发展,中科天塔完成近亿元融资

    商业卫星持续发展,中科天塔完成近亿元融资

    据投资界(ID:pedaily)11月29日消息,近日,西安中科天塔科技有限公司(以下简称“西安中科天塔”)完成融资近亿元。 商业航天硬科技企业“中科天塔”)宣布完成近亿元Pre-A轮融资。 本轮股权融资的投资方为长青资本、中科之星和唯尔投资。 中科天塔本轮融资将主要用于加快

    06-17

  • 全球市场:需求“驱动”创新, 2028年底全球光伏逆变器市场规模将达60亿美元!

    全球市场:需求“驱动”创新, 2028年底全球光伏逆变器市场规模将达60亿美元!

    研究机构GlobalMarketInsights最近的一项研究显示,到今年年底,全球家用光伏逆变器市场规模将达到60亿美元。 全球不断增长的电力需求和不断增加的碳排放水平给世界各地的电力系统带来了更大的压力。 这创造了对可再生能源的巨大需求,其中最主要的是光伏系统。 据研究,目前

    06-08

  • 亮马河火爆一年后

    亮马河火爆一年后

    以“chill(放松、放松)”突破行业的北京亮马河,正在回归常态。 2018年9月28日下午,冉慈源在亮马河看到,虽然河岸上有行人来来往往,但河里也有“北京叔叔”在游泳,河上还有几艘皮划艇,不能说是“忙于人”。 更引人注目的是河两岸悠闲垂钓的居民。 即使中秋、国庆假期,

    06-18

  • 苹果眼镜新专利公布,整合三种显示效果,可玩性十足

    苹果眼镜新专利公布,整合三种显示效果,可玩性十足

    近日,美国专利商标局公布了苹果公司的一项专利申请。 这个概念很有趣,可能会应用到苹果未来的智能眼镜上。 。 在这项专利申请中,苹果展示了一种独特的“三重显示系统”。 该系统巧妙地结合了三种显示格式,而不是三个独立的显示器:主显示器、辅助显示器和 LED 灯环形式的

    06-21

  • 三生制药获2亿元战略投资

    三生制药获2亿元战略投资

    据投资界(微信ID:pedaily)8月26日消息,宁波三生制药生物科技有限公司(简称“三生制药”)与基石资本、亿达资本、安丰创投三大投资机构签署战略投资协议,投资总额近2亿元。 宁波三盛生物科技有限公司成立于2007年,位于沿海城市宁波。 主要生产鱼用、兽用等生殖激素,大

    06-18

  • 英伟达发布第二季度财报,净利润飙升8倍;索尼发布“PlayStation掌上游戏机”;美国太空军发射72颗作战卫星

    英伟达发布第二季度财报,净利润飙升8倍;索尼发布“PlayStation掌上游戏机”;美国太空军发射72颗作战卫星

    英伟达第二季度净利润61.88亿美元,同比猛增% 北京时间8月24日凌晨消息,英伟达公布了公司第二财季财报截至7月30日的财年,调整后每股收益和营收远超华尔街分析师预期,第三财季营收前景也远超预期,推动其股价盘后上涨逾8%,突破创 52 周新高。 图片来源:视觉中国报告显示,

    06-17

  • 今天,深创投迎来第200家上市公司

    今天,深创投迎来第200家上市公司

    深创投迎来了里程碑式的时刻:首家上市公司诞生。 据投资界11月12日消息,安陆科技成功登陆科创板,成为FPGA芯片业务第一股。 IPO发行价26.00元/股,开盘价76元,涨幅%,开盘市值超亿元。 至此,深创投又获得百亿IPO,这也是意义重大的第一家上市公司。 这个数字令人震惊。 深

    06-18

  • 思锐智能ALD光学镀膜不断突破技术和市场边界

    思锐智能ALD光学镀膜不断突破技术和市场边界

    凭借各类镜头、显示设备、生物识别技术产品、5G通信技术和终端设备,以及未来“元宇宙”重要场景的入口,最近备受关注的AR/VR设备等消费终端的创新发展,对光学镀膜设备的技术工艺和性价比提出了越来越高的要求。 在刚刚结束的第23届中国国际光电博览会(以下简称CIOE)上,业

    06-06

  • 小房子的潮流来了,小就是美

    小房子的潮流来了,小就是美

    湖边的小木屋里,像往常一样洗完澡后,梭罗从日出到中午,坐在门口的阳光下,独自沉思,周围环绕着这里长满了松树、山核桃树和漆树,周围一片寂静,鸟儿会对着周围鸣歌唱,直到阳光透过西窗照进来,提醒他时间的流逝。 那些日子里,他的成长就像玉米在夜间生长一样。 今年。

    06-21

  • 商务部:“双品网购节”前八天网络零售额同比增长28.1%

    商务部:“双品网购节”前八天网络零售额同比增长28.1%

    据商业大数据对重点电商平台监测, “双品网购节”前八天(4月28日至5月5日),全国网络零售额达1亿元,同比增长28.1%。 五一假期,网上零售额同比增长29.2%,其中实物网上零售额同比增长28.2%。 在线旅游零售额同比增长0.2%,国内在线旅游产品和景点门票销售额同比分别增长

    06-18

  • 花时间完成C1轮亿元融资

    花时间完成C1轮亿元融资

    据投资界(ID:pedaily)2月24日消息,近日,新消费花花生活方式品牌Take the Time宣布完成A轮融资获得梅花创投、双粮九创投等机构融资。 该投资的C1轮融资金额为1亿元人民币,驼峰资本担任财务顾问本轮融资的保荐人。 据悉,本次融资将主要用于继续打造供应链、赋能新零售花

    06-18

  • Serverless技术分析与实现

    Serverless技术分析与实现

    关键词:Serverless、技术指导、技术进步创作者:阿里云Serverless团队发布日期:2020年2月20日报告简介本书由阿里云Serverless团队精心打磨,汇聚众多一线专家Serverless技术专家的经验帮助读者从技术角度详细拓展了Serverless知识体系,洞察了Serverless领域当前的热点知识

    06-18