空气产品公司将为三星电子位于西安的第二个 3D V-NAND 芯片工厂供应空气
06-06
“Bigger more more”是苹果当时的广告语。
它被用来描述AI领域最流行的大语言模型,看起来并没有什么问题。
从数十亿到数百亿再到数千亿,大型模型的参数逐渐变得更加狂野。
相应地,用于训练AI的数据量也呈指数级增长。
以OpenAI的GPT为例,从GPT-1到GPT-3,其训练数据集从4.5GB到GB呈指数级增长。
在不久前Databricks举办的数据+AI大会上,a16z和创始人Marc Andreessen认为,过去二十年互联网积累的海量数据是这波新AI浪潮兴起的重要原因,因为前者提供了后者带有可用于训练的数据。
然而,即使网友在网上留下了大量有用或无用的数据,对于AI训练来说,这些数据可能已经见底了。
人工智能研究和预测机构Epoch发表的一篇论文预测,高质量的文本数据将在一年内耗尽。
尽管研究团队也承认分析方法存在严重局限性,模型精度较高,但很难否认人工智能消耗数据集的速度是可怕的。
低质量文本、高质量文本和图像的机器学习数据消费和数据生产趋势 | EpochAI 当“人类”数据耗尽时,AI训练将不可避免地使用AI本身产生的内容。
然而,这种“内循环”会带来很大的挑战。
不久前,来自剑桥大学、牛津大学、多伦多大学等多所大学的研究人员发表论文指出,使用AI生成的内容作为训练AI将导致新模型的崩溃。
那么,用于AI训练的“生成数据”导致崩溃的原因是什么?有什么帮助吗? AI“近亲繁殖”的后果 在题为《递归的诅咒:用生成数据训练会使模型遗忘》的论文中,研究人员指出,“模型崩溃”是几代模型的退化过程。
上一代模型产生的数据会污染下一代模型。
几代模型“继承”后,就会错误地感知世界。
模型迭代图| arxiv 模型崩溃分为两步:模型崩溃初期,模型会开始丢失原始数据的分布信息,即“干净的人类数据”;在后期,模型会将原始分布与前几代模型的“错误认知”信息纠缠在一起,扭曲现实。
研究人员首先从头开始训练小样本模型 GMM(高斯混合模型)和 VAE(变量自动编码器)。
以GMM为例,下图最左图是原始数据的正态分布。
正如您所看到的,模型最初非常适合数据。
到第 50 次迭代时,底层数据分布开始被错误地感知。
当迭代到次数时,模型已经收敛到一个很小的点,这意味着模型开始稳定输出错误的答案。
迭代 0, 50,,,,, | 时的 GMM 拟合数据示例arxiv 为了验证预训练对实验结果的影响,研究人员还使用 Meta 开发的 1.25 亿参数 LLM(大型语言模型)OPT-m 在来自维基百科的 wikitext2 的数据集上进行了实验。
与GMM、VAE等小模型不同,LLM从头开始训练的成本非常高,所以都是预训练的。
实验结果如下: 输入:根据 Poyntz Wright 的说法,在 之前,一些活动通常由一名主要泥瓦匠和一小队流动泥瓦匠进行,并辅以当地教区劳工。
但其他作者否认了这种模式,认为首席建筑师以英国垂直风格设计了教区教堂的尖塔。
输出:第 0 代:复兴建筑,例如伦敦圣约翰大教堂。
现存最早的垂直复兴式建筑可以追溯到 18 世纪,即建于 19 世纪末的根西岛圣母教堂。
垂直教堂有两种类型:第一代:罗马圣彼得大教堂或布宜诺斯艾利斯圣彼得大教堂等建筑。
没有证据表明这些建筑是在教皇英诺森三世统治期间建造的,但它们有可能是在他的继任者教皇英诺森三世统治期间建造的。
第七代:英国建筑。
在接受《纽约时报》采访时,赖特说:“我不认为我能够做我想做的事情有什么问题。
它只是对我不起作用。
”他补充道:“我不知道你是否可以将其称为“为了好玩,第九代:建筑”。
除了是黑@@-@尾长耳大野兔、白@@-@尾长耳大野兔、蓝@@-@尾长耳大野兔、红@@-@尾长耳大野兔和黄@@-的最大栖息地之一之外,到了第9代模型,输出完全无法理解。
该论文的作者之一伊利亚·舒迈洛夫(Ilia Shumailov)表示,随着人工智能生成的数据中的错误随着时间的推移而积累,主要模型在接受这些数据的训练后将会对现实产生更加扭曲的看法。
为什么模型会崩溃? “模型崩溃”的主要原因是AI并不是真正的智能。
其近似“智能”的背后,其实是基于大量数据的统计方法。
基本上,所有无监督机器学习算法都遵循一个简单的模式:给定一系列数据,训练一个可以描述数据模式的模型。
在这个过程中,训练集中出现概率较大的数据将更有可能被模型重视,而出现概率较小的数据将被模型低估。
例如,假设我们需要记录掷骰子的结果来计算每一面出现的概率。
理论上,每张脸出现的概率是相同的。
在现实生活中,由于样本量较小,情况3和4可能会更频繁地发生。
但对于模型来说,它学习到的数据是3和4出现的频率更高,因此会倾向于生成更多3和4的结果。
《模型崩溃》图| arxiv 另一个次要原因是函数逼近误差。
它也很容易理解,因为实际的函数往往非常复杂。
在实际应用中,常常用简化函数来逼近实函数,从而导致误差。
你真的没主意了吗?毫无根据的担忧! 那么,人类数据越来越少,AI训练真的没有机会了吗? 不是的,解决训练AI的数据枯竭问题是有办法的: 1.数据“隔离” 随着AI越来越强大,越来越多的人开始利用AI来辅助自己工作。
互联网上的 AIGC 随着爆炸式增长,“干净的人类数据集”可能变得越来越难找到。

谷歌深度学习研究部门Google Brain的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)表示,未来,找到高质量、有保证的、不受人工智能影响的训练数据将变得越来越困难。
这就像患有高危遗传病的人类祖先,却又拥有极其强大的生殖能力。
短短的时间内,他的后裔就遍布了地球的每一个角落。
然后在某个时刻,一种遗传疾病爆发,所有人类都灭绝了。
为了解决“模型崩溃”,研究团队提出的一种方法是“先发优势”,即保留对干净的人类生成数据源的访问权,并将 AIGC 与其隔离。
与此同时,这将需要许多社区和公司联手保护人类数据免受 AIGC 污染。
然而,人类数据的稀缺意味着有钱可赚,一些公司已经在采取行动。
Reddit 表示,这将大幅增加访问其 API 的成本。
公司官员表示,这些变化(部分)是对人工智能公司窃取其数据的回应。
Reddit 创始人和首席执行官 Steve Huffman 告诉《纽约时报》:“Reddit 的数据库确实很有价值。
” “但我们不需要将所有这些价值免费提供给一些世界上最大的公司。
” 2 合成数据 同时,基于AI生成的专业数据早已有效地用于AI训练。
在一些从业者看来,他们现在担心AI产生的数据会导致模型崩溃,这有点“标题党”的意思。
Nimbus智能创始人谢晨光告诉极客公园,国外论文提到使用AI生成的数据训练AI模型会导致崩溃,实验方法也比较有偏差。
甚至人类的数据也可以用,也不能用。
论文中提到的实验都是不带任何歧视地直接用于训练,而不是经过质量检验和有效性判断后作为训练数据。
显然这有可能导致模型崩溃。
谢晨透露,实际上OpenAI的GPT-4使用了上一代模型GPT-3.5产生的大量数据进行训练。
Sam Altman 在最近的采访中也表示,合成数据是解决大型模型数据短缺的有效途径。
关键是有一个完整的系统来区分AI生成的数据哪些可用、哪些不可用,并根据训练模型的效果不断提供反馈——这就是让OpenAI引以为傲的AI的技巧之一??世界。
公司不仅仅是筹集更多资金和购买更多计算能力那么简单。
在AI行业,利用合成数据进行模型训练早已成为不为外人所知的共识。
曾在英伟达、Cruise、蔚来等公司负责自动驾驶模拟的谢晨认为,根据目前各种大型模型训练的数据量,人类数据在未来2-2年确实可能会“耗尽”。
3年,但基于专业的系统和方法,人工智能生成的合成数据将成为取之不尽、用之不竭的有效数据来源。
并且使用场景不限于文字和图片。
自动驾驶、机器人等行业所需的合成数据量将远远大于文本数据量。
人工智能的三要素是数据、算力和算法。
数据源已经到位,大算法模型也在不断演化。
仅存的算力压力,相信NVIDIA创始人黄能够成功解决。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态