首页 > 科技未来 > 内容

人类数据将被 OpenAI 用完，接下来怎么办？

发布于：2024-06-18 编辑：匿名来源：网络

“Bigger more more”是苹果当时的广告语。

它被用来描述AI领域最流行的大语言模型，看起来并没有什么问题。

从数十亿到数百亿再到数千亿，大型模型的参数逐渐变得更加狂野。

相应地，用于训练AI的数据量也呈指数级增长。

以OpenAI的GPT为例，从GPT-1到GPT-3，其训练数据集从4.5GB到GB呈指数级增长。

在不久前Databricks举办的数据+AI大会上，a16z和创始人Marc Andreessen认为，过去二十年互联网积累的海量数据是这波新AI浪潮兴起的重要原因，因为前者提供了后者带有可用于训练的数据。

然而，即使网友在网上留下了大量有用或无用的数据，对于AI训练来说，这些数据可能已经见底了。

人工智能研究和预测机构Epoch发表的一篇论文预测，高质量的文本数据将在一年内耗尽。

尽管研究团队也承认分析方法存在严重局限性，模型精度较高，但很难否认人工智能消耗数据集的速度是可怕的。

低质量文本、高质量文本和图像的机器学习数据消费和数据生产趋势 | EpochAI 当“人类”数据耗尽时，AI训练将不可避免地使用AI本身产生的内容。

然而，这种“内循环”会带来很大的挑战。

不久前，来自剑桥大学、牛津大学、多伦多大学等多所大学的研究人员发表论文指出，使用AI生成的内容作为训练AI将导致新模型的崩溃。

那么，用于AI训练的“生成数据”导致崩溃的原因是什么？有什么帮助吗？ AI“近亲繁殖”的后果在题为《递归的诅咒：用生成数据训练会使模型遗忘》的论文中，研究人员指出，“模型崩溃”是几代模型的退化过程。

上一代模型产生的数据会污染下一代模型。

几代模型“继承”后，就会错误地感知世界。

模型迭代图| arxiv 模型崩溃分为两步：模型崩溃初期，模型会开始丢失原始数据的分布信息，即“干净的人类数据”；在后期，模型会将原始分布与前几代模型的“错误认知”信息纠缠在一起，扭曲现实。

研究人员首先从头开始训练小样本模型 GMM（高斯混合模型）和 VAE（变量自动编码器）。

以GMM为例，下图最左图是原始数据的正态分布。

正如您所看到的，模型最初非常适合数据。

到第 50 次迭代时，底层数据分布开始被错误地感知。

当迭代到次数时，模型已经收敛到一个很小的点，这意味着模型开始稳定输出错误的答案。

迭代 0, 50,,,,, | 时的 GMM 拟合数据示例arxiv 为了验证预训练对实验结果的影响，研究人员还使用 Meta 开发的 1.25 亿参数 LLM（大型语言模型）OPT-m 在来自维基百科的 wikitext2 的数据集上进行了实验。

与GMM、VAE等小模型不同，LLM从头开始训练的成本非常高，所以都是预训练的。

实验结果如下：输入：根据 Poyntz Wright 的说法，在之前，一些活动通常由一名主要泥瓦匠和一小队流动泥瓦匠进行，并辅以当地教区劳工。

但其他作者否认了这种模式，认为首席建筑师以英国垂直风格设计了教区教堂的尖塔。

输出：第 0 代：复兴建筑，例如伦敦圣约翰大教堂。

现存最早的垂直复兴式建筑可以追溯到 18 世纪，即建于 19 世纪末的根西岛圣母教堂。

垂直教堂有两种类型：第一代：罗马圣彼得大教堂或布宜诺斯艾利斯圣彼得大教堂等建筑。

没有证据表明这些建筑是在教皇英诺森三世统治期间建造的，但它们有可能是在他的继任者教皇英诺森三世统治期间建造的。

第七代：英国建筑。

在接受《纽约时报》采访时，赖特说：“我不认为我能够做我想做的事情有什么问题。

它只是对我不起作用。

”他补充道：“我不知道你是否可以将其称为“为了好玩，第九代：建筑”。

除了是黑@@-@尾长耳大野兔、白@@-@尾长耳大野兔、蓝@@-@尾长耳大野兔、红@@-@尾长耳大野兔和黄@@-的最大栖息地之一之外，到了第9代模型，输出完全无法理解。

该论文的作者之一伊利亚·舒迈洛夫（Ilia Shumailov）表示，随着人工智能生成的数据中的错误随着时间的推移而积累，主要模型在接受这些数据的训练后将会对现实产生更加扭曲的看法。

为什么模型会崩溃？ “模型崩溃”的主要原因是AI并不是真正的智能。

其近似“智能”的背后，其实是基于大量数据的统计方法。

基本上，所有无监督机器学习算法都遵循一个简单的模式：给定一系列数据，训练一个可以描述数据模式的模型。

在这个过程中，训练集中出现概率较大的数据将更有可能被模型重视，而出现概率较小的数据将被模型低估。

例如，假设我们需要记录掷骰子的结果来计算每一面出现的概率。

理论上，每张脸出现的概率是相同的。

在现实生活中，由于样本量较小，情况3和4可能会更频繁地发生。

但对于模型来说，它学习到的数据是3和4出现的频率更高，因此会倾向于生成更多3和4的结果。

《模型崩溃》图| arxiv 另一个次要原因是函数逼近误差。

它也很容易理解，因为实际的函数往往非常复杂。

在实际应用中，常常用简化函数来逼近实函数，从而导致误差。

你真的没主意了吗？毫无根据的担忧！那么，人类数据越来越少，AI训练真的没有机会了吗？不是的，解决训练AI的数据枯竭问题是有办法的： 1.数据“隔离” 随着AI越来越强大，越来越多的人开始利用AI来辅助自己工作。

互联网上的 AIGC 随着爆炸式增长，“干净的人类数据集”可能变得越来越难找到。

人类数据将被 OpenAI 用完，接下来怎么办？

谷歌深度学习研究部门Google Brain的高级研究科学家达芙妮·伊波利托(Daphne Ippolito)表示，未来，找到高质量、有保证的、不受人工智能影响的训练数据将变得越来越困难。

这就像患有高危遗传病的人类祖先，却又拥有极其强大的生殖能力。

短短的时间内，他的后裔就遍布了地球的每一个角落。

然后在某个时刻，一种遗传疾病爆发，所有人类都灭绝了。

为了解决“模型崩溃”，研究团队提出的一种方法是“先发优势”，即保留对干净的人类生成数据源的访问权，并将 AIGC 与其隔离。

与此同时，这将需要许多社区和公司联手保护人类数据免受 AIGC 污染。

然而，人类数据的稀缺意味着有钱可赚，一些公司已经在采取行动。

Reddit 表示，这将大幅增加访问其 API 的成本。

公司官员表示，这些变化（部分）是对人工智能公司窃取其数据的回应。

Reddit 创始人和首席执行官 Steve Huffman 告诉《纽约时报》：“Reddit 的数据库确实很有价值。

” “但我们不需要将所有这些价值免费提供给一些世界上最大的公司。

” 2 合成数据同时，基于AI生成的专业数据早已有效地用于AI训练。

在一些从业者看来，他们现在担心AI产生的数据会导致模型崩溃，这有点“标题党”的意思。

Nimbus智能创始人谢晨光告诉极客公园，国外论文提到使用AI生成的数据训练AI模型会导致崩溃，实验方法也比较有偏差。

甚至人类的数据也可以用，也不能用。

论文中提到的实验都是不带任何歧视地直接用于训练，而不是经过质量检验和有效性判断后作为训练数据。

显然这有可能导致模型崩溃。

谢晨透露，实际上OpenAI的GPT-4使用了上一代模型GPT-3.5产生的大量数据进行训练。

Sam Altman 在最近的采访中也表示，合成数据是解决大型模型数据短缺的有效途径。

关键是有一个完整的系统来区分AI生成的数据哪些可用、哪些不可用，并根据训练模型的效果不断提供反馈——这就是让OpenAI引以为傲的AI的技巧之一??世界。

公司不仅仅是筹集更多资金和购买更多计算能力那么简单。

在AI行业，利用合成数据进行模型训练早已成为不为外人所知的共识。

曾在英伟达、Cruise、蔚来等公司负责自动驾驶模拟的谢晨认为，根据目前各种大型模型训练的数据量，人类数据在未来2-2年确实可能会“耗尽”。

3年，但基于专业的系统和方法，人工智能生成的合成数据将成为取之不尽、用之不竭的有效数据来源。

并且使用场景不限于文字和图片。

自动驾驶、机器人等行业所需的合成数据量将远远大于文本数据量。

人工智能的三要素是数据、算力和算法。

数据源已经到位，大算法模型也在不断演化。

仅存的算力压力，相信NVIDIA创始人黄能够成功解决。

站长声明

标签：

上一篇：成都市人才贷、成果贷、研发贷发放仪式正式启动

下一篇：朴衡博迈完成新一轮融资，浦东科投天使基金出手

空气产品公司将为三星电子位于西安的第二个 3D V-NAND 芯片工厂供应空气

空气产品公司将为三星电子位于中国上海的第二个 3D V-NAND 芯片工厂供应空气 (2 月 2 日) 2020年）——全球领先的工业气体供应商空气产品公司（纽约证券交易所代码：APD）今天宣布将为三星电子位于西安的第二家半导体工厂供应工业气体。位于西安高新技术开发区的芯片工厂是

06-06
瑞萨宣布纳卡工厂产能已恢复，停产导致约 2-3 周的产量损失，

瑞萨电子26日宣布，16日因福岛地震而暂停的那卡工厂产能已于当天恢复至震前水平。该工厂原定于23日恢复生产，但由于部分设备故障，恢复进度被推迟。据MoneyDJ介绍，纳克工厂主要生产汽车MCU等先进产品。瑞萨指出，Naka工厂生产线上正在生产的部分半成品遭到损坏。这部分与

06-08
节前赚钱，赚

四倍工资，日薪1000元。这些暴涨的数字，是北上广深许多清洁工的真实收入。即使开出了如此高的薪资，各大家政公司仍然叫嚣着阿姨短缺。 “现在订单量是平时的两倍多，顾客太多了，应付不来。我和员工一起工作，每天都没有时间吃午饭。 ”上海一家小型家政公司负责人小吴说

06-17
迈博斯生物制药与奕安济世生物制药合并，成立创胜控股

据投资界1月2日消息，奕安济世生物制药（HJB）与迈博斯生物制药（MabSpace）今日宣布，将合并成立创胜控股。两家公司合并后，迈博斯生物-创始人、董事长和首席执行官钱雪明博士将担任 Transcenta 首席执行官，奕安济世联合创始人和首席执行官弗拉基米尔赵奕宁博士将担任 Tr

06-17
【数据之味】完成数千万元A轮融资

数据之味近日完成数千万元A轮融资。本轮融资由顺为资本领投，现有股东梅花创投、快创盈跟投。将用于投资AlphaDraw“聚汇通”的产品技术研发、设计师团队建设、产品营销等。

06-18
马客｜恭喜多家马汇会员入围中国最具创新力企业50强

福布斯中国最具创新力企业50强名单出炉，涵盖新能源、半导体与通信技术、医疗健康、医疗设备、电动汽车及其产业链、云计算与人工智能、机器人概念、消费零售等领域。其中，理想汽车、新旺达、海柔创新、云鲸智能等四家马汇会员入选。在今年的创新榜单中，电动汽车产业链相关

06-17
OTM获4000万元天使轮融资，创世伙伴CCV领投

undefined其中，OTM创始人孟令航是一位80年代出生的企业家。拥有十余年高级职业经理人经验。曾任锦江国际集团WeHotel总裁、铂涛集团副总裁。他创立了铂涛旅游，随后执掌锦江集团1.6年多。亿会员在线预约平台，拥有腾讯产品经理、合生元妈妈会员中心COO工作经历。作为中国

06-17
「天工大模型3.0」4月17日正式发布——同步开源4000亿参数MoE超级模型，性能超Grok1.0

undefined“天宫3.0”模型能力的提升体现在以下四个方面： 1、更强的逻辑推理能力：更智能的逻辑推理能力的提升对于大型模型解决复杂问题至关重要。 “天宫3.0”的数学和推理能力提升30%以上，强大的逻辑推理能力使其在实际应用中能够更加准确高效地处理信息。例如，在“天宫

06-18
企业培训云平台服务商“魔法学院”获数千万元投资

企业培训云平台服务商“魔法学院”（魔博科技旗下平台）获数千万元产业投资腾讯生态投资。悠然资本为本轮独家投资方。本轮融资将主要用于产品创新和市场拓展。听，中小企业反馈平台。倾听用户的需求，倾听创业者的声音，解决中小企业的痛点。点击立即参与调查并获得礼物

06-18
农行发放首笔并购贷款助力国材收购冠豪高新

7月17日，农行完成对国材开发投资公司1.98亿元并购贷款的审批，即将发放在不久的将来贷款。该笔并购贷款由中国中材投资公司用于收购A股上市公司广东冠豪高??新技术股份有限公司27.27%的股份以及湛江冠龙纸业有限公司的全部股份，冠豪高新的子公司。这是农行发放《中国农业银

06-17
汽车融资租赁平台“来用车”获亿元A轮融资，欲做“零门槛购车”先行者

数据显示，2020年我国互联网汽车市场总规模汽车金融规模将达1.1万亿元。，我国互联网汽车金融总规模可达1.85万亿元，互联网汽车金融行业潜力巨大。　　据投资界8月17日消息，汽车融资租赁平台“来用车”今日正式宣布获得1亿元A轮融资。本轮融资由美丽金融集团、上市公司金

06-18
千亿富豪重新当码农

亿万富翁富豪回归码农 2019年12月6日，谷歌发布了自己的大型模型Gemini，正面挑战ChapGPT。人们在吃瓜的同时，也有了一个惊人的发现：在Gemini技术论文的核心贡献者名单中，出现了谷歌创始人谢尔盖布林的名字。这位在《福布斯》全球富豪榜排名第14位的亿万富翁富豪，竟然在

06-18