首页 > 科技未来 > 内容

不惜一切代价训练大型模型的AI公司打破了这个古老的互联网协议

发布于：2024-06-18 编辑：匿名来源：网络

作者：David Pierc 文章来源：TheVerge 文章链接：编译者：郑越编辑：Jingyu 大型模型的出现打破了30年的历史互联网的运行规则。

robots.txt 的代码版本（“互联网的迷你宪法”）开始失败。

robots.txt 是每个网站用来指示是否要被抓取的文本文件。

30 年来，它一直在帮助互联网避免混乱运行。

然而，这个规则的长期运行纯粹是基于人的逻辑——你让搜索引擎抓取你的网站，同时你会获得搜索引擎的流量奖励。

这也是几位互联网先驱为了互联网上每个人的利益而达成的握手协议。

经过30年的运作，这个既没有写入法律，也没有权威约束的有些幼稚的规则终于出现了问题——越来越多的AI公司使用爬虫来爬取你的网站数据并提取数据集。

，训练大模型和相关产品，但它们不像搜索引擎那样回馈流量，甚至根本不承认你的存在。

你的数据就像肉包子打狗，再也回不来了。

许多数据所有者非常愤怒。

新闻出版商等数据所有者不断发声，封锁人工智能爬虫，抵制其数字资产的免费使用。

然而，谷歌和OpenAI等人工智能推动者也在试图寻找更好的规则。

毕竟，只有各方受益，可持续发展才能实现。

robots.txt，一个简单有效的协议robots.txt，通常位于“yourwebsite.com/robots.txt”。

任何运营网站的人，无论是大网站还是小网站、烹饪博客还是跨国公司，都可以使用此文件来告诉谁可以访问该网站，谁不能访问该网站。

“哪些搜索引擎可以索引您的网站？哪些文件项目可以提取并保存您网页的版本？竞争对手可以保存您的网页吗？...”由您决定并用此文件向整个互联网发表声明。

看。

但现在，人工智能打破了这种平衡：在线公司正在利用你的网站数据提取大型训练数据集并构建大型模型和相关产品，这些公司甚至可能不承认你的存在。

在互联网的早期，机器人有很多名字：蜘蛛、爬虫、蠕虫、网络蚂蚁和网络爬虫。

大多数时候，这些名字都有良好的意图。

通常抓取数据是由开发人员完成的，目的是为新网站创建一个目录，以确保他们的网站正常运行，或者建立一个研究数据库——这是在 2000 年左右，当时搜索引擎还没有流行，计算机硬盘也还没有普及。

仍然加载数据。

不亚于大多数互联网内容。

robots.text 的真正作用是什么？图片来源：KeyCDN 当时唯一的问题是流量：对于网站浏览者和所有者来说，访问互联网速度缓慢且费用昂贵。

如果您像大多数人一样，在自己的计算机上管理网站，或者使用家庭互联网，并且一些机器人过度热衷于下载网页，这可能会导致您的网站崩溃和数据费用飙升。

在 2016 年的几个月里，一位名叫 Martijn Koster 的软件工程师与其他一群网站管理员一起提出了一个名为“机器人修复协议”的解决方案。

该方案非常简单：要求网站开发人员在其域名中添加一个纯文本文件，指定不允许哪些机器人浏览其网站，或者列出所有机器人都阻止的页面。

在此期间，您甚至可以维护每个机器人的列表 - 这就是 Coster 的人所做的。

对于机器人构建者来说，这就更简单了：一切都遵循文本文件的规则。

科斯特从一开始就明确表示，他并不讨厌机器人，也不打算摧毁它们。

今年年初，出现了一个名为 WWW-Talk 的邮件列表，其中包括蒂姆·伯纳斯·李 (Tim Berners-Lee) 和马克·安德森 (Marc Andreessen) 等早期互联网先驱。

Koster 向该列表发送了第一条消息。

“机器人是网络上少数可能导致操作问题和不愉快情况的机器人之一。

但与此同时，它们确实提供了有用的信息，”科斯特说。

不要争论机器人是好还是坏 - 因为这并不重要，它们就在这里并且不会消失。

他只是想设计一个“将问题最小化、利益最大化”的系统。

到那年夏天，他的建议已成为一项标准——虽然不是官方标准，但普遍被接受。

同年 6 月，Coster 再次向 WWW-Talk 团队更新了该提案，写道：“这是一种通过在服务器上提供简单的文本文件来引导机器人远离 Web 服务器 URL 空间的某些区域的方法。

这种方法如果您有大文件、带有大量 URL 子目录的 CGI 脚本、临时信息，或者您只是不想为机器人提供服务，则特别方便。

他建立了一个特定主题的邮件列表，其成员就这些文本文件的一些基本语法和结构达成了一致，将文件名从 RobotsNotWanted.txt 更改为简单的 robots.txt，几乎所有成员都支持。

在接下来的 30 年的大部分时间里，这种方法都非常有效。

然后，硬盘不再适合互联网，机器人的功能也变得更加强大和细分。

谷歌使用机器人来提取和索引其整个网络搜索引擎，该引擎成为网络的界面，每年为该公司创造数十亿美元的收入。

Bing 的爬虫程序也是如此，微软将其数据库授权给其他搜索引擎和公司。

互联网档案馆（一个非营利组织，定期编目并永久保存世界各地网站的可爬行信息）使用爬行器为子孙后代存储网页。

亚马逊的爬虫在网络上搜索产品信息，根据最近的一项反垄断诉讼，该公司利用这些信息来惩罚在亚马逊网站之外提供更便宜交易的卖家。

搜索爬虫对于网站有“得失”，那么AI呢？但现在，像 OpenAI 这样的人工智能公司正在提取网络数据来训练大型语言模型，这可能会再次从根本上改变我们访问和共享信息的方式。

现代互联网通过其下载、存储、组织和查询的能力，几乎使世界上所有积累的知识可供任何公司或任何开发人员使用。

过去一年多，ChatGPT等人工智能产品的兴起及其背后的大语言模型，让高质量的训练数据成为互联网上最有价值的商品。

这迫使主要互联网公司重新考虑其服务器上数据的价值，并重新考虑谁可以访问哪些数据。

过于宽容会让你的网站失去所有价值；限制太多会使您的网站不可见。

你面对新的公司、新的合作伙伴、新的利益，必须不断做出选择。

互联网机器人有多种类型。

您可以制作一个无害的机器人，将您的所有网页链接到其他有效的网页，也可以制作一个粗糙的机器人，在互联网上搜索它可以找到的每个电子邮件地址和电话号码。

但最常见、也是迄今为止最具争议的是最简单的网络爬虫，其工作是在互联网上查找并下载尽可能多的内容。

运行网络爬虫通常非常简单。

他们从一个网站开始，例如 cnn.com、wikipedia.org 或 health.gov。

爬虫下载第一页并将其存储在某个地方，然后自动单击该页面上的每个链接，下载这些链接，单击该页面上的所有链接，单击，下载......。

只要有足够的时间和足够的计算资源，爬虫最终就能找到并下载所需的数亿个网页。

2016 年，谷歌估计超过 5 亿个网站拥有 robots.txt 页面，这些页面规定了是否允许这些爬虫访问以及访问哪些内容。

这些页面的结构通常大致相同：命名一个“用户代理”，这是爬虫用来向服务器标识自己的名称。

谷歌的代理是Googlebot；亚马逊的代理是Amazonbot； Bing的代理是Bingbot； OpenAI 的代理是 GPTBot。

Pinterest、LinkedIn、Twitter 和许多其他网站和服务都有自己的机器人，但并非所有页面都提到它们。

谷歌对Googlebot的解释 |图片来源：谷歌维基百科和Facebook是被机器人接管最彻底的两个平台。

在robots.txt页面下，有不允许特定代理访问的网站部分或页面，以及允许访问的特定例外情况。

如果这一行只是简单地说“Forbidden：/”，那么爬虫根本不受欢迎。

对于现在的大多数人来说，“服务器过载”已经不再是一个需要考虑的问题了。

谷歌搜索的创建者之一约翰·穆勒(John Mueller)表示：“现在，它通常与网站资源关系不大，而更多地与个人喜好有关，即抓取和索引任何你想要的东西。

”大多数网站所有者需要回答的最大问题是是否允许Google机器人抓取。

这里的权衡相当简单：如果 Google 可以抓取您的页面，它就可以将其编入索引并将其显示在搜索结果中。

您希望 Google 抓取的任何页面，Googlebot 都需要查看。

（当然，Google 在哪里显示您的网站以及在哪里崩溃是另一个问题。

）前面的问题是您是否愿意让 Google 占用您的带宽并下载您的网站以换取搜索带来的结果。

能见度。

对于大多数网站来说，这是一个很容易做出的决定。

Medium 创始人 Tony Stubblebine 表示：“Google 是我们最重要的爬虫。

Google 下载 Medium 上的所有页面，作为交换，我们获得大量流量，这是双赢的。

”每个人都这么认为，这就是谷歌与整个互联网的协议，在为其他网站带来流量的同时，他们还在搜索结果中出售广告。

” 从各方面来看，Google 都是 robots.txt 的好公民。

谷歌的穆勒表示，“几乎所有信誉良好的搜索引擎都遵守这条规则。

”他们很高兴在网络上爬行，他们不会惹恼任何人，这只是让每个人的生活更轻松。

用数据训练AI，是肉包子打狗吗？在过去一年左右的时间里，人工智能的兴起颠覆了这种做法。

对于许多出版商和平台来说，抓取数据用于训练感觉不像是交易，而更像是盗窃。

“我们很快发现，人工智能公司不仅没有交换价值，我们也没有得到任何回报，绝对为零，”斯图布尔宾说，他去年秋天宣布将阻止人工智能爬虫。

写道：“人工智能公司从作家那里榨取价值，以便向互联网读者发送垃圾邮件。

” 过去一年来，大多数媒体界人士都同意斯图宾的观点。

去年秋天，BBC国家总监Rhodri Talfan Davies写道：“我们认为，目前未经许可‘抓取’BBC数据来训练大型模型的做法不符合公众利益”，他宣布BBC还将封杀OpenAI的爬虫。

《纽约时报》也屏蔽了GPTBot，几个月后对OpenAI提起诉讼，指控OpenAI的模型是使用《纽约时报》的数百万受版权保护的新闻文章、深入调查、观点文章、评论、操作指南构建的导游等起身。

路透社新闻应用程序编辑 Ben Welsh 的一项研究发现，在公共出版商中，有一个出版商在其 robots.txt 文件中屏蔽了 GPTBot。

不仅仅是出版商，亚马逊、Facebook、Pinterest、WikiHow、WebMD 和许多其他平台都明确禁止 GPTBot 在其部分或全部网站上出现。

在这些 robots.txt 页面中，OpenAI 的 GPTBot 是唯一被明确禁止的爬虫，但还有许多其他特定于 AI 的机器人开始爬行网络，例如 Anthropic 的 anthropic-ai 和 Google 的新 Google-Extended。

根据 Originality.AI 去年秋天进行的一项研究，在网络上排名靠前的网站中，GPTBot 被屏蔽，但只有 85 个屏蔽了 Google-Extend，28 个屏蔽了 anthropoc-ai。

还有用于网络搜索和人工智能训练的爬虫。

CCBot 由 Common Crawl 小组运营，作为搜索引擎抓取网络，但 OpenAI、Google 等公司也使用其数据来训练模型。

微软的 Bingbot 既是搜索爬虫，又是人工智能爬虫。

而这些只是标明自己身份的爬虫——有很多爬虫试图“隐形”地进行操作，因此很难在无穷无尽的网络流量中拦截它们，甚至找到它们。

在很大程度上，GPTBot 在 robots.txt 中被阻止最严重的原因是 OpenAI 本身允许它。

OpenAI 推广了一个关于如何阻止 GPTBot 的页面，并且还构建了自己的爬虫程序，以便在每次访问网站时尖叫谁来了。

当然，OpenAI是在产生了如此强大的底层模型之后才做到这一点的，此时它已经成为技术生态系统的重要组成部分。

OpenAI 安全声明的一部分 |图片来源：OpenAI 但这正是重点，OpenAI 首席战略官 Jason Kwon 表示，“我们是生态系统中的参与者。

如果“你想以开放的方式参与生态系统，那么这就是每个人都感兴趣的。

”他说，如果没有交易，网络将开始缩小并关闭——这对 OpenAI 和每个人都不利。

，“我们所做的一切都是为了保持互联网的开放。

” 默认情况下，始终允许《机器人修复协议》。

因为它相信，就像科斯特 30 年前所做的那样，大多数机器人都是好的，并且是由好人制造的。

总体来说，这个想法也是正确的。

“我认为互联网本质上是一种社会生物，”OpenAI 的 Jason Kwon 说。

“这种握手方式已经持续了几十年，而且很有效。

”他表示，OpenAI 在秉承这一协议的作用包括：保持 ChatGPT 对大多数用户免费（从而实现价值反馈）、尊重机器人的规则。

封锁AI爬虫是在对抗未来吗？然而，robots.txt 并不是一个法律文件，在其创建 30 年后的今天，它仍然依赖于所有相关方的善意。

任何爬虫都可以忽略robots.txt，而不必担心受到影响。

（网络抓取问题也有法律先例，但它很复杂，而且大多是在允许而不是禁止抓取的情况下）。

例如，互联网档案馆于 2010 年宣布将不再遵守 robots.txt 规则。

“随着时间的推移，我们发现为搜索引擎构建的 robots.txt 文件不一定能满足我们的目的，”互联网档案馆 Wayback Machine 主任 Mark Graham 当时写道。

人工智能公司的数量不断增加，他们的爬虫也越来越肆无忌惮。

任何想要“别担心”或者等待人工智能接管世界的人都将面临一场无休无止的“打地鼠”游戏。

不惜一切代价训练大型模型的AI公司打破了这个古老的互联网协议

“游戏。

我们需要尝试阻止每一个爬虫（如果可能的话），同时还要考虑个人后果——如果人工智能确实是搜索的未来，正如谷歌等公司预测的那样，那么阻止人工智能爬虫可能是短期的胜利，长期的胜利阻止和不阻止人工智能爬虫的双方都有认为需要更好、更强、更严格的工具来管理爬虫，因为涉及的利益太大，例子也太多了。

监管不规范，我们不能指望每个人都自觉遵守规则，2016年，一篇关于网络爬虫合法性的论文写道：“虽然很多人在使用网络爬虫时有一些自律规则，但总体规则太薄弱，而且还不够完善。

”问责制很难。

”一些出版商希望制定新的规则，以便更精确地控制抓取的内容及其使用方式，而不是像 robots.txt 那样一刀切、“是”或“否”。

几年前，谷歌努力使机器人排除协议成为正式的官方标准。

谷歌还试图淡化robots.txt，因为它是一个旧标准，太多网站没有关注它。

谷歌 robots.txt 示例 |图片来源：谷歌谷歌信任副总裁 Danielle Romain 写道：“现有的网络出版商控制规则是在新的人工智能和研究案例之前制定的。

现在是时候了，网络和人工智能社区正在重新探索机器阅读方法，供网络出版商选择。

尽管人工智能公司在训练大型模型时面临许多监管和法律问题，但大型模型仍在快速发展，而且似乎每天都会添加新模型。

成立。

大大小小的网站现在都面临着一个选择：屈服于人工智能革命，还是坚定地与之抗争。

对于那些屈服的网站来说，最有力的论据是已有三十年历史的 robots.txt 协议，该协议是由一些互联网最早、最乐观的信徒制定的。

他们相信互联网是好的，他们都是希望互联网变得更好的人。

在那个世界里，一个解释你的愿望的文本文件就足够了。

现在，随着人工智能重塑互联网的文化和经济，简单的纯文本文件开始感觉有点过时了。

#阿里云#创新创业#创业支持#创业资讯我们关注国内外最热门的创新创业动态，提供一站式资讯服务，实时传递行业热点新闻、深度评论和前瞻观点帮助企业家掌握新兴技术。

趋势和行业变化，以及对未来技术趋势的洞察。

站长声明

标签：

上一篇：进击云服务Foream X1穿戴式相机评测

下一篇：吉利汽车2017年净利润突破100亿！母公司没有新的海外并购计划，即将发布欧洲战略

多家机构将阿里云估值上调至千亿以上，高盛给予最高估值1238亿美元

8月27日消息，阿里巴巴发布强劲财季业绩后，高盛、摩根大通等机构上调阿里云估值阿里云估值阿里云估值已突破千亿美元，高盛将阿里云估值提升至1亿美元。今年上半年，阿里云营收达亿元，市场份额连续四个季度增长，为市场注入强劲信心。财报显示，本财年第一季度，阿里云营

06-17
高能数字化全固态电池生产线级设备订单超千万并开始发货

在当前全球能源竞争日益激烈的今天，锂离子电池作为主要的储能介质已进入新时代技术的竞争源于产能的竞争。。工信部等四部委联合发布的《促进汽车动力电池产业发展行动方案（工信部联装〔〕29号）》明确要求新型锂离子动力电池能量密度必须达到Wh/kg。这一参数已经远远超出

06-17
糖纸公测丨你的下一台电脑一定是电脑！ Surface Laptop Go体验回顾

本文为作者@王努力的体验，首发于唐知公测。当我们谈论 iPhone 时，很难避免乔布斯在初代 iPhone 发布会上演示滑动解锁的经典形象。当我们谈论Surface时，大多数人都会想到2015年Surface Book发布会结束时的Panos，将屏幕和键盘分离，在大家面前表演了一场视觉魔术。 Surfa

06-21
当生命走到尽头的时候，我们可能真的会看到“生命的大帐篷”

“我感觉特别平静，思绪很清晰。过去的事情就像正在播放的电影一样，在我眼前闪现。然而，大多数都是幸福的回忆，我现在还能感受到当时的喜悦心情。 ”这是我们经常听到的对濒死状态的描述。生与死，是每个人这一生都会经历的事情。然而，我们对死亡了解还不够。当生命即

06-21
三星电子与现代汽车首次合作开发车载娱乐系统汽车芯片

据韩国媒体报道，三星近日宣布将向现代汽车供应IVI处理器Exynos Auto V，以驱动现代汽车Motor的下一代车载信息娱乐系统，目标于今年正式供货。据悉，Exynos Auto V的供货是三星与现代汽车在半导体领域的首次合作。三星表示，Exynos Auto V 采用 ARM 最新的汽车 CPU 架构，

06-06
尚贤魔镜完成1亿美元B轮融资，

据投资界9月23日消息，尚贤魔镜近日完成1亿美元B轮融资，由贝恩互联网产业基金领投。据了解，这是一个AI广告平台。魔镜系列产品的逻辑是实时对比信息流广告将产生的新增用户与公司积累的真实活跃用户数据包，针对广告主的用户画像需求而形成的数据库通过其动态数据包进行大

06-17
高瓴再出手：今天这家公司暴涨60亿

高瓴再出手。投资界获悉，昨晚（1月31日），绿叶制药宣布重大投资：高瓴资本及其基金高瓴新能源以24亿港元的价格两次投资绿叶制药，获得后者15.60%的股份。，成为继公司控股股东绿叶投资之后的第二大股东。今日开盘，绿叶制药市值飙升60亿港元。这家公司成立于2001年，其

06-17
红杉中国-红杉资本设立1000万元疫情防控专项基金，分批捐赠37万件急需医疗物资

近期，以武汉为中心的新型冠状病毒疫情牵动着全国人民的心，来自各地的医护人员全国各地人员紧急驰援湖北。面对武汉医疗机构防护设备和医疗物资仍紧缺的紧张局面，红杉中国立即行动，设立1万人民防控新型肺炎疫情专项基金，并捐赠医用口罩、医用手套、专业消毒用品等医疗物资

06-18
存储变革：数据从核心到边缘，企业存储复兴

每年创建、收集或复制的数据集合就是全球数据圈，到2020年将增长5倍以上。 IDC预测全球数据圈将从2018年的33ZB增长到2018年的ZB。据雷锋网报道，2月21日，希捷科技“数字能源绽放——从边缘到核心——全球数据圈暨中国白皮书大会”正式召开。本次会议由希捷科技主办，国际数

06-18
大牛车金融获1000万元天使轮投资，将继续拓展线下分行业务

据投资界11月14日消息，大牛车金融（杭州车掌柜网络科技有限公司）完成万股融资-元天使轮融资，本轮融资由天策金科控股有限公司、北京乐享科技股份有限公司（境外纳斯达克上市公司）领投。除线下网点营业点建设外，大牛车金融融资资金还将用于线上系统软件的开发建设，对接

06-18
起售价低于 30 万元，特斯拉 Model 3 是如何做到的？

起拍价不到30万元。特斯拉 Model 3 是如何做到的？ 2019年1月3日，特斯拉官方发布消息，宣布中国制造的特斯拉Model 3即将上市，将于1月7日交付；但最引人瞩目的还是价格——这款国产Model 3车型在享受国家新能源补贴和免购置税后售价50元起。这是特斯拉首款起售价低于30万元

06-17
AI如何赋能企业数字化转型？第四范式给出了自己的答案

2020年，中国人工智能的发展不再局限于算力、算法、数据等技术突破，而是从社会需求和行业应用的角度出发。逐步深入特定行业；与此同时，在见证了人工智能作为前沿技术的巨大市场潜力后，整个市场也越来越关注人工智能如何赋能行业，从而走向商业化。带着同样对这个问题的关

06-18