成都银行正式递交IPO申请 拟发行不超8亿股普通股
06-17
雷锋网消息,7月1日,谷歌在博客上发布了一条重要消息。
它宣布 Google 开源了存储 robots.text 解析器的 C++ 库。
为了推动REP(Robots Exclusion Protocol,又称爬虫协议、机器人协议)成为互联网标准。
2017年,荷兰软件工程师Martijin Koster提出了REP的概念,即利用robots.txt文件来隐藏一些信息不被搜索引擎抓取。
比如只抓取应该抓取的页面;阻止某些网站中的较大文件;屏蔽一些无效链接;敏感信息保密等。
雷锋网注:我们可以这样理解搜索引擎的抓取方式(图片来自百度百科)。
网站就像一个房间,robots.txt文件就是主人挂在门上的“请勿打扰”标志。
它让人在一些存放贵重物品的房间停下来,但它毕竟不是看门人,无法阻止恶意的窃贼。
自多方提交该提案以来,已经过去了二十五年。
业界对REP表示了充分认可,但现在它更像是一种道德准则,而不是非官方的互联网标准。
然而,谷歌正在努力改变这一现状。
谷歌在博客文章中表示:“我们希望帮助网站所有者和开发者在互联网上创造令人惊叹的体验,而不是担心控制爬虫。
”谷歌和该协议的发起者以及其他网络管理员和搜索引擎共同起草了一份关于如何在现代网络上应用REP的提案,该提案已提交给IETF(雷锋网出版社:互联网工程任务组) ,一个非营利性互联网开放标准组织,负责开发和推广自愿性互联网标准)。
Google 的提案反映了 Googlebot 和一些主要网络爬虫的 robots.txt 20 多年的实际经验,以及依赖 REP 的大约 5 亿个网站,并将其扩展到现代网络,以定义机器人的所有方式.txt 解析并匹配。
以前未定义的场景:robots.txt 可以与任何基于 URI 的传输协议一起使用;它不再局限于HTTP,还可以与FTP或CoAP一起使用。
开发人员必须至少解析 robots.txt 的第一个 KB。
定义文件的最大大小,以确保打开连接不会花费太长时间,从而减轻服务器不必要的压力。
新的 24 小时最大缓存时间或可用缓存指令值使网站所有者可以灵活地随时更新 robots.txt,而不会导致爬虫使网站超载。
当当前可访问的 robots.txt 文件因服务器故障而无法访问时,这些无法访问的页面将在较长时间内无法检索。
开源robots.txt解析器除了联手向IETF提交提案之外,Google还做出了其他努力,开源了自己的robots.txt文件库,以创建用于创建和解析文件的标准化语法,消除所有混乱。
谷歌在博客中表示:REP是网络最基本、最关键的组成部分之一,但它只是一个商定的标准,这难免令人沮丧;这给网络管理员和爬虫工具开发人员带来了麻烦。
..... 将 REP 推广为行业标准非常重要,因为它符合每个人的利益。
然而,这种标准化需要开发人员在解析 robots.txt 文件时付出更大的努力,因此我们开源了一个包含 robots.txt 解析器的 C++ 库。
据说 C++ 库已有 20 年历史,包含 20 世纪 90 年代以来编写的代码片段。
该库经过了 20 年的发展,涵盖了许多编写 robots.txt 文件的实际案例,这对于想要构建自己的解析器的开发人员很有帮助。
此外,谷歌还在开源软件包中添加了测试工具,帮助编写者测试robots.txt的有效性。
Google开源robots.txt后,该话题引起了广泛关注,甚至登上了Hacker News的榜首。
Constellation Research(雷锋网出版社:专门从事数字化转型和颠覆性技术的技术研究和咨询)分析师 Holger Mueller 向 SiliconANGLE 表示,标准化对于互联网的正常运行至关重要,很高兴看到谷歌参与 REP。

凡事起带头作用。
Holger Mueller 还补充说,与任何开源倡议和标准化尝试一样,我们仍然需要等待,看看此举是否会成功以及我们可以从中学到什么。
这是一个值得密切关注的领域。
国内,网友们也??高呼“谷歌,人类的希望”(雷锋网昵称:“谷歌,人类的希望”),表达对这一事件的赞赏。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态