Robots协议是什么？Robots文件中选项的含义

更新时间:2022年08月25日10时38分来源:传智教育浏览次数:

Robots协议又称爬虫协议，它是国际互联网界通行的道德规范，用于保护网站数据和敏感信息，确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围，网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件，通过这个文件告知网络爬虫在抓取该网站时存在哪些限制，哪些网页是允许被抓取的，哪些网页是禁止被抓取的。

当网络爬虫访问网站时，应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在，则网络爬虫会访问该网站上所有被口令保护的页面;若robots.txt文件存在，则网络爬虫会按照该文件的内容确定访问网站的范围。

robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例，分析robots.txt文件的语法规则。

User-agent: *
Disallow: /subject_search
…
Disallow: /share/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap:
https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google

robots.txt文件选项说明

User-agent：用于指定网络爬虫的名称。若该选项的值为“*”，则说明robots.txt文件对任何网络爬虫均有效。带有“*”号的User-agent选项只能出现一次。例如，示例的第一条语句User-agent:*。

Disallow：用于指定网络爬虫禁止访问的目录。若Disallow选项的内容为空，说明网站的任何内容都是被允许访问的。在robots.txt文件中，至少要有一个包含Disallow选项的语句。例如，Disallow:/subject_search禁止网络爬虫访问目录/subject_search。

注意：Robots协议只是一个网站与网络爬虫之间达成的“君子”协议，它并不是计算机中的防火墙，没有实际的约束力。如果把网站比作私人花园，那么robots.txt文件便是私人花园门口的告示牌，这个告示牌上写有是否可以进入花园，以及进入花园后应该遵守的规则，但告示牌并不是高高的围栏，它只对遵守协议的“君子”有用，对于违背协议的人而言并没有太大的作用。

尽管Robots协议没有一定的强制约束力，但网络爬虫仍然要遵守协议，违背协议可能会存在一定的法律风险。

上一篇：为什么脏数据要提前进行数据预处理？ 下一篇：即学即用 2022新版Python入门教程