Robots 协议是一个位于网站根目录下的 robots.txt 文件,用来指示搜索引擎爬虫哪些页面可以访问,哪些页面禁止访问。通过遵守 Robots 协议,可以有效地控制搜索引擎爬虫的抓取行为,维护网站的合法权益。
现在也有一些 AI 模型会抓取你网站的数据进行训练模型,如果不想你的网站被 AI 抓取,那么也可以通过在 robots.txt 文件里面添加屏蔽,下面分享的这个「ai.robots」项目收录了目前主流的 AI 爬虫,有需要的可以添加到自己的网站 robots.txt 文件中。
Robots 协议是一个位于网站根目录下的 robots.txt 文件,用来指示搜索引擎爬虫哪些页面可以访问,哪些页面禁止访问。通过遵守 Robots 协议,可以有效地控制搜索引擎爬虫的抓取行为,维护网站的合法权益。
现在也有一些 AI 模型会抓取你网站的数据进行训练模型,如果不想你的网站被 AI 抓取,那么也可以通过在 robots.txt 文件里面添加屏蔽,下面分享的这个「ai.robots」项目收录了目前主流的 AI 爬虫,有需要的可以添加到自己的网站 robots.txt 文件中。
目录
请登录后发表评论
注册
停留在世界边缘,与之惜别