Robots 协议是一个位于网站根目录下的 robots.txt 文件,用来指示搜索引擎爬虫哪些页面可以访问,哪些页面禁止访问。通过遵守 Robots 协议,可以有效地控制搜索引擎爬虫的抓取行为,维护网站的合法权益。

现在也有一些 AI 模型会抓取你网站的数据进行训练模型,如果不想你的网站被 AI 抓取,那么也可以通过在 robots.txt 文件里面添加屏蔽,下面分享的这个「ai.robots」项目收录了目前主流的 AI 爬虫,有需要的可以添加到自己的网站 robots.txt 文件中。

ai robots - 避免 AI 抓取你网站数据训练模型 第5张插图