许多 AI 蜘蛛(如 Bytespider、GPTBot 等)抓取频率极高,会瞬间拉高服务器的 CPU 和带宽。以下是针对宝塔面板(Nginx 环境)的三种防御方案。
方案一:修改 Nginx 配置文件
直接在 Web 服务器层级拦截 User-Agent,恶意请求不会进入应用层,对服务器保护效果最好。
- 进入宝塔面板 “网站” 列表。
- 点击对应站点的 “设置” -> “配置文件”。
- 在
server区域内(建议在access_log之后)插入以下拦截代码:
拦截常见恶意 AI 蜘蛛和采集器
if ($http_user_agent ~* (Bytespider|CCBot|GPTBot|ClaudeBot|ImagesiftBot|CommonCrawl|PerplexityBot|PetalBot|Amazonbot|Claude-Web)) {
return 403;
}
- 点击 “保存” 即可生效。
方案二:利用“Nginx防火墙”插件(可视化操作)
如果您不希望手动修改代码,可以使用宝塔面板自带的插件:
- 在 “软件商店” 安装并打开 “Nginx防火墙”。
- 点击 “全局配置” -> “User-Agent过滤”。
- 点击 “添加” 按钮。
- 在正则匹配框中输入蜘蛛关键词(如
Bytespider),动作选择 “阻断”。 - 进阶: 如果您的业务仅限国内,建议在插件中开启 “禁止海外访问”,可以过滤掉绝大多数来自境外的 AI 爬虫。
附录:建议屏蔽的常见 AI 蜘蛛列表
| 蜘蛛名称 | 来源 | 特点 |
|---|---|---|
| Bytespider | 字节跳动 | 频率极高,对中小服务器压力巨大 |
| GPTBot | OpenAI | ChatGPT 的抓取工具 |
| ClaudeBot | Anthropic | Claude 的抓取工具 |
| CCBot | Common Crawl | 抓取量巨大且无序 |
| PetalBot | 华为 | 抓取频率较高 |
请登录后发表评论
注册
停留在世界边缘,与之惜别