AI 爬虫:GPTBot、ClaudeBot、PerplexityBot 等
AI 爬虫是 LLM 提供商运营的机器人,用于发现并索引页面以用于训练或检索。决定允许哪些、屏蔽哪些。
2026-06-19
·
1 分钟阅读
AI 爬虫
AI 爬虫是 LLM 提供商运营的机器人,用于在网络上发现并索引页面。有的爬取是为了训练未来模型,有的爬取是为了驱动聊天答案中的实时检索,有的两者兼具。了解谁在爬取你——以及为什么——是 AI 时代 SEO 的核心。
主要的 AI 爬虫
- GPTBot——OpenAI 的爬虫。用于训练与 ChatGPT 搜索检索
- OAI-SearchBot——OpenAI 仅用于搜索的爬虫,与训练分离
- ClaudeBot——Anthropic 的爬虫,用于让 Claude 知识保持更新
- PerplexityBot——Perplexity 的爬虫,主要用于实时答案
- Google-Extended——Google 的退出令牌,控制你的内容是否被用于 Gemini 训练
- Applebot-Extended——Apple 用于 Apple Intelligence 功能的爬虫
- Meta-ExternalAgent / Meta-ExternalFetcher——Meta 用于其 AI 产品的爬虫
- Bytespider——字节跳动用于豆包 / TikTok AI 的爬虫
如何管理 AI 爬虫
对每个爬虫你有三种选择:
- 允许——让它索引你的内容。这是默认设置,对想要 AI 流量的发布者通常是正确选择
- 屏蔽——用 robots.txt 的 user agent 禁止。它将不会出现在其训练数据或实时答案中
- 区分——使用 Google 的方法:单独的
User-agent: Google-Extended令牌控制 Gemini 训练,同时不影响搜索
推荐做法
- 想要 AI 流量的发布者: 默认允许所有主要爬虫。使用 llms.txt 让它们更容易找到你的最佳页面
- 有付费墙或敏感内容的站点: 选择性屏蔽,并使用结构化数据控制哪些内容被呈现
- 任何人: 每季度审视你的 robots.txt。AI 爬虫的清单每月都在增长