AI 爬虫：GPTBot、ClaudeBot、PerplexityBot 等

AI 爬虫是 LLM 提供商运营的机器人，用于发现并索引页面以用于训练或检索。决定允许哪些、屏蔽哪些。

2026-06-19

·

1 分钟阅读

AI 爬虫

AI 爬虫是 LLM 提供商运营的机器人，用于在网络上发现并索引页面。有的爬取是为了训练未来模型，有的爬取是为了驱动聊天答案中的实时检索，有的两者兼具。了解谁在爬取你——以及为什么——是 AI 时代 SEO 的核心。

主要的 AI 爬虫

GPTBot——OpenAI 的爬虫。用于训练与 ChatGPT 搜索检索
OAI-SearchBot——OpenAI 仅用于搜索的爬虫，与训练分离
ClaudeBot——Anthropic 的爬虫，用于让 Claude 知识保持更新
PerplexityBot——Perplexity 的爬虫，主要用于实时答案
Google-Extended——Google 的退出令牌，控制你的内容是否被用于 Gemini 训练
Applebot-Extended——Apple 用于 Apple Intelligence 功能的爬虫
Meta-ExternalAgent / Meta-ExternalFetcher——Meta 用于其 AI 产品的爬虫
Bytespider——字节跳动用于豆包 / TikTok AI 的爬虫

如何管理 AI 爬虫

对每个爬虫你有三种选择：

允许——让它索引你的内容。这是默认设置，对想要 AI 流量的发布者通常是正确选择
屏蔽——用 robots.txt 的 user agent 禁止。它将不会出现在其训练数据或实时答案中
区分——使用 Google 的方法：单独的 User-agent: Google-Extended 令牌控制 Gemini 训练，同时不影响搜索

推荐做法

想要 AI 流量的发布者： 默认允许所有主要爬虫。使用 llms.txt 让它们更容易找到你的最佳页面
有付费墙或敏感内容的站点： 选择性屏蔽，并使用结构化数据控制哪些内容被呈现
任何人： 每季度审视你的 robots.txt。AI 爬虫的清单每月都在增长