robots.txt 検証ツール
ドメインを入れるだけで /robots.txt を自動取得・解析。Googlebot・Bingbot・GPTBot・ClaudeBot・Google-Extended・PerplexityBot・CCBot・Applebot-Extended の主要 8 bot の許可状況を一括判定します。完全無料・登録不要。
01 WHY IT MATTERS
robots.txt は SEO・AI 検索の第一関門
robots.txt は、検索エンジンや AI bot に対して「このサイトをどう扱ってほしいか」を伝えるルールファイルです。誤って Googlebot を Disallow: / でブロックすると、サイト全体が検索結果から消えるという致命的な事故になります。テスト環境用の robots.txt がそのまま本番に上がっている事例は今でも珍しくありません。
さらに、近年は AI 検索(ChatGPT / Perplexity / Claude / Google AI Overview)からの流入が無視できなくなり、GPTBot・ClaudeBot・Google-Extended などの AI bot 制御も robots.txt の重要な役割になっています。
02 BOT REFERENCE
主要 8 bot の役割
- Googlebot: Google検索本体。ブロックすると検索結果から消える
- Bingbot: Bing検索 / DuckDuckGo / Yahoo!(一部)が利用
- GPTBot: OpenAI(ChatGPT 等)の学習・引用クローラ
- ClaudeBot: Anthropic(Claude)の学習・引用クローラ
- Google-Extended: Google AI(Gemini / AI Overviews)の学習用。Googlebot とは別制御
- PerplexityBot: Perplexity AI の検索・引用クローラ
- CCBot: Common Crawl。多くの LLM 学習データソース
- Applebot-Extended: Apple Intelligence の学習用
03 STRATEGY
事業者別の robots.txt 設計指針
- 地域密着の事業者(美容・整骨・士業・医療等): AI bot は全許可推奨。AI 検索からの「○○駅周辺の鍼灸院」のようなクエリで引用されるチャンスが拡大している
- EC・通販・SaaS: GPTBot / ClaudeBot / Google-Extended は許可。CCBot は商品データの大量学習を避けたければブロック検討
- 独自ノウハウを持つ士業・コンサル・教育: AI 学習に使われたくない記事は noindex で個別ブロック、サイト全体は許可で AI 検索引用を狙うハイブリッドが現実的
- 有料コンテンツメディア: GPTBot / ClaudeBot / CCBot は Disallow: / でブロック推奨。会員エリアは別途 robots noindex も併用
各業種の詳細は 業種別チェックリスト の「AI検索対策」topic で解説しています。
04 FAQ
よくある質問
Q. robots.txt はどこに置けばいいですか?+
ドメインのルート直下です。https://yourdomain/robots.txt が必須の配置です。サブディレクトリ(/blog/robots.txt など)に置いても無視されます。WordPress などの CMS なら、SEO プラグインから直接編集できる機能を持っているものが多いです。Vercel などのホスティングなら public/robots.txt または app/robots.ts で配信できます。
Q. AI bot(GPTBot / ClaudeBot)はブロックすべき?許可すべき?+
目的次第です。ブログ・記事・解説コンテンツで「AI 検索(ChatGPT / Perplexity / Claude)に引用されたい」という戦略なら全許可(デフォルト)。逆に「自社の独自ノウハウ・有料コンテンツ・お客様データ」を学習に使われたくないなら GPTBot / ClaudeBot / Google-Extended を Disallow: / で明示ブロックします。中規模事業者の多くは「許可で AI 検索引用を狙う」方が ROI が高い傾向にあります。
Q. Disallow: / って何ですか?+
「サイト全体(ルート以下すべて)をクロールするな」という指示です。これを指定された bot は基本的にそのサイト内のどのページも訪問しません。テスト環境で誤って Disallow: / が入った robots.txt を本番に持ち込むと、Google から見えなくなり SEO が完全停止する事故になります。本ツールはこのケースを「検索クロール拒否」として警告します。
Q. User-agent: * と User-agent: Googlebot はどう違う?+
User-agent: * は「すべての bot に対するデフォルトルール」、User-agent: Googlebot は「Googlebot 専用ルール」です。Googlebot 専用ルールがある場合、Googlebot は * のルールを無視して専用ルールを優先します。逆に専用ルールがなければ * のルールに従います。本ツールは「専用ルール」がある bot にバッジを表示するので、誰に何を指示しているかが一目でわかります。
Q. Sitemap: ディレクティブは必須ですか?+
必須ではないが推奨です。Google Search Console で sitemap を直接送信していれば技術的には不要ですが、robots.txt に書いておけば他の検索エンジン(Bing、各種 AI bot)も sitemap を発見できます。「Sitemap: https://yourdomain/sitemap.xml」の1行を robots.txt の末尾に追加するだけです。
05 RELATED TOOLS