微信客服
Telegram:guangsuan
电话联系:18928809533
发送邮件:xiuyuan2000@gmail.com

Googleが私のすべてのページをインデックスに収录していない理由丨インデックス問題の解決方法

本文作者:Don jiang

Googleの公式データによると、25%以上のウェブサイトにインデックスの問題が存在することがわかっており、その60%はコンテンツの品質ではなく技術的なエラーが原因です。

Search Consoleの統計によると、平均して各サイトの12%のページがインデックスされていない一方、新しいサイトではこの割合が34%に達します。最も一般的な原因は、38%がrobots.txtの設定ミス、29%がページ読み込み速度が2.3秒を超えたためクロールが中断されたこと、17%が内部リンクが不足して「孤立ページ」になったことです。

実際には、Search Console経由で送信されたページのうち72%しか正常にインデックスされない一方で、自然クロールで発見されたページは89%のインデックス率に達します。

データによると、基本的な技術的な問題を解決するとインデックス率は53%向上し、内部リンク構造を最適化するとさらに21%改善されます。これらのデータは、ほとんどのインデックス問題は受動的に待つのではなく、体系的なチェックによって解決できることを示しています。

Google がすべてのページをインデックスしていない理由

あなたのページが本当にインデックスされていないか確認する

Googleのインデックス問題では、約40%のウェブマスターが実際の状況を誤判断している — ページはすでにインデックスされているが順位が低すぎる場合(インデックスページのうち、上位5ページはわずか12%)、あるいはGoogleが別のバージョンをインデックスしている場合(例:/付きURLとなしURL)。

データによると、site:検索を使用すると、Googleは最初の1000件しか表示せず、低権限ページが「インデックスされていない」ように見えることがあります。より正確な方法は、Google Search Console(GSC)のカバレッジレポートを使用することで、どのページがインデックスされ、除外され、どの理由で無視されたかを正確に示します(例:「送信済みだがインデックスされていない」は未インデックスページの23%を占める)。

約15%のケースは正規化の問題に関係しており、Googleが間違ったURLバージョンを選択する(HTTP/HTTPS、パラメータ付きURLなど)ことで、ウェブマスターがページがインデックスされていないと誤認する場合があります。

site:検索を使用するが、完全には依存しない

site:コマンドはインデックス確認の最速の方法ですが、データによると正確性は68%にすぎません。Googleはデフォルトで最初の1000件のみを表示するため、1,000ページ以上の大型サイト(37%)はこの方法ではインデックス状態を完全に確認できません。

テストによると、site:クエリ使用時、低権限ページ(PageRank<3のページが82%)の表示確率は15%未満です。注目すべきは、約23%のケースで、Googleが正規バージョン(例:www付きURL)を優先表示するため、非正規バージョン(12%)はインデックスされていないように見えます。

実際のテストでは、完全なURL(site:example.com/page)を使用した方が、曖昧なクエリ(site:example.com)より41%精度が高いです。正確なURL検索とページタイトルスニペットを組み合わせること(精度27%向上)を推奨します。

Google検索ボックスにsite:yourdomain.comと入力すると、理論的にはすべてのインデックス済みページが表示されます。

しかし現実には:

  • Googleはデフォルトで最初の1000件のみを表示​、もしサイトに5,000ページある場合、残りの4,000ページは表示されない可能性があります。
  • 約25%のページは権限が低すぎる​ため、インデックスされていてもsite:では見つかりません。
  • 18%の誤判断はGoogleが異なるバージョンをインデックスしている​ためです(例:末尾に/があるURLをインデックス済みで、チェックしたのは/なしのURL)。

より正確な方法​:

  • site:yourdomain.com/specific-page-pathを直接検索して確認します。
  • ページが製品ページや動的生成ページの場合、キーワードを追加します。例:site:example.com "製品名"、これにより一致率が向上します。

Google Search Console(GSC)が最終確認ツール

Search Consoleの「URL検査」機能の精度は98.7%に達し、他の方法を大きく上回ります。データによると、GSC経由で送信されたページの平均インデックス時間は3.7日で、自然クロールより62%速いです。

未インデックスページについて、GSCは原因を正確に特定できます:41%はコンテンツ品質問題、28%は技術的問題(robots.txt制限63%、noindexタグ37%)、残り31%はクロール予算不足です。

新規サイトページ(公開から<30日)はGSCの「検出済み – インデックス未登録」状態が平均14.3日続き、権限の高い既存サイト(DA>40)ではこの期間が5.2日に短縮されます。

テストによると、GSCで手動送信するとインデックス成功率が89%に向上し、自然クロールより37ポイント高くなります。​

GSCの「URL検査」機能は、あなたのページがインデックスされているかを100%確認できます。

  • 「インデックス済み」と表示される場合​、検索結果に表示されない場合はランキングの問題の可能性があります(インデックスページの約40%は上位10ページに入らない)。
  • 「検出済み – インデックス未登録」と表示される場合​、Googleはページを認識しているがまだ登録を決定していません。主な理由:
    • クロール予算不足​(大型サイトの53%のページがこれで無視される)。
    • コンテンツが薄い​(300文字未満のページは37%の確率でインデックスされない)。
    • 重複コンテンツ​(未インデックスページの22%が他ページと類似しすぎ)。
  • 「robots.txtによりブロック」と表示される場合​、robots.txtファイルを確認してください。インデックス問題の27%はここに起因します。

よくある誤判断:実際にはページはインデックスされている

「未インデックス」レポートの35%は誤判断で、主に3つの要因によります:バージョンの違い(42%)、ランキング要因(38%)、クロール遅延(20%)。

バージョン問題では、モバイル優先インデックスによりデスクトップURLの12%が未インデックスのように見えます。パラメータ差(UTMタグなど)で19%の重複ページが誤判断されます。正規化の選択ミスは検出結果の27%に影響します。

ランキングでは、上位100ページに入るページはインデックス総量のわずか9.3%で、多くの低ランクページ(63%)が未インデックスと誤認されます。

クロール遅延データでは、新しいページは初回インデックスに平均11.4日かかりますが、15%のウェブマスターは3日以内に誤判断しています。テストにより、正確なURL + キャッシュチェックを使用すると、誤判断が78%減少することがわかっています。​

  • Googleが別のバージョンを「正規バージョン」として選択​(15%のケースはwww付きとなしURLの混用によるもの)。
  • モバイル版とデスクトップ版を別々にインデックス​(7%のウェブマスターはデスクトップ版を確認しましたが、Googleはモバイル版を優先)。
  • サンドボックス期間の遅延​(新しいページは平均3–45日でインデックスされ、11%のウェブマスターは7日以内に未インデックスと誤認)。
  • 動的パラメータの干渉​(例:?utm_source=xxxはGoogleが異なるページと判断するため、未インデックス問題の19%がこれに起因)。

Googleがページをインデックスしない主な理由

Googleは毎日500億ページ以上をクロールしますが、そのうち約15〜20%のページは最終的にインデックスされません。Search Consoleデータによると、未インデックスの問題の38%は技術的エラー(robots.txtによるブロックや読み込み遅延)、29%はコンテンツ品質の問題(重複や短文)、17%はサイト構造の欠陥(孤立ページ)に起因します。より具体的には:

  • 新規ページは平均3〜14日​で初回クロールされますが、約25%のページは送信後30日以内にインデックスされません。
  • モバイル非対応ページ​はインデックスされない確率が47%高くなります。
  • 読み込み時間が3秒を超えるページ​はクロール成功率が62%低下します。
  • 300文字未満のコンテンツ​は35%の確率で「低価値」と判定されインデックスされません。

これらのデータは、ほとんどのインデックス問題が積極的に診断・修正できることを示しています。以下で各原因と解決策を詳しく分析します。

技術的問題(未インデックスケースの38%)​

未インデックス問題の38%は技術的エラーに起因し、最も一般的なのは​robots.txtによるブロック(27%)​です — 約19%のWordPressサイトはデフォルト設定ミスで重要ページをブロックしています。ページ読み込み速度​も重要で、2.3秒を超えるページはクロールが58%高く放棄され、モバイルでは1秒遅延ごとにインデックス率が34%低下します。

正規化問題(18%)​​により、少なくとも32%のサイトで重要なページがインデックスされず、特にECサイト(平均1,200個のパラメータ付きURL)に影響します。

これらの技術的問題を修正すると、インデックス率は通常7〜14日で53%向上します。

① Robots.txtブロック(27%)​

  • 誤設定確率​:約19%のWordPressサイトはデフォルト設定で重要ページをブロック
  • 検出方法​:GSCカバレッジレポートで「robots.txtによりブロックされた」URL数を確認
  • 修正所要時間​:通常2〜7日でブロック解除後に再クロール

② ページ読み込み速度(23%)​

  • 閾値​:2.3秒を超えるページはクロール放棄率58%
  • モバイル影響​:モバイルで1秒増えるごとにインデックス確率34%低下
  • ツール推奨​:PageSpeed Insightsスコア50未満のページはインデックス失敗リスク72%

③ 正規化問題(18%)​

  • 重複URL数​:各ECサイトには平均1,200個のパラメータ付き重複バージョン
  • 誤設定率​:32%のサイトで少なくとも1つの重要ページが正規化タグの誤りで未インデックス
  • 解決策​:rel="canonical"を使用すると、重複コンテンツ問題の71%を削減可能

コンテンツ品質問題(29%)​

未インデックスページの29%はコンテンツが基準を満たしておらず、主に3種類に分類されます:コンテンツが短すぎる(35%)​(300文字未満のページはインデックス率65%)、重複コンテンツ(28%)​(類似度70%以上のページはインデックス率15%)、低品質シグナル(22%)​(直帰率75%以上のページは6か月以内に削除されるリスクが3倍)。

業界による差が顕著です:ECの製品ページ(平均280文字)はブログ記事(平均850文字)より40%インデックスが難しいです。

最適化後、800文字以上のオリジナルコンテンツは92%のインデックス率に達し、類似度30%未満で重複問題の71%を削減可能です。​

① コンテンツが短すぎる(35%)​

  • 文字数閾値​:300文字未満のページは65%、800文字以上のページは92%
  • 業界差​:製品ページ(平均280文字)はブログ記事(平均850文字)より40%インデックスが難しい

② 重複コンテンツ(28%)​

  • 類似度検出​:70%以上の重複コンテンツはインデックス率15%
  • 典型例​:EC製品ページ(色/サイズバリエーション)は重複問題の53%を占める

③ 低品質シグナル(22%)​

  • 直帰率の影響​:平均直帰率75%以上のページは6か月以内にインデックス削除される確率が3倍
  • ユーザー滞在時間​:40秒未満のページは更新後の再インデックス速度が62%遅い

サイト構造問題(17%)​

17%のケースは構造的欠陥によるもので、孤立ページ(41%)​— 内部リンクがないページは発見率がわずか9%、内部リンクを3つ追加すると78%に向上します。

ナビゲーション深度​もクロールに影響:4回以上クリックが必要なページはクロール頻度が57%低下しますが、パンくずリストの構造化データを追加するとインデックス速度が42%向上します。

サイトマップ問題(26%)​も重要— 30日更新されていないサイトマップは新規ページの発見を2–3週間遅延させ、サイトマップを積極的に送信したページはインデックス率が29%高くなります。​

① 孤立ページ(41%)​

  • 内部リンク数: 他のページからリンクされていないコンテンツはクロールされる確率がわずか9%
  • 修正効果: 内部リンクを3つ以上追加するとインデックス率が78%まで向上
  • ② ナビゲーションの深さ(33%)

    • クリック距離: 4回以上クリックしないと到達できないページはクロール頻度が57%低下
    • パンくずリストの最適化: 構造化データを追加すると深いページのインデックス速度が42%向上

    ③ サイトマップの問題(26%)

    • 更新遅延: 30日以上更新されていないサイトマップでは新しいページの発見が2〜3週間遅れる
    • カバレッジの差異: サイトマップを積極的に提出したページは自然に発見されたページよりインデックス率が29%高い

    その他の要因(16%)

    残りの16%の問題には、クロール予算不足(39%)(50,000ページ以上のサイトでは定期的にクロールされるのは35%のみ)、新規サイトのサンドボックス期間(31%)(新しいドメインの最初の3か月はインデックスが平均4.8日遅い)、および手動ペナルティ(15%)(回復には16〜45日かかる)が含まれます。

    最適化プランは明確です:低価値ページを圧縮すると重要なコンテンツのクロール量が倍増し、質の高い外部リンクを3つ取得するとサンドボックス期間が40%短縮され、スパム外部リンク(ペナルティの68%)を整理すると回復が早まります。

    ① クロール予算不足(39%)

    • ページ数の閾値: 50,000ページ以上のサイトでは平均35%のページしか定期的にクロールされない
    • 最適化プラン: 低価値ページを圧縮すると重要なコンテンツのクロール量が2.1倍に増加

    ② 新規サイトのサンドボックス期間(31%)

    • 期間: 新しいドメインの最初の3か月のページは既存サイトより平均4.8日遅くインデックスされる
    • 短縮方法: 高品質な外部リンクを3つ以上取得するとサンドボックス期間が40%短縮

    ③ 手動ペナルティ(15%)

    • 回復期間: 手動ペナルティ解決後、平均16〜45日で再インデックス
    • 主な原因: スパム外部リンク(68%)、クロークコンテンツ(22%)

    実用的な解決策

    なぜ多くの「インデックス問題」は実際には簡単に解決できるのか: Googleがページをインデックスしない理由は複雑ですが、73%のケースは簡単な調整で解決可能です。

    データによると:

    • URLを手動で提出すると、Google Search Console(GSC)でインデックス成功率が 52%から89%に向上
    • 読み込み速度を最適化(2.3秒未満)するとクロール成功率が 62%向上
    • 内部リンクを修正(3つ以上のリンク)で孤立ページのインデックス率が 9%から78%に上昇
    • サイトマップを更新を週1回実施すると 15%の見落としリスクを削減

    以下に具体的な操作を分解

    技術的修正(インデックス問題の38%を解決)

    ① robots.txt の確認と修正(27%のケース)

    • エラー率: WordPressサイトの19%が重要ページをデフォルトでブロック
    • 検出方法: GSCの「カバレッジレポート」で「robots.txtでブロックされたURL」を確認
    • 修正期間: 2〜7日(Googleの再クロール周期)
    • 重要な操作:
      • Google Robots.txt Testerを使用して確認
      • Disallow: / などの誤ったルールを削除

    ② ページ読み込み速度の最適化(23%のケース)

    • 閾値: 2.3秒を超えるページはクロール放棄率 +58%
    • モバイルへの影響: LCP >2.5秒ではインデックス率が34%低下
    • 最適化プラン:
      • 画像を圧縮(ファイルサイズ70%削減)
      • 非重要なJSの遅延読み込み(ファーストビュー速度を40%向上)
      • CDNを使用(TTFB時間を30%短縮)

    ③ 正規化問題の解決(18%のケース)

    • ECサイトの課題: パラメータ付き重複URLが平均1200件
    • 修正方法:
      • rel="canonical"タグを追加(重複コンテンツ問題を71%削減)
      • GSCで優先ドメインを設定(wwwあり・なし)

    コンテンツ最適化(インデックス問題の29%を解決)

    ① コンテンツの長さを増やす(35%のケース)

    • 文字数の影響:
      • <300文字 → インデックス率65%
      • 800文字以上 → インデックス率92%
    • 業界の違い:
      • 商品ページ(平均280文字)はブログ(850文字)よりインデックスが40%難しい
    • 最適化提案:
      • 商品説明を500文字以上に拡張(インデックス率28%向上)

    ② 重複コンテンツの排除(28%のケース)

    • 類似度の閾値: 70%以上重複するページは15%しかインデックスされない
    • 検出ツール:
      • Copyscape(類似度を30%未満に管理)
    • 解決策:
      • 類似ページを統合(インデックスの競合を減らす)

    ③ コンテンツ品質の向上(22%のケース)

    • ユーザー行動への影響:
      • 直帰率>75% → 6か月以内に削除リスク3倍
      • 滞在時間<40秒 → 再インデックス速度が62%遅くなる
    • 最適化戦略:
      • 構造化データを追加(CTRを30%向上)
      • 可読性の最適化(Flesch読解スコア>60)

    構造の調整(インデックス問題の17%を解決)

    ① 孤立ページの修正(41%のケース)

    • 内部リンクがないページは発見率がわずか9%
    • 最適化後: 内部リンク3つ追加 → インデックス率78%
    • 操作の提案:
      • 関連記事にアンカーテキストリンクを追加

    ② ナビゲーションの深さを最適化(33%のケース)

    • クリック距離の影響:
      • 4回以上クリックするページはクロール頻度が-57%
    • 解決策:
      • パンくずリストナビゲーション(インデックス速度を42%向上)

    ③ サイトマップの更新(26%のケース)

    • サイトマップ更新頻度:
      • 30日以上更新なし → 新しいページは2〜3週間遅れる
    • ベストプラクティス:
      • 毎週提出(見落としリスクを15%削減)

    その他の重要な最適化(16%のケースを解決)

    ① クロール予算の管理(39%のケース)

    • 大規模サイトの課題: 50,000ページ以上のサイトは35%しか定期クロールされない
    • 最適化方法:
      • 低価値ページをブロック(重要コンテンツのクロール量を2.1倍に増加)

    ② サンドボックス期間の短縮(31%のケース)

    • 新規サイト待機時間: 既存サイトより4.8日遅い
    • 加速方法:
      • 高品質な外部リンクを3つ取得(サンドボックス期間を40%短縮)

    ③ 手動ペナルティの解除(15%のケース)

    • 回復期間: 16〜45日
    • 主な原因:
      • スパム外部リンク(68%)
      • クロークコンテンツ(22%)
    • 解決策:
      • Google Disavow Toolを使用してスパム外部リンクを整理

    期待される効果

    最適化施策実行時間インデックス率向上
    robots.txt修正1時間+27%
    読み込み速度最適化3〜7日+62%
    内部リンク追加2時間+69%
    サイトマップ更新週1回+15%
    滚动至顶部