ロリポップにサイトを置くとGoogleにインデックスされない?

lolipop_and_google.png

なんだか、ロリポップでホスティングしているサイト達がGoogleにインデックスされない問題が起こっているようですよ~。

【追記】10/15 現在、ロリポップ側のサーバー設定の調整により、正常にサイトマップファイルが認識されているそうです。

お問い合わせ頂いたGoogleにインデックスされない件と、
「sitemap.xml」を送信してもエラーになる件について調査を行ないました。
調査を行った結果、ロリポップ!レンタルサーバー側の設定を変更することによって、
現象が改善される可能性がある事を確認致しました。
その為、設定の変更を行なっております。
現在はGoogleのウェブマスターツールで「sitemap.xml」が正常に送信出来て、インデックス
されると思いますので、お手数ですがご確認をお願い致します。

↓ここからは旧記事です。

実は人ごとではなかったりする

きっかけはこちら(ロリポップのGoogleウェブマスターツールにおけるsitemap.xmlのエラー問題【パシのSEOブログ】)のブログだったのですが、実は私も似たような状況でして、、。

どんな状況かというと…

  • 2010年8月末ごろ登録したサイトがGoogleにまったくインデックスされない。
  • Yahoo!では既にインデックス済みで検索でちゃんと表示される。
  • 既にインデックス済みの複数サイトに被リンクがあるのにインデックスされない。
  • sitemap.xmlを作成してウェブマスターツールに登録しても「×」マークになる。
  • サイトは頑張ってhtmllintで90点以上にしてある。

うーむ。 なぜだ? 私の印象ではGoogleはサッとインデックスされて、Yahoo!はちょっと時間がかかる、といった感じだったのですが。。

クローラーは来てるの?

ロリポップの生ログを取得して見てみると、ちゃんと「robots.txt」や「sitemap.xml」を取りにきてます。 でもそれから何の動きも示してない! サイトのことはまったく無視してくれちゃってます。

サイトが重かったりするから?

ロリポップではたまにサイトのレスポンスが非常に重くなることがあります。 共有サーバーの宿命なのですが、アクセスの多いサイトや負荷の高いスクリプトを置いているサーバーと同じサーバーになっちゃうと若干大変なことになります。

しかし、3月にHDDを8GBに増強したり、cronが動かせるようになったり、PHP5に対応したりと頑張っていたロリポップさんなのですが、その副作用なんでしょうか。 心配ですね。

あ、いやいや、自分のサイトのほうがもっと心配だ。笑

とりあえず他のみなさまも似たような状況のようなので、ロリポップのお問い合わせに出してみましたよ。 詳細は後ほど!

9/20 ロリポップさんから回答をいただきました。

現状として他のお客様からも同様にサイトマップの登録ができない状況や、
サイトマップに関するエラーの発生についてお問い合わせをいただいております。
そのため、弊社でも調査させていただいたところ、サイトマップの登録について
不安定な状態を確認しております。

ということで、ロリポップ側でもこの事態を認識している様子。

現在のところ、複数の調査用のアカウントに関するステータスの状況確認や、
クロール速度のカスタム設定について調整を行わせていただき、本件に関するエラーの
発生について改善のため、調査と検証について継続して対応させていただいております。

アカウントを作っていろいろと調査してくれていますね。 解決にはもうちょっと時間がかかるのかもしれません。

robots.txtと404 Not Found についての気になる情報!

sitemapの件は置いておいて、さらに調べてみると、非常に気になる情報がありました。 ここです。

robots.txtがなくなった影響。Googleでインデックス0に・・・ | ネタ喰い

robots.txtがない期間に、ロリポップサーバーがクローラーへ、404を返さずに、
302リダイレクトでロリポップの404エラーを表示がスパム扱いされたのではないかと。。。

は? いやいや。さすがのロリポップさんでもそんなミスはせんでしょう。。 と思いつつも調べてみました。

lolipop_404_status_code.png

マジだ! 404エラーページに「302」ステータスコードを返しとる! ちなみに302コードとは「Moved Temporarily=一時的に移動してます(後でちゃんと作ります)」というレスポンスをGoogleに返していることになります。

そうすると、Googleはどういう行動を取るか…さらに気になる記事はこちら。

robots.txtがないとグーグルのインデックスから消えるかも

ロボットは、サイトにアクセスしたときにまず最初にrobots.txtを確認するように
設計されています。
robots.txtが存在しなければ、サーバーは404エラーを返し、ロボットはそのまま
クローリングを開始します。
ところが、robots.txtがないにもかかわらず、サーバーが404エラーを返さないで、
タイムアウトしたり不適切なリダイレクトを実行したりしていると、ロボットが
クローリングできなくなってしまうらしいのです。

その証拠に、Googleのウェブマスターセントラルにも404ページを表示する際の注意が書かれてあります。

存在しないページに対して 404 と 410 以外のコードを返すこと(または 404 を返す代わりに
ホームページなど他のページにリダイレクトすること)は、問題となる可能性があります。
まず、その URL にページが存在することが検索エンジンに明示されます。
その結果、URL がクロールされ、コンテンツがインデックスに登録される場合があります。
存在しないページに対して Googlebot の時間が消費されるため、所有している固有の
URL の検出が遅れたり、アクセスの頻度が少なくなったりする可能性があります。
また、サイトのクロール範囲にも影響する可能性があります

302ステータスコードを返しているということはGoogleに対して「『robots.txt』がまだ無いから(後で作るから)、まだクローリングしないでね」という意味に誤解されてしまう可能性が高いのです!

対策としては、急いでrobots.txtを作成してFTPで配置しよう!ってことになります。 そうすればGoogleにとってrobots.txt が存在することになるので、クローリングをちゃんと開始してくれることになると思います。

また、他にも存在しないURLへアクセスされた時にすべて302レスポンスコードを返すという問題があるので「.htaccess」ファイルを作って、ちゃんと404レスポンスコードを返すように設定する必要もありますね。

ErrorDocument 404 404.html

※404.htmlは自分で作ったエラーページをサイトトップに置いておくなどします。

このページをシェアする

1 件のコメント

  • 『BUDORI CAFE』 より:

    同じ内容のメールが届いていましたー!
    ふむぅー( ̄∀ ̄)
    イラスト素敵です(笑)
    ****************************
    『BUDORI CAFE』
    http://budoricafe.jp/
    address:156-0052 世田谷区経堂1-27-13
    mail:budoricafe@dwmail.jp
    phone&fax:03-3706-8550
    ****************************

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

2010-09-20