大量クロール制御を考える

暴走して怒られましたが、原因の調査をいただけまして。。どうも Ask Jeeves のクローラーが大量にアクセスしにきたせいで負荷がかかりすぎた為ということでした。
再調査頂きありがとうございます。 m(_’_)m


ロボットの大量アクセスはほとんど想定外のことで。。どうしましょ。
ぱっと思いついたのは「.htaccess」のようなものでアクセス制限を行うことですかね。しかし、完全に拒否してもいいのですが、せっかくキャッシュしに来てくれてるわけですから うまいこと調整できないかなぁ。。ちゅうことで、「robots.txt」で設定してやることに。
「robots.txt」について詳しいことは。。
robots.txtで検索エンジンのロボット(クローラ、スパイダー)対策
Robots.txtで秘密がバレる!?
robots.txtの間違った使い方
で、以下のよな感じで設定してルートに入れておいてみました。

User-Agent: *
Crawl-delay: 10

こうすると、クローラーのアクセス頻度を一定時間で制限できるということです。短時間大量アクセスは少しはコントロールできるかな?
Ask の User-Agent に限定することも考えましたが他のロボットが来る可能性も加味して一応汎用設定に。。「.htaccess」などの設定を無視するといわれていた今は無き(たしか、検索事業撤退)「N○VER」等の様なお行儀の悪いロボットが来ると困るわけですが。。
Askは一応、「クロール頻度の制御」という形で明記していますのでちゃんと従ってくれるでしょう。。たぶん。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
Highslide for Wordpress Plugin