Webクローラの巡回頻度

大屋雄裕氏の講演に対する高木浩光氏の批判

 この中で高木氏の発言として

…そんなものは決められないし、必要ない。今回の中川氏の事案は「これ以下ならやっていい」の1つである通常のWebクローラの水準(シリアルアクセスかつ1秒に1、2回程度)を満たしていた。実際、三菱電機IS側も、Googlebotを排除するなど、その水準に堪えら…

とありましたが、Webクローラというのを検索エンジンのそれに限定するならば、そういうアクセスはむしろかなり高速に属すると思われます。

 このサイトに対するここ一ヶ月ほどの、User Agentから見て検索エンジンによると見られるクローラアクセスの記録(をUser Agentのカラムでソートしたもの)を見ると、メジャーどころのクローラは大抵数分から数時間に一回程度の頻度でアクセスしていることがわかります。gooはかなり速いですがそれでも数秒に1回ですね。
 公平のためこのサイトについての注意点を。

  • 規模が小さい。
  • 全体としては更新頻度が低い。
  • まあまあ更新されているwordpress部分は動作が遅く、1ページ表示するのに1秒以上かかる。
  • サーバ回線部分はADSLなので上りが遅い。

 gooが数秒に1回なのはシリアルアクセスだからなのかも知れず、こっちの応答が速ければ1秒に1~2回という頻度になることもあり得るのかも知れません。

 ただ、元の事件にしても、シリアルアクセス(結果が返ってから次のページを要求する)という条件下であれば、ある程度間隔が空いていない高速アクセスであっても、必ずしも過剰に負荷がかかると認識しうるものでないかとは思います。

コメントを残す

メールアドレスが公開されることはありません。

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください