スポンサーサイト
新しい記事を書く事で広告が消せます。
スパイダー 一日あたりのクロールページ数
スパイダー作成記録(Web自動巡回プログラム作成記録)
正確な時期は明記しないが、むかし「スパイダー」と呼ばれるアプリケーションを作っていた。スパイダーと言うのは、クローラーやBOTなどととも呼ばれるWeb巡回プログラムの事で、有名なクローラーというとGoogleのBOTなどが挙げられる。
一日あたりのクロールページ数
そもそもこのBOTなのだが、GoogleのBOTなどとは違いクロール対象が単一のWebサイトであった。クロール対象が単一のWebサイト上にあるWebページ、当時約700万ページをクロール対象としていたため、必然的に同一サイトへ大量のアクセスをしなくてはならなくなる。
ここで、問題だったのが一日当り何回アクセスしてよいのか?と言う問題である。
後々知った事だが、どうやら個人が運営しているWebサーバ上にあようなWebサイトに一日にウン万回リクエストを要求するのは非常識らしい。
というわけで、その辺の事が分からなかったのでとりあえずガンガンアクセスしてみよう!っていう感じ初期の頃は一日あたり2万~5万程度のアクセスをしていた。
しかしこの調子でアクセスし続けると、全ての(700万)ページの情報を収集するのに
半年~1年程度掛かる。当時、すぐにでも全ての情報をゲットしたかったために、700万ページを1~2ヶ月でクロールするという計画を立ててみた。
そんな訳で、一日あたりのクロールページ数は全盛期で一日20万超だったわけだが、結果として特に怒られることも、弾かれることもなくクロール活動は終了しました。
で、実際どのくらいアクセスしていいの・・・?あとでちゃんと調べておこう・・・
コメント
コメントの投稿
トラックバック
http://kicsysytem.blog70.fc2.com/tb.php/78-8d8aa715