大手検索サイトというと、Yahoo!やGoogle、MSN、Infoseekなど様々あり、多くの方が日常的に利用していることでしょう。これらの検索サイトには、インターネット上のあらゆるページが登録されていて、わたしたちはそれを簡単に検索することができますよね。あれだけ膨大な量のページの情報をどう集めているのか、仕組みを簡単に説明しますと、それらは情報収集に「ロボット」を使用しています。これは年中無休で動き続け、リンクを次々とたどりながらインターネット上を徘徊(クロールといいます)して膨大なページのURLを収集、保存します。日々膨張を続けているインターネットに存在するページを片っ端からすべて拾い集めるなんて人の手では不可能ですが、このロボットに任せておけば次々と情報が取り込まれていくのです。だから大手検索サイトでは、誰がお願いしたわけでもないのにたくさんのサイトの情報が勝手に登録されているわけです。
検索サイトというと、同人サイト巡りに便利な個人経営サーチを思い浮かべる方もいらっしゃると思いますが、それらは基本的に人の手によって情報が登録されていますので、ロボット式検索サイトとは情報の集め方が根本的に異なります。
そしてこのロボット検索は日々進化を続けています。検索者としては、より信頼性のある質のいい情報を手に入れたいですよね。ここでロボットは「リンクがたくさん張られているページ=優秀なページ」と判断し、そういうページを検索結果の上の方に表示します。また「どういう言葉でリンクが張られているか」や、「リンクを張っているページは優秀なページかどうか」なども細かくチェックするようです。検索サイトによってロボットの機能はさまざまですが、いまやロボットはただウロウロしているだけではありません。素人では想像もつかないような複雑な処理を行っています。これも、利用者であるわたしたちがより効率よく情報を検索できるようにするためなのです。
ちなみに、このようなロボットの細かい仕様は基本的に企業秘密になっています。各社がしのぎを削っているせいもありますが、SEOも理由のひとつです。企業などのサイトでは、できるだけ消費者の目に付くように検索の上位にサイトを出そうと色々対策を練るわけですが(これがSEO)、ロボット側としては検索結果を不正にいじられたくないわけです。
ロボットはありとあらゆるページを拾い集めては検索データに記録していきます。そのデータは検索を通じてたくさんの人の目に触れてしまう可能性があるため、登録されたくないページもあります。そこで行われているのが「検索避け」です。検索避けをすると、ロボットを追い払うことができます。同人サイトでは「あまりたくさんの一般人に見られたくない」と思っている方が多いので、検索避けの意識が高いです。
検索避けにはいくつか種類があります。ものすごく噛み砕いて説明すると
METAタグ それぞれのページの最初に、ロボットへのメッセージを書き込む方法
robots.txt ホームページの先頭に、ロボットへのお手紙を置いておく方法
.htaccess ホームページのまわりに、ロボットに対する壁を作る方法
Basic認証 ホームページ全体を壁で囲んで、ドアにカギをつける方法
下に行くほど強力ですが、同時にサーバによる制限もあります。無料サービスだと下半分はほとんど使えません。
とてもわかりやすい参考ページ:
METAタグ /
robots.txt /
htaccess概要 /
Basic認証
(すべて「検索避け覚書」さまより)