ディレクトリー型に対して
Google
に代表されるロボット型検索エンジンはデーターベースを作る為にクローラーと呼ばれる
ロボット スパイダー(検索ロボットと呼ばれる httpget プログラム)を使用しWebページを巡回、収集します。
検索ロボットには Web Site と言うような概念は有りません。
ひたすら、Webページのリンク構造を辿り新たなWebページを収集して行きます。
Web (クモの巣)上を徘徊するスパイダー(spider:「虫」クモ)と書くと何だか恐ろしげなイメージが湧きますが、
他人に見られたくないファイルをWebサーバー上に置いたりしない限り怖い物では有りません。
人がWeb site(WWW)を閲覧する時にはブラウザを使い自分で行き先をクリックしますが、
ロボット スパイダーは自動的に Web site 上のリンクを辿ってページのテキストを収集します。
リンクを辿ると言ってもその場で辿る訳ではなく実際には収集したアドレスを一端持ち帰り、クローリングリストを作成し次回クローリングの候補とします。
このクローリングリストにはページの更新頻度や重要度で毎日巡回から月一回の巡回で良いとかの優先度が付け加えられている様な気がしますが、実際の所はどうなんでしょうか?
この様に Webページを自動的に収集するのでロボットと言う呼び方がされる様になったのだとも思えますが定かではありません。
ロボットもブラウザによるウエブページ閲覧と同じようにIPアドレスやユーザーエージェントント(UA)を持っています。
但し、ロボットのユーザーエージェントントは一般的なブラウザではありませんので
Mozilla などでは有りません。
(最近は Mozilla を名のるクローラーが激増したが各社独特の UA を持つ)
結局の所ロボット スパイダーはWebを自動的に閲覧(収集)するように書かれた、ただのプログラムに過ぎません。
最近のクローラーは一般的な HTML
で作成された静的ページや SSI
などを利用した動的な Webページ以外に pdf文書、jifやjpeg などの画像、動画、
さらに音声ファイルなど様々な種類の拡張子を持つファイルを収集します。
一箇所からでもリンクされていればいずれ収集され、
誰かがそのファイル周辺のテキスト内容に関連するキーワードで検索すると検索結果として表示されます。
他人に見られたくないファイルはWebサーバーには置かない事が原則です。
データーベースの更新周期は各社の都合で様々ですが、大雑把に言えば数週間から数ヶ月程度でしょう。
Google はほぼ確実に一月に1回更新されます。
2003年8月以降の Google は Everflux現象
と呼ばれる現象でほぼ連日更新する状態になっています。
第二世代以降のロボットはページのテキストを全文丸ごと収集(全文検索)します。
ロボットで収集したデータはそのままでは使えませんので、
インデクサーと呼ばれるプログラムでテキストから単語(キーワード)を切り出し、
インデックスを作りデーターベース化し検索サーバー上に置かれます。
ブラウザからWebサーバに送られたユーザーの問い合わせは検索サーバーのインデックスを参照し、
適合した物をWebサーバーがブラウザに送り検索結果として表示します。
実際の処理に関しては各社独自の方法で行われており部外者が知る由もありませんが、参考になりそうな記事が発表される場合も有るようです。
参考:
Google検索システムの舞台裏
いま明かされる、グーグル・データセンターの秘密
検索結果の表示順位を決定するアルゴリズムは検索エンジン各社の最高機密で、
同じ社内でも知る人は極わずかしか居ないと言う事らしいのです。
とは言っても手掛りが全く無い訳では有りません。
Google、初のWeb検索特許を取得
などの記事がヒントになる場合もありますし、個人や企業で解明を試みる人達の情報もウェブにはあります。
特に Google に関しては重要な要素が公然とニュース記事になっていたりします。
こんなのも有りと言う事でリンクしておきます。
参考リンク
米大統領選のケリー候補に「グーグル爆弾」の洗礼
Googleの検索ランキングトップを競うコンテスト、優勝者決まる
検索ランキングトップを競うコンテスト最終戦、ブロガーが勝利
SEO企業による検索ランキング操作の実態
ロボット型検索エンジンの欠点は検索結果にノイズが混ざる場合がある事です。
世界中のWebページを全てインデックスしようとしていますので、個々のページの質なども一切関係無しに収集します。
出来るだけ沢山のページをインデックスしようとする事がロボット型検索エンジンの特徴であり又、検索ノイズを増やす原因にもつながっています。
検索ノイズを減らす努力は常時行われており、現在の第三世代検索エンジン(検索結果表示順位付けにWebのリンク関係を加味する)
では以前のページ単位でしか評価を行わない検索エンジンと比べ非常に精度の良い検索結果を返すようになって来ました。
参考リンク
Google の人気の秘密
Googleの新しい順位決定方法のすべて。グーグル特許出願文書全訳
Google のテクノロジー
もう一つの問題は上述のインデックス更新周期によりWebページの更新状況をリアルタイムで反映できない点です。
このことに付いても現在様々な解決方法が模索されています。
Google
の連日行われるフレッシュクロール(Fresh crawl)などは特定のページを頻繁にクロールし、
新鮮な検索結果を利用者に提供できる態勢になっています。
新しい YST や MSN 等のシステムもスパンの短い逐次更新型が採用されています。
Google は2003年6月時点に於いて、世界中に9つのデータセンターが在り Linux サーバー が1万台以上使われ、
30億ものページをクロールしインデックスしていると言われています。
参考:
巨大な検索システムを耐障害性の高いソフトと安価なマシンで実現
最新:2004/11/
Google のインデックス数は80億を越えています。
参考:
ロボット型検索エンジンへのリンク集
Google のデータセンターに付いては
Google データセンターの一覧 へ記載しています。
ページ先頭