11.1.1 検索エンジンとは

review_s9. ウェブブラウザで述べたように,ウェブブラウザを用いて特定のページを表示するためには,そのページの所在地(URL : Uniform Resource Locator)を指定しなくてはなりません.しかし事前に欲しい情報の存在するページのURLを正確に知っていることは滅多にありませんし,欲しい情報の載ったページが存在するかどうかすらわからないこともよくあります.最近では,雑誌や広告などで"http://〜"で始まるURLを目にすることが多くなりましたが,一目見ただけではなかなか正確には覚えられないものです.

検索エンジンとは,こうしたときに希望のウェブページを探し出すためのサービスのことです. 英語での呼び方である サーチエンジン(search engine) と呼ばれることもあります. もちろん検索エンジンを使えば必ず望ましいウェブページが見つかるわけではありませんが, 上手に利用することでかなり効率良く適切なウェブページを探し出せるはずです.

では実際に検索エンジンを利用する前に,その仕組みについて少し学んでおきましょう.

検索エンジンの仕組み

検索エンジンはウェブページの収集と検索という2つの機能を持っています. ユーザが求めるウェブページの場所を知らせるためには,どこにどのようなウェブページが存在するのかというリスト(いわばインターネットの電話帳)が必要です.そのリストを作る作業がウェブページの収集に当たります.そして作成されたリストを元に,検索を行い,該当するウェブページをユーザに提示します.

ウェブページの収集

ウェブページの収集は,人間が手作業で行う場合と,検索ロボットと呼ばれる情報収集のためのプログラムを使用する場合があります(ロボットという名前が付いていますが,物理的実体のないプログラムです).

検索ロボットは自動的にウェブページのハイパーリンクをたどりながら,ページの内容を逐一記録していきます.そしてリンクの構造(どのページとどのページがリンクしているか)やページの内容を分析し,そのページに含まれるキーワードとそのページの場所(URL)との対応表を作成します.

一方手作業で情報を集める場合は,検索エンジンの作成者が実際にWWWを巡回し,見つけたページの内容を表すキーワードを考え,そのページのURLとキーワードの対応表を作ったり,逆にウェブサイトの作成者が自分のサイトの情報(キーワードとURL)を検索エンジンの作成者に申告し,リストに登録してもらうこともあります.

昔は人間が手作業で作成する検索エンジンも多く存在していたのですが, 急速に増え続けるウェブページを収集するのは人間の力では限りがあるため, 現在ではほとんどの有名な検索エンジンがロボット方式を採用しています.

ウェブページの検索

検索エンジンの中には,人間またはロボットによって集められた情報を,その内容に従ってサイト単位で階層的に分類するものと,特に分類はせず,全てのウェブページの情報を網羅的に蓄えるものがあります.

前者のような検索エンジンでは,ユーザは「インターネット」→「WWW」→「ホームページ作成」のように,大きなカテゴリから小さなカテゴリへと分類項目を階層的にたどることで,目的のウェブサイトにたどり着くことができます.このような分類および検索方法を採用した検索エンジンをディレクトリ型検索エンジンと言います.

一方後者のような検索エンジンでは,ユーザが調べたいキーワードを入力すると,そのキーワードを文中に含んだウェブページを全て表示します.ディレクトリ型検索エンジンがウェブサイトごとの検索(検索結果として各サイトのトップページへのリンクが表示される)なのに対し,こちらはページごとの全文検索を行います.したがって同じサイトの異なるページも検索対象に含まれるため,検索結果が膨大な件数に上ることもしばしばです.

一般に全文検索型の検索エンジンの情報収集はロボットによって行われているため,全文検索型はロボット型検索エンジンと呼ばれています.しかし近年ではディレクトリ型におけるサイトの収集と分類をロボットが行っている場合もあるため,ロボット型=全文検索型とは必ずしも言えなくなっています.またディレクトリ型もロボット型も,どちらも一長一短があるために,現在では代表的な検索エンジンのほとんどが両者を併用しています.

代表的な検索エンジンには以下のようなものがあります.

それでは実際に検索エンジンの画面を見ながら,利用方法を学んでいきましょう.