■ だまされるロボット
次のようなページをインターネット上につくる。
ページのタイトルは「モーニング娘」である。
モーニング娘
ある晴れた昼下がり
市場へ続く道
モーニング娘
荷馬車がゴトゴト
子牛を乗せていく
モーニング娘
かわいい子牛 売られていくよ
悲しそうな瞳で 見ているよ
モーニング娘
ドナドナドナドナ 子牛をのせて
ドナドナドナドナ 荷馬車が揺れる
モーニング娘
…………
|
気が狂ったのではない。
ロボット型の検索エンジンをだましたいのである。実験をしたいのである。(注1)
このページをインターネット上で公開したら、どうなるであろうか。
ロボットは、このページをモーニング娘のページと認識するであろう。ロボットは、単語を集めにくる。タイトルは「モーニング娘」である。また、「モーニング娘」という単語がページのトップにある。さらに、「モーニング娘」という単語が頻繁に出ている。ロボットは、このページを間違いなくモーニング娘のページと認識する。
このページは、「モーニング娘」で満ちている。だから、ロボットは、このページをモーニング娘の重要なページと判断する可能性がある。だまされる可能性がある。「モーニング娘」での検索結果の上位に、この「モーニング娘・ドナドナ」のページが表示される可能性がある。
ロボットは、だまされる。しかし、人間ならどうであろうか。だまされない。人間は、このページをモーニング娘のページとは判断しないであろう。人間は、単語ではなく、文章の意味を認識しているからである。だから、ヤフーなどの人手型の検索エンジンでは、このページは検索結果に表示されないであろう。
つまり、人手型の検索エンジンでは、人間によって意味に踏み込んだ評価がされている。それに対して、ロボット型の検索エンジンでは、字面だけの表面的な評価しかされていない。だから、だまされるのである。
■ だまされないグーグル
一般的なロボット型の検索エンジンがだまされる「モーニング娘・ドナドナ」のページ。
グーグル(Google)は、だまされるであろうか。(グーグルはロボット型である。)
だまされない。
グーグルは、なぜ、だまされないのか。
グーグルが、次のような斬新なアプローチをしているからである。
あるページを評価する時、グーグルは、そのページに張られたリンクの数を数える。ロボットを使って数える。言いかえれば、ロボットを使って人による評価を集める。グーグルは、リンクをいわば「投票」とみなす。そして、その「投票」が多いページほど重要なページとみなす。検索結果の上位に表示する。
つまり、グーグルは次のような方法を発見した。
張られたリンクが、そのページの評価をしていると考える。
|
グーグルは、リンクの数でそのページの重要性を判断する。リンクが多く張られているページほど重要なページとみなす。(注2)
「モーニング娘・ドナドナ」のページへは、さほどリンクは張られないであろう。(私は、モーニング娘とドナドナの魅力を融合させたよいページだと思うが。)モーニング娘の主要なサイトよりリンクを集めることはありえない。だとすば、検索結果の上位には表示されない。
グーグルはロボット型でありながら、人手型のような検索結果を出す。それは、このように人による評価を集めているからである。
リンクは評価である。リンクは人による評価である。そして、リンクはロボットによって認識できる。だから、リンクならば、ロボットで集めることが出来る。
グーグルはこの事実に気がついたのだ。発見したのだ。
■ 検索エンジンの種類
ここで念のために検索エンジンの種類を確認しておこう。
検索エンジンには、おおざっぱに言って二つの種類がある。
人手型(サイト検索) ヤフー、オールアバウトジャパン など
ロボット型(ページ検索) グーグル、インフォシーク、グー など
|
人手型は、人手でサイト(ホームページ)を登録する検索エンジンである。人手で登録するので、役に立ちそうなサイトを評価して登録することが出来る。しかし、人手なので、そう多くのサイトは登録できない。また、当然、サイト内の一つ一つのページは登録できない。
ロボット型は、ロボットでページを登録する検索エンジンである。インターネット上にロボットを巡回させ、特定の単語があるページを次々に登録していくのである。大筋で単語を見るだけなので、役に立つ情報かどうかの評価はあまりされていない。しかし、たくさんのページが登録されている。
■ 検索エンジンの一般的な使い分け
だから、一般的には、これらを使い分けてきた。
メジャーな単語を調べる時は人手型を使い、マイナーな単語を調べる時はロボット型を使う。つまり、「モーニング娘」ならば人手型を使い、「ドナドナ」ならばロボット型を使う。
モーニング娘のオフィシャルサイトはあるに決まっている。しかし、ドナドナのオフィシャルサイトがあるとは思えない。
オフィシャルサイトをロボット型で探すと、見つけにくい。ロボット型の場合、オフィシャルサイトが一番上に表示されるとは限らない。その他大勢の一般ファンのサイトにまぎれてしまう。
■ 検索エンジンのジレンマ
つまり、検索エンジンは、次のようなジレンマをもっていた。
人手型は、評価されたページを表示する。しかし、数が少ない。
ロボット型は、たくさんのページを表示する。しかし、評価が中途半端である。
|
だから、一般には、両者を使い分けていた。
しかし、グーグルが、このジレンマをかなり解決した。
つまり、グーグルは、次のような特徴をもつ。
グーグルは、評価されたページを表示する。しかも、数が多い。
|
なぜ、「評価」できるのか。人による評価を集めているからである。
なぜ、「数が多い」のか。ロボットで集めているからである。
グーグルは、人による評価をロボットで集めるという方法によって、ジレンマをかなり解決した。
だから、使い分けの必要性は少なくなった。グーグルだけを使っても、大筋で問題は感じないほどである。(注3)
■ 表示されないオフィシャルサイト
さらに難しい実験をしてみよう。
「明和電機」を検索してみる。
アートユニット明和電機のオフィシャルサイトは次のところである。
■□■ MAYWADENKI ■□■
このサイトが検索結果として表示されるか。
ロボット型のインフォシークではどうか。
表示されない。
検索結果を何ページ見ても、表示されていないのである。〔2001年11月当時の話である。さすがに現在では表示される。何らかの改善がなされたのであろう。2003年9月に加筆。〕
オフィシャルサイトが表示されないのは異常である。ファンならば、まずオフィシャルサイトを見たいはずである。
インフォシークは、この重要なサイトを登録できていない。
なぜか。
明和電機のオフィシャルサイトのトップページには「明和電機」というテキスト形式の単語が無いのである。タイトルは、「■□■
MAYWADENKI ■□■」である。「MAYWADENKI」は、「明和電機」とは違う。また、トップページに大きくある「明和電機」はロゴである。画像で作ってある。
ロボットは、テキスト形式の単語を探している。画像は認識できない。
だから、上のサイトは、オフィシャルサイトであるにも関わらず、表示されなかったのである。ロボットは、「明和電気」と大きく書いてあるにもかかわらず、明和電機のサイトであると認識できなかったのである。
人間なら、このような間違いはしない。
しかし、ロボットは、指示したことしか出来ない。ロボットは、テキストの単語を探すように指示されている。だから、その単語がなければ、登録しない。登録されていないのだから、検索しても表示されない。
■ 人による評価をロボットで集めよ
グーグルならば、どうか。「明和電気」を検索しよう。
見事にオフィシャルサイトが表示される。
最初に表示される。
グーグルは、画像を認識しているのか。
本当にロボットなのか。
ロボットの着ぐるみの中に人間が入っているのか。
そんな訳はない。(注4)
グーグルは、もう一つ斬新な方法を発見したのである。
リンク元の語句がリンク先のページを表していると考える。
|
つまり、明和電気のオフィシャルサイトにリンクを張る時は、「明和電気のオフィシャルサイト」などと書くであろう。この語句が青くなっている。そして、この語句をクリックすると、明和電気のオフィシャルサイトに飛べる。
グーグルは、このような語句がリンク先のページを表していると考える。
「明和電気のオフィシャルサイト」と書いてあれば、リンク先は明和電気のオフィシャルサイトに決まっている。確かに、リンク元の語句は、多くの場合、リンク先のページを表している。
つまり、リンク元の語句自体が、リンク先を評価しているのである。人による評価なのである。
このようにグーグルは、リンク元の語句を調べている。だから、そのページに「明和電気」という単語が一つも無いサイトを、正しく明和電気のサイトと認識できるのである。
このような語句もロボットで集めることが出来る。評価を集めることが出来る。
もう一度、原則としてまとめておこう。
いろいろ応用がきく、重要な原則である。
インターネット上の情報を人手で評価するとコストがかかる。だから、多くの情報を評価することは出来ない。
しかし、インターネット上には、既に人による評価がさまざまにある。それを集めることを考えればよい。
ロボットを使って、大きく集めることを考えよう。
広く集めることを考えよう。
(2001年11月8日)
(注1)
もちろん、実際にダミーのページを作って実験をする訳ではない。論の展開のために、そう書いただけである。
実際にダミーのページを作って実験しているサイトを発見した。興味深い。
ご興味のある方は、次のサイトをご覧いただきたい。
検索エンジンのしくみ教えます
その他では、次の調査が興味深かった。
検索デスク 「検索の視点」
(注2)
実際におこなわれているのは、もう少し複雑な方法である。
「……Googleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。『重要度』の高いページによって投じられた票はより高く評価されて、それを受け取ったページを『重要なもの』にしていくのです。」
リンクがたくさん張られているページからのリンクは「高く評価され」るのである。リンクの重みづけをする訳である。
グーグル自身による説明は次のページである。
(注3)
ヤフーよりグーグルの方が優れている点も多い。実は、明和電機のオフィシャルサイトをヤフーのサイト検索は表示できなかった。登録の担当者が見落としたらしい。グーグルならば、もちろん見落とさない。グーグルの評価は、インターネット上の多くの人による評価だからである。一人が見落とすことはありえる。しかし、千人が全員見落とすことはありえない。
(注4)
一般には、ロボットの着ぐるみの中に人間が入っていることがある。ロボットは、重要なサイトを見落とすことがある。それは問題である。だから、人手で登録するのである。ロボットで登録できないものを人間が補うのである。(ちなみに、グーグルは、人手による操作はしていないと言っている。)
だから、実験の単語としては「明和電機」がよい。適度にマイナーであるため、人手で登録されていないのである。