■ だまされるロボット
  
  
     
  
  
     次のようなページをインターネット上につくる。
  
  
     ページのタイトルは「モーニング娘」である。
  
  
     
  
  
    
      
        | モーニング娘
 
 
 ある晴れた昼下がり
 市場へ続く道
 
 モーニング娘
 
 荷馬車がゴトゴト
 子牛を乗せていく
 
 モーニング娘
 
 かわいい子牛 売られていくよ
 悲しそうな瞳で 見ているよ
 
 モーニング娘
 
 ドナドナドナドナ 子牛をのせて
 ドナドナドナドナ 荷馬車が揺れる
 
 モーニング娘
 
 …………
 
 
 | 
    
  
  
     
  
  
     気が狂ったのではない。
  
  
     ロボット型の検索エンジンをだましたいのである。実験をしたいのである。(注1)
  
  
     このページをインターネット上で公開したら、どうなるであろうか。
  
  
     ロボットは、このページをモーニング娘のページと認識するであろう。ロボットは、単語を集めにくる。タイトルは「モーニング娘」である。また、「モーニング娘」という単語がページのトップにある。さらに、「モーニング娘」という単語が頻繁に出ている。ロボットは、このページを間違いなくモーニング娘のページと認識する。
  
  
     このページは、「モーニング娘」で満ちている。だから、ロボットは、このページをモーニング娘の重要なページと判断する可能性がある。だまされる可能性がある。「モーニング娘」での検索結果の上位に、この「モーニング娘・ドナドナ」のページが表示される可能性がある。
  
  
     ロボットは、だまされる。しかし、人間ならどうであろうか。だまされない。人間は、このページをモーニング娘のページとは判断しないであろう。人間は、単語ではなく、文章の意味を認識しているからである。だから、ヤフーなどの人手型の検索エンジンでは、このページは検索結果に表示されないであろう。
  
  
     つまり、人手型の検索エンジンでは、人間によって意味に踏み込んだ評価がされている。それに対して、ロボット型の検索エンジンでは、字面だけの表面的な評価しかされていない。だから、だまされるのである。
  
  
     
  
  
     
  
  
    ■ だまされないグーグル
  
  
     
  
  
     一般的なロボット型の検索エンジンがだまされる「モーニング娘・ドナドナ」のページ。
  
  
     グーグル(Google)は、だまされるであろうか。(グーグルはロボット型である。)
  
  
     だまされない。
  
  
     グーグルは、なぜ、だまされないのか。
  
  
     グーグルが、次のような斬新なアプローチをしているからである。
  
  
     
  
  
  
     
  
  
     あるページを評価する時、グーグルは、そのページに張られたリンクの数を数える。ロボットを使って数える。言いかえれば、ロボットを使って人による評価を集める。グーグルは、リンクをいわば「投票」とみなす。そして、その「投票」が多いページほど重要なページとみなす。検索結果の上位に表示する。
  
  
     つまり、グーグルは次のような方法を発見した。
  
  
     
  
  
    
      
        | 張られたリンクが、そのページの評価をしていると考える。
 
 | 
    
  
  
     
  
  
     グーグルは、リンクの数でそのページの重要性を判断する。リンクが多く張られているページほど重要なページとみなす。(注2)
  
  
     「モーニング娘・ドナドナ」のページへは、さほどリンクは張られないであろう。(私は、モーニング娘とドナドナの魅力を融合させたよいページだと思うが。)モーニング娘の主要なサイトよりリンクを集めることはありえない。だとすば、検索結果の上位には表示されない。
  
  
     グーグルはロボット型でありながら、人手型のような検索結果を出す。それは、このように人による評価を集めているからである。
  
  
     リンクは評価である。リンクは人による評価である。そして、リンクはロボットによって認識できる。だから、リンクならば、ロボットで集めることが出来る。
  
  
     グーグルはこの事実に気がついたのだ。発見したのだ。
  
  
     
  
  
     
  
  
    ■ 検索エンジンの種類
  
  
     
  
  
     ここで念のために検索エンジンの種類を確認しておこう。
  
  
     検索エンジンには、おおざっぱに言って二つの種類がある。
  
  
     
  
  
    
      
        | 人手型(サイト検索)   ヤフー、オールアバウトジャパン など
 ロボット型(ページ検索) グーグル、インフォシーク、グー など
 
 | 
    
  
  
     
  
  
     人手型は、人手でサイト(ホームページ)を登録する検索エンジンである。人手で登録するので、役に立ちそうなサイトを評価して登録することが出来る。しかし、人手なので、そう多くのサイトは登録できない。また、当然、サイト内の一つ一つのページは登録できない。
  
  
     ロボット型は、ロボットでページを登録する検索エンジンである。インターネット上にロボットを巡回させ、特定の単語があるページを次々に登録していくのである。大筋で単語を見るだけなので、役に立つ情報かどうかの評価はあまりされていない。しかし、たくさんのページが登録されている。
  
  
     
  
  
     
  
  
    ■ 検索エンジンの一般的な使い分け
  
  
     
  
  
     だから、一般的には、これらを使い分けてきた。
  
  
     メジャーな単語を調べる時は人手型を使い、マイナーな単語を調べる時はロボット型を使う。つまり、「モーニング娘」ならば人手型を使い、「ドナドナ」ならばロボット型を使う。
  
  
     モーニング娘のオフィシャルサイトはあるに決まっている。しかし、ドナドナのオフィシャルサイトがあるとは思えない。
  
  
     オフィシャルサイトをロボット型で探すと、見つけにくい。ロボット型の場合、オフィシャルサイトが一番上に表示されるとは限らない。その他大勢の一般ファンのサイトにまぎれてしまう。
  
  
     
  
  
     
  
  
    ■ 検索エンジンのジレンマ
  
  
     
  
  
     つまり、検索エンジンは、次のようなジレンマをもっていた。
  
  
     
  
  
    
      
        | 人手型は、評価されたページを表示する。しかし、数が少ない。
 ロボット型は、たくさんのページを表示する。しかし、評価が中途半端である。
 
 | 
    
  
  
     
  
  
     だから、一般には、両者を使い分けていた。
  
  
     しかし、グーグルが、このジレンマをかなり解決した。
  
  
     つまり、グーグルは、次のような特徴をもつ。
  
  
     
  
  
    
      
        | グーグルは、評価されたページを表示する。しかも、数が多い。
 
 | 
    
  
  
     
  
  
     なぜ、「評価」できるのか。人による評価を集めているからである。
  
  
     なぜ、「数が多い」のか。ロボットで集めているからである。
  
  
     グーグルは、人による評価をロボットで集めるという方法によって、ジレンマをかなり解決した。
  
  
     だから、使い分けの必要性は少なくなった。グーグルだけを使っても、大筋で問題は感じないほどである。(注3)
  
  
     
  
  
     
  
  
    ■ 表示されないオフィシャルサイト
  
  
     
  
  
     さらに難しい実験をしてみよう。
  
  
     「明和電機」を検索してみる。
  
  
     アートユニット明和電機のオフィシャルサイトは次のところである。
  
  
     
  
  
      ■□■ MAYWADENKI ■□■   
  
  
  
     
  
  
     このサイトが検索結果として表示されるか。
  
  
     ロボット型のインフォシークではどうか。
  
  
     
  
  
  
     
  
  
     表示されない。
  
  
     検索結果を何ページ見ても、表示されていないのである。〔2001年11月当時の話である。さすがに現在では表示される。何らかの改善がなされたのであろう。2003年9月に加筆。〕
  
  
     オフィシャルサイトが表示されないのは異常である。ファンならば、まずオフィシャルサイトを見たいはずである。
  
  
     インフォシークは、この重要なサイトを登録できていない。
  
  
     なぜか。
  
  
     
  
  
  
     
  
  
     明和電機のオフィシャルサイトのトップページには「明和電機」というテキスト形式の単語が無いのである。タイトルは、「■□■   
    MAYWADENKI ■□■」である。「MAYWADENKI」は、「明和電機」とは違う。また、トップページに大きくある「明和電機」はロゴである。画像で作ってある。  
  
  
     ロボットは、テキスト形式の単語を探している。画像は認識できない。
  
  
     だから、上のサイトは、オフィシャルサイトであるにも関わらず、表示されなかったのである。ロボットは、「明和電気」と大きく書いてあるにもかかわらず、明和電機のサイトであると認識できなかったのである。
  
  
     人間なら、このような間違いはしない。
  
  
     しかし、ロボットは、指示したことしか出来ない。ロボットは、テキストの単語を探すように指示されている。だから、その単語がなければ、登録しない。登録されていないのだから、検索しても表示されない。
  
  
     
  
  
     
  
  
    ■ 人による評価をロボットで集めよ
  
  
     
  
  
     グーグルならば、どうか。「明和電気」を検索しよう。
  
  
     
  
  
  
     
  
  
     見事にオフィシャルサイトが表示される。
  
  
     最初に表示される。
  
  
     グーグルは、画像を認識しているのか。
  
  
     本当にロボットなのか。
  
  
     ロボットの着ぐるみの中に人間が入っているのか。
  
  
     そんな訳はない。(注4)
  
  
     グーグルは、もう一つ斬新な方法を発見したのである。
  
  
     
  
  
    
      
        | リンク元の語句がリンク先のページを表していると考える。
 
 | 
    
  
  
     
  
  
     つまり、明和電気のオフィシャルサイトにリンクを張る時は、「明和電気のオフィシャルサイト」などと書くであろう。この語句が青くなっている。そして、この語句をクリックすると、明和電気のオフィシャルサイトに飛べる。
  
  
     グーグルは、このような語句がリンク先のページを表していると考える。
  
  
     「明和電気のオフィシャルサイト」と書いてあれば、リンク先は明和電気のオフィシャルサイトに決まっている。確かに、リンク元の語句は、多くの場合、リンク先のページを表している。
  
  
     つまり、リンク元の語句自体が、リンク先を評価しているのである。人による評価なのである。
  
  
     このようにグーグルは、リンク元の語句を調べている。だから、そのページに「明和電気」という単語が一つも無いサイトを、正しく明和電気のサイトと認識できるのである。
  
  
     このような語句もロボットで集めることが出来る。評価を集めることが出来る。
  
  
     もう一度、原則としてまとめておこう。
  
  
     
  
  
  
     
  
  
     いろいろ応用がきく、重要な原則である。
  
  
     インターネット上の情報を人手で評価するとコストがかかる。だから、多くの情報を評価することは出来ない。
  
  
     しかし、インターネット上には、既に人による評価がさまざまにある。それを集めることを考えればよい。
  
  
     ロボットを使って、大きく集めることを考えよう。
  
  
     広く集めることを考えよう。
  
  
     
  
  
                         (2001年11月8日)
  
  
     
  
  
     
  
  
    (注1)
  
  
     
  
  
     もちろん、実際にダミーのページを作って実験をする訳ではない。論の展開のために、そう書いただけである。
  
  
     実際にダミーのページを作って実験しているサイトを発見した。興味深い。
  
  
     ご興味のある方は、次のサイトをご覧いただきたい。
  
  
     
  
  
      検索エンジンのしくみ教えます
  
  
  
     
  
  
     その他では、次の調査が興味深かった。
  
  
     
  
  
      検索デスク 「検索の視点」
  
  
  
     
  
  
     
  
  
    (注2)
  
  
     
  
  
     実際におこなわれているのは、もう少し複雑な方法である。
  
  
     
  
  
     「……Googleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。『重要度』の高いページによって投じられた票はより高く評価されて、それを受け取ったページを『重要なもの』にしていくのです。」
  
  
     
  
  
     リンクがたくさん張られているページからのリンクは「高く評価され」るのである。リンクの重みづけをする訳である。
  
  
     グーグル自身による説明は次のページである。
  
  
     
  
  
  
     
  
  
     
  
  
    (注3)
  
  
     
  
  
     ヤフーよりグーグルの方が優れている点も多い。実は、明和電機のオフィシャルサイトをヤフーのサイト検索は表示できなかった。登録の担当者が見落としたらしい。グーグルならば、もちろん見落とさない。グーグルの評価は、インターネット上の多くの人による評価だからである。一人が見落とすことはありえる。しかし、千人が全員見落とすことはありえない。
  
  
     
  
  
     
  
  
    (注4)
  
  
     
  
  
     一般には、ロボットの着ぐるみの中に人間が入っていることがある。ロボットは、重要なサイトを見落とすことがある。それは問題である。だから、人手で登録するのである。ロボットで登録できないものを人間が補うのである。(ちなみに、グーグルは、人手による操作はしていないと言っている。)
  
  
     だから、実験の単語としては「明和電機」がよい。適度にマイナーであるため、人手で登録されていないのである。