Yahooのインデックス200億ページ?

前のエントリー「rel=”nofollow” の検証。。悩ます」を書いていてふと思った。。
少し前。。といっても1ヶ月ぐらい前だったかYahoo!の検索インデックス数が200億ページを超え、Googleの80億ページを大幅に凌いだとの発表があった記事を読んだ記憶がある。。
総ページ数のことについてGoogleでもちょっとした動きがあったようです。
Google のインデックス数が消えた
話を戻します。。Yahoo!のインデックスって、リンクをたどってページを(内容とかまで)キャッシュしたインデックスではなく、ページ内に存在するURLを「ガーッ」っと集めた中身の無いインデックスぢゃないのか??という疑問が出てきたりなんかしたわけです。


容量のないURLだけのキャッシュを見るとなんか疑っちゃいます。。
そうなると、キャッシュしたページ数はかぁーんたんに膨らますことは出来るが、200億ページのうちの一部(どれくらいかは、はてな)は中身は無いことになりゃせんかい??
ページ数だけ一気に増やしてそれぞれのページクロール&中身のキャッシュは徐々にしていくのではないかなぁ??
クロールするためのURLのリスト(それもかなり強引な集め方のモノも含め)さえページキャッシュだと言い張っているのではないか??
普通の検索結果にはほとんど出てこない。。URL直打ちの検索なら出てくる。。
なんとなくの勝手な予想です。まぁ、クロールの仕方とすれば順繰りにたどってクロール&キャッシュしますなんてことは言っていないわけだから、ロボットの種類というか性能というか動き方によってはこういう方式のほうが効率がいいのかもしれない。。ってかそれが普通なのかもしれないが(Google Sitemapsなんかのことを考えると。。)
また、勝手な予想と疑問だから200億ページのキャッシュに「容量のないURLだけのキャッシュページ」も含まれているかどうかも分からない。
しかし、少なくともそういう方式でのクロール&キャッシュだと前のエントリーでも書いたようにページ中のMETAタグを無視した状態でキャッシュすることもありうることになってしまう。
まぁ、どちらにしても総ページ数ではなく(だけではなく?かな)検索結果の質で争っていただけたらと思う。。自分のサイトが上のほうに来ればなおウレシ(爆。。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク
Highslide for Wordpress Plugin