■「私と好みが似てる人」 その3 
ドメイン一覧とreferer log
www.hirax.netはレンタルサーバー上で稼動している。1999/6月からレンタルサーバー業者を変えた。業者を変えた一番目の理由は、それまで依頼していた業者の規約で定められているデータ転送量を超えてしまう恐れがあったことである。もし、転送量を超えると割に高額な追加料金が発生してしまうのであった。安い居酒屋がある瞬間からボッタクリバーに早変わりしてしまうのである。
今回、レンタルサーバー業者を変えた後の3ヶ月間のLog解析をしてみた。以前、
私と好みが似てる人 - analog Windows版用のサブドメイン解析ソフトを作る- (1999.01.24)
でドメイン名から機関名への変換ソフトを作成したが、何しろ32kBまでのドメインリストにしか対応していないのでほとんど役に立たない。むしろ役に立ってしまっては(WHOISサーバーの負荷上)困るのである。従って、前回と同様のドメイン名とその名称の解析をするためには、ドメイン名リストの一覧を手に入れる必要がある。今回ドメイン解析をするために、「日本ドメイン一覧」を手に入れることにした。
 かつてはJPNICの公開文書( ftp://ftp.nic.ad.jp/pub/jpnic/)から日本ドメイン一覧等の文書は自由に手に入れることができた。しかし、現在はフリーでは公開されていない。ftp://ftp.nic.ad.jp/pub/jpnic/domain-list.txtの中から引用すると、
  
| これまで JPNIC では、JP ドメイン名リストと IP アドレスリストを ftpサービスによって一般公開してきましたが、プライバシー保護およびセキュリティ保全のため、1999年5月11日(火) より原則的に一般非公開といたしました。 JPドメイン名リスト、IPアドレスリストの利用申請については以下のURL をご覧下さい。 http://www.nic.ad.jp/jp/db/application.html関連文書: 『JPドメインのDNSゾーン情報・逆引き情報転送停止および JPドメインリスト等の配布停止について』 http://www.nic.ad.jp/jp/topics/archive/19990401-01.html | 
しかし、FTPsearchで探してみると、その残骸らしきものがいくつかあった。例えば、
6.3M 1999 Feb 19 ftp.web.ad.jp /pub/Internet-Document/jpnic/domain/domain-list.txt
などだ。
このファイルを見ると、将来(といってもこのファイルはすでに現在のものではないが)使用されるであろうドメイン名が予約されており、面白い。
(hichiyahigashi-e # *予約ドメイン名* 日知屋東小学校)(hida-sh # *予約ドメイン名* 岐阜県立飛騨養護学校)(hida-sh-b # *予約ドメイン名* 岐阜県立飛騨養護学校高山日赤分校)(hidaka-ao-e # *予約ドメイン名* 阿尾小学校)(hidaka-chisaka-e # *予約ドメイン名* 千栄小学校)(hidaka-fuchu-e # *予約ドメイン名* 府中小学校)
今回はこのファイルを加工して、Logファイル解析ソフトのanalogで使用することにした。そうすると、日本国内のドメインからのわかりやすいアクセス解析をすることができる。試しにCO.JPドメインとAC.JPドメインの解析サンプルを示してみる。
%PAGE   %Bytes
  1205:   1.51%:         SONY.CO.JP (ソニー株式会社)
   794:   1.99%:         NEC.CO.JP (日本電気株式会社)
   607:   0.12%:         SQUARE.CO.JP (株式会社スクウェア)
   600:   1.09%:         ADVANTEST.CO.JP(株式会社アドバンテスト)
   548:   0.75%:         HITACHI.CO.JP(株式会社日立製作所)
   410:   0.66%:         CANON.CO.JP (キヤノン株式会社)
   395:   0.42%:         FUJITSU.CO.JP(富士通株式会社)
   313:   0.68%:         FUJIXEROX.CO.JP(富士ゼロックス株式会社)
   279:   0.54%:         TOSHIBA.CO.JP(株式会社東芝)
   267:   0.34%:         SHARP.CO.JP (シャープ株式会社)
   234:   0.30%:         RICOH.CO.JP (株式会社リコー)
企業の人数の割にSONY,SQUARE,ADVANTESTといった企業はアクセス数が多いように思う。「私と好みが似ている人」が多いようである。また、namcoもこのすぐ下に位置しているので、SQUARE,Namco,Sonyというゲーム関係の企業が「私と好みが似ている」のかもしれない。
下は、AC.JPドメイン。
%PAGE   %Bytes
   761:   1.16%:         U-TOKYO.AC.JP(東京大学)
   672:   1.92%:         KYUSHU-U.AC.JP(九州大学)
   425:   1.09%:         CHITOSE.AC.JP(千歳科学技術大学)
   330:   0.45%:         KYOTO-U.AC.JP(京都大学)
   329:   0.32%:         WASEDA.AC.JP (早稲田大学)
   265:   0.39%:         OSAKA-U.AC.JP(大阪大学)
   230:   0.30%:         HOKUDAI.AC.JP(北海道大学)
   205:   0.39%:         CHIBA-U.AC.JP(千葉大学)
   168:   0.23%:         HIROSHIMA-U.AC.JP(広島大学)
   164:   0.80%:         TSUKUBA.AC.JP(筑波大学)
   163:   0.53%:         TITECH.AC.JP (東京工業大学)
WEBのLog解析をして何が一番面白いかというと、知らなかった面白いことが載っているWEBを知ることができることである。どこかのWEBページからwww.hirax.netへのリンクがされて、それによりwww.hirax.netへ辿りつく様子はrefererlogを見ればわかるのである。試しにreferer logを解析した結果のサンプルを示してみる。
  #reqs: URL
  -----   ---
  1132: http://www.maqmakmac.com/
   355: http://www.cds.co.jp/ff/bbs/minibbs.cgi
   155: http://freebee.saccess.co.jp/~gridman/gfx/99summer.html
   147: http://www.cds-co.com/ff/main.html
   138: http://www.cds.co.jp/ff/main.html
   114: http://www.jin.gr.jp/~nahi/link-misc.html
   114: http://www2s.biglobe.ne.jp/~chic/pilot.html
     82: http://www.puppenhaus.co.jp/mirror-site/fukatsu-eri.htm
     63: http://www.cds-co.com/ff/zakki.htm
     57: http://www.t3.rim.or.jp/~munemasa/links.html
     57: http://www2.saccess.co.jp/~gridman/gfx/99summer.html
そして、そのrefer元の持つ情報は私にとってとても面白いのである。www.hirax.netにリンクを貼っているページの作者というのは大抵「私と好みが似てる人」であるし、なおかつ、私ではない。ということは、そこには
- 私の好みに合っていて、
- 私がちっとも知らないこと
そういったWEBを探そうと思っても、それはとても困難である。何しろ、キーワード検索ができないのである。キーワードで調べるにも「私がちっとも知らないこと」であるから、そのキーワードを私が思いつくはずがないのである。というわけで、「好みに合っていて、(私のちっとも知らないことが多い)新鮮なページを見つけるのは難しい」のであった。
しかし、それも今では違う。www.hirax.netのreferer logを見るとそういったWEBを見つけることができるのである。これがとても嬉しいのである。
