2006-05-09

近況

ぼそぼそ話は続く.

Social... を読み進める. まずグラフの基本. 案外知らない/忘れている話がある. eccentricity とか diameter って知らなかった. たしかに social では意味がありそう. bipartite graph というのも出てくる. なんか違う名前で習った気がするが思いだせない. 単に日本語だったのかも. 複数 actor の混在は s-partite でモデル化すれば済むのかな. 今のところ割と順調に読めている. なぜだろうと考えてみると, アルゴリズムが出てこないからだ. 定義だけ. アルゴリズムは別の本を見ろという立場なのかもね.

いわゆる SNS では actor の性質を色々記述する. actor の性質とはつまり利用者自身の情報. 趣味とか. 一方で tie の情報は乏しい. tie といのは つながり の部分. 昔 Orkut を使ったときは隣人 の rating を cool だの hot だので 評価する機能があった. あれは tie に属性を持たせようとする仕組なわけだ. 日本人には馴染めない感覚. ただ tie に属性を持たせるアイデアそれ自身は捨てがたい. "推薦の辞" みたいのは定性的な属性と言える. なんかもっと定量的なのがいいな. たとえば referer 数は定量的だ. あとは人間関係にタグづけできるとそれも定量的になるが, 非人道的にも思える. もっと楽しげなのがほしい. ウェブだとリンクの種類というのはまあまあ属性っぽい. 文中からの link と blogroll のリンクは別の属性 ... そのくらいか. ページではなくサイト単位で見れば, リンクの量は定量的な属性として意味を持ちそう. しかし使い道は思いつかない. 安直な考えで片付く話題ではないか.

ふと巨大なグラフを扱うためのライブラリを作れないかと考える. 以前 Google の BigTable という機構について読んだのを思いだしたが, これは公式な資料がなくよくわからなかった. 巨大といってもまずは 単体の計算機に扱える規模でいい. RBDMS で管理してもできるだろうけれど, いまいち面白みはない. グラフに特化すれば性能も改善の余地があるだろう. 実は OODB がほぼそのものな気もする. ただ social network の解析に使うなら接続関係はずっと安定だと期待していい. だからずっと局所性を高められる気がする. そういう実装がオープンソースであっても良さそうなものだ. でもやはり有用な使い道は思いつかない.