故事要從開始寫小玩具說起。
約莫兩年多前,因為想在茫茫好友海中找幾個人,
我用 PHP 寫了可以 parse 無名小站好友清單的 script,
起初只是不想用無名的好友選單,因為這會開太多視窗,
而改用程式 parse 好的網頁連結一個一個點開,
網頁看起來大概是這個樣子。
但不久之後我發現,若能搜集正反向連線關係將更有用,
原因如下:
- 正反向皆有連結的連線強度應較高
- 即便只看 node 的連線關係,亦可得到許多重大連線關係 (如分群或過濾雜訊)
- 好友註解資訊有資訊滲透壓,可以滲透出一個人的資訊
於是便開始蒐集資料,並發展成大四時的專題題目,
無奈資料太多、時間太少,最後計劃只得暫時擱置一旁,
至於最後的進度嘛.. 只能說很有趣,但是很耗運算資源 @@
之後用零碎的時間做出了一些簡單的應用,
像是每個人的好友反向連結清單,
或是星光幫 (現星光一班) 的好友反向連結排名,
我還為此做了簡單的統計,實驗使用這些資訊的可能。
接著又過了一段不長不短的懶得動期間,
等到想到的時候,又試著加了一些東西上去,
用了比較簡單的方式實做 ranking,結果類似這篇的截圖。
實做這樣排名的方式很簡單,
大致上,就是套用 IR 領域常用的 TFIDF 模型,
加上一些 filtering 動作與神秘參數,調整最後的權重,
最後硬是搞出了一個不大精準的關鍵字清單。
大致上,嗯.. 這個演算法真的很笨,
我想最近應該會再想想,是不是有更好的解法。
希望今年可以解掉它,再拖下去可能就真的會無限擱置了。
[posted by cornguo @ CornGuo's BLOG, of murmurs]
沒有留言:
張貼留言