2008/10/19

[Computers, 雜七雜八] 關於那個 project

是的,我是指上次放出來的那個夭壽準關鍵字
因為我太無聊了,所以稍稍介紹一下程式運作方式。


首先呢,就是蒐集一大票描述資訊,
它們最初看起來可能會是這樣。

20081019_wff_fig01

有些人可能以為,我接著把資料拿去斷詞了,
但事實上,蒐集到的資訊沒有斷詞的必要,
我只把句子全部斷開,變成一個字一個字的形狀,
看起來會像是下圖這樣的形狀。

20081019_wff_fig02

聰明的你應該會發現,裡面有些文字是無用的,
利用一些簡單的字元特性,我們可以很快地清除符號,
清理完之後,資料會變成像下圖這樣。

20081019_wff_fig03

看到這邊,我想不會寫程式的人該也知道,
只要把看到最多次的字詞挑出來,就會是關鍵字了啊!

20081019_wff_fig04

至於該怎麼挑,有很多方式,
有些可以直接抽取出有用的 substring,
在此要說明的是,圖中的資料是人工挑選過的,
原始輸出資料並沒有這麼乾淨。

20081019_wff_fig05

嗯,大概就是這樣。


接下來可以做什麼呢,到底?



[posted by cornguo @ CornGuo's BLOG, of murmurs]

沒有留言: