CornGuo's Blog @ Blogspot: [Computers, 雜七雜八] 關於那個 project

2008/10/19

是的，我是指上次放出來的那個夭壽準關鍵字，
因為我太無聊了，所以稍稍介紹一下程式運作方式。

首先呢，就是蒐集一大票描述資訊，
它們最初看起來可能會是這樣。

有些人可能以為，我接著把資料拿去斷詞了，
但事實上，蒐集到的資訊沒有斷詞的必要，
我只把句子全部斷開，變成一個字一個字的形狀，
看起來會像是下圖這樣的形狀。

聰明的你應該會發現，裡面有些文字是無用的，
利用一些簡單的字元特性，我們可以很快地清除符號，
清理完之後，資料會變成像下圖這樣。

看到這邊，我想不會寫程式的人該也知道，
只要把看到最多次的字詞挑出來，就會是關鍵字了啊!

至於該怎麼挑，有很多方式，
有些可以直接抽取出有用的 substring，
在此要說明的是，圖中的資料是人工挑選過的，
原始輸出資料並沒有這麼乾淨。

嗯，大概就是這樣。

接下來可以做什麼呢，到底?

[posted by cornguo @ CornGuo's BLOG, of murmurs]

CornGuo's Blog @ Blogspot