是的,這個暑假我除了重修之外,
還參與了學校的大學生暑期學習計畫,
我選擇的是林川傑老師,和自然語言相關的題目,
內容大致上是以 HowNet、WordNet 為主,
而寫的程式也大多在字串比對間繞來繞去。
老師在一開始的時候就說,HN 這個資料庫不是很好用,
寫程式處理後,跑出來的結果可能會是 garbage data。
起初還不覺得產生的資料有多糟,
但今天修正程式之後,才發現問題真的很多。
是這樣的,我今天在改寫程式的時候,
發現我上一個 stage 產生的資料有誤,
回頭檢查程式碼,發現是因為在中文字串 hashing 時,
有些資料不知為何 (大概是我 code 沒寫好吧.. ||),
存到了不正確的位置,在 merge 時就..
總之,就是產生了一些應該在一起,但卻沒在一起的資料群。
所以我就 de 了下 bug,最後產生的結果總算正常了。
只能說,不改則已,一改驚人啊 (遠目)
改程式之前,產生的最大群組數量大概是二十來個,
感覺疑似很正常,但事實上是錯的,
因為有些群組被切割,或是憑空消失了。
修改後 merge 出的最大的群組,成員高達 600 個,
而它們的定義都叫做「中文姓氏」,
其他還有應該仔細定義的字詞,
最後都只用概括的方式描述,真是黯然消魂啊 (嘆)
結果就是「外套」跟「兜肚」是同樣一組,
「星球大戰」不知道為什麼,
跟「國家導彈防禦系統」放在一起.. ||
我慢慢能體會,老師說的「不好用」是什麼意思了 ▔▽▔||
於是,該做的第四個程式還沒開始,
就已經有不想動的感覺了 (默)
有種八點檔劇情直轉急下的感覺,糟糕。
[posted by cornguo @ CornGuo's BLOG]
沒有留言:
張貼留言