2009年7月21日 星期二

Google搜尋的中文辨識能力

  今天需要登入網路銀行查帳,所以用了Google搜尋來找尋「中國信託」,但我有時候是個心急的人,手的速度跟不上腦袋與心靈的速度,一不小心就少打了一個注音,字樣就變成...

  沒錯,我打成了「中國信"禿"」!挖咧...這怎麼樣都找不到吧!但無巧不巧看到Google在中文字體搜尋上有下功夫:「中國信禿」變成建議搜尋「中國信徒」。
  從這單一個案來看,我們可以粗淺分析Google在做文字比對的時候,會將文字拆解開來做比對。首先,四個字被進行拆解,其中「中國」是常用語法,因此輸入中國XX肯定不是為了搜尋「中國」這兩個字,重點應該在於XX;再來,分析「信禿」這個詞。由於網路上面搜尋「信徒」的比例,料想應該大於「信託」這兩個字,因此Google就拿「信徒」來當做解答,與「中國」兩字合併在一起,建議使用者來搜尋。
  這結果是有點可惜的~~因為「中國信徒」實在是屬於小眾的搜尋可能性,我想要的是「中國信託」這個金融相關服務,而非是想要了解或加入某個宗教組織。
  但,還是很高興因為手指的誤會,而了解到Google有為了中文搜尋引擎在嘗試做努力!如果,搜尋結果可以針對【四個字】與【兩個兩個字】提出建議方案,那就太棒了!四個字的那一系列搜尋結果,我想就會是我要的囉! ^_^