1.字符串匹配的分詞方法
2.詞義分詞法。
3.統計分此法。
字符串匹配的分詞方法
也是常用的分詞法,百度就是用此種分詞。字符串匹配的分詞方法,他又分為3中分詞方法。
1.正向最大匹配法
什么意思呢?就是把一個(gè)詞從左至右來(lái)分詞。
舉個(gè)例子。
“不知道你在說(shuō)什么”
這句話(huà)采用正向最大匹配法是如何分的呢?“不知道,你,在,說(shuō)什么”與正向最大匹配法相對應的是反向最大匹配發(fā)。這是第二種分詞方法。
2.反向最大匹配法
來(lái)分上面我舉的例子是如何分的呢 ?"不知道你在說(shuō)什么"。反向最大匹配法來(lái)分上面這段是如何分的。“不,知道,你在,說(shuō),什么”,這個(gè)就分的比較多了,反向最大匹配法就是從右至左。
3.就是最短路徑分詞法。
這個(gè)什么理解呢 ,就是說(shuō) 我一段話(huà)里面要求切出的詞數是最少的。還是上面哪句話(huà)“不知道你在說(shuō)什么”最短路徑分詞法就是指,我把上面哪句話(huà)分成的詞要是最少的。不知道,你在,說(shuō)什么,這就是最短路徑分詞法,分出來(lái)就只有3個(gè)詞了。
好了,當然還有上面三種可以相互結合組成一些分詞方法。比如正向最大匹配法和反向最大匹配法組合起來(lái)就可以叫做雙向最大匹配法。
詞義分詞法
這種其實(shí)就是一種機器語(yǔ)音判斷的分詞方法。很簡(jiǎn)單,進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)處理歧義現象來(lái)分詞,這種分詞方法,現在還不成熟。處在測試階段。
統計的分詞方法
這個(gè)很簡(jiǎn)單,就是根據詞組的統計,就會(huì )發(fā)現兩個(gè)相鄰的字出現的頻率最多,那么這個(gè)詞就很重要。就可以作為用戶(hù)提供字符串中的分隔符。這樣來(lái)分詞。比如,“我的,你的,許多的,這里,這一,那里”。等等,這些詞出現的比較多,就從這些詞里面分開(kāi)來(lái)。
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區中山路692號辰熙星海國際2317 客服電話(huà):0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明