一種基于漢字筆順特征的關(guān)鍵詞變體匹配方法
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1原始短消息處理流程圖
如圖1所示,本文提出的關(guān)鍵詞變體匹配方法主要包括兩個(gè)子過程:合并短消息中包含的拆分字和關(guān)鍵詞變體匹配。2.1合并拆分字
圖2左中右拆分字合并示意圖
如圖2所示,以短消息“金月月鳥娛樂城”為例,展示了左中右結(jié)構(gòu)拆分字的檢測(cè)與合并過程。由于是左中右結(jié)構(gòu),故參與合并的漢字有3個(gè)。圖中左側(cè)使用長(zhǎng)度為3的滑動(dòng)窗口窮舉了短消息中任意3個(gè)相鄰漢字組合的可能,其中每一行是一種組合的可能性。針對(duì)每一行,都需要檢測(cè)窗口中的3個(gè)漢字是否能夠合并成....
圖3“王古月”和“瑚”的筆順對(duì)比示意圖
如圖4所示,首先將漢字常用的28個(gè)筆畫用01~28進(jìn)行編號(hào),建立漢字筆畫編號(hào)表;然后以每個(gè)關(guān)鍵詞包含的關(guān)鍵字作為索引,關(guān)鍵詞id作為值建立一個(gè)索引表,通過此索引表能夠快速得到每個(gè)關(guān)鍵詞由哪些關(guān)鍵字組成,如查詢關(guān)鍵字“炸”,則能夠快速得到關(guān)鍵詞庫(kù)中包含“炸”的關(guān)鍵詞為“炸金花”和“....
圖5形近字匹配及金字塔匹配法示意圖
圖4關(guān)鍵詞庫(kù)、按字索引關(guān)鍵詞、按頭4筆或末4筆索引形近字示意圖(3)根據(jù)疑似形近字id得到包含這些疑似形近字的關(guān)鍵詞id。如根據(jù)id為1和4疑似形近字得到id為1、3和2的疑似匹配關(guān)鍵詞!皝怼焙汀巴妗蔽床樵兊揭伤菩谓郑瑒t其疑似形近字記為“無”,相應(yīng)的,疑似匹配關(guān)鍵詞記為“無....
本文編號(hào):3936026
本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/3936026.html