基于詞項(xiàng)圖分析的查詢分面挖掘方法
本文關(guān)鍵詞: 查詢分面 用戶意圖 頻繁列表 詞項(xiàng)圖 知識(shí)庫(kù) 社會(huì)媒體 社會(huì)計(jì)算 出處:《計(jì)算機(jī)學(xué)報(bào)》2017年03期 論文類(lèi)型:期刊論文
【摘要】:查詢分面是用于描述查詢某一方面內(nèi)容的一組并列的詞或詞組.現(xiàn)有的查詢分面挖掘方法主要通過(guò)模式挖掘搜索結(jié)果中包含的高頻列表,并利用無(wú)監(jiān)督或有監(jiān)督的方法對(duì)高頻列表進(jìn)行聚類(lèi),最終得到查詢分面.因?yàn)橥ǔ2捎玫乃阉鹘Y(jié)果的數(shù)目有限,這種方法挖掘出的查詢分面及其包含的分面項(xiàng)的覆蓋率不高.針對(duì)這一問(wèn)題,該文提出了一種基于從大規(guī)模網(wǎng)頁(yè)中構(gòu)建的詞項(xiàng)圖的查詢分面挖掘方法.首先基于大規(guī)模網(wǎng)頁(yè)數(shù)據(jù)集構(gòu)建詞項(xiàng)圖,圖中的節(jié)點(diǎn)代表詞項(xiàng),邊代表兩個(gè)詞項(xiàng)的相似性.針對(duì)每個(gè)查詢,從搜索結(jié)果中挖掘出初始分面,然后基于詞項(xiàng)圖對(duì)這些初始查詢分面進(jìn)行擴(kuò)充,找到詞項(xiàng)圖中與初始分面類(lèi)似的候選詞,對(duì)候選詞抽取多種特征,最后利用支持向量機(jī)對(duì)候選詞進(jìn)行分類(lèi),預(yù)測(cè)詞項(xiàng)是否可為擴(kuò)充詞項(xiàng),并將預(yù)測(cè)為正例的詞項(xiàng)擴(kuò)充到分面中.該擴(kuò)充過(guò)程迭代多次直到無(wú)法找到更多分面項(xiàng).實(shí)驗(yàn)表明該方法可有效提高查詢分面的質(zhì)量,尤其是能夠顯著改善分面項(xiàng)的覆蓋率.
[Abstract]:Query partitioning is a set of paratactic words or phrases used to describe a certain aspect of a query. And using unsupervised or supervised methods to cluster high-frequency lists, and finally get the query facets, because the number of commonly used search results is limited, This method does not have a high coverage of the query partitioning and the items it contains. In view of this problem, In this paper, a query face mining method based on the term graph constructed from large scale web pages is proposed. Firstly, a word item graph is constructed based on a large scale web page data set, and the nodes in the graph represent the word item. The edges represent the similarity of the two terms. For each query, the initial face is mined from the search results, then the initial query faces are expanded based on the term graph, and the candidate words similar to the initial face are found in the term graph. Finally, support vector machine (SVM) is used to classify candidate words to predict whether they can be extended. The term items predicted as positive examples are extended to the facets. The extended process iterates many times until no more facets can be found. Experiments show that this method can effectively improve the quality of query partitioning, especially the coverage of partitioning items.
【作者單位】: 中國(guó)人民大學(xué)信息學(xué)院;中國(guó)藝術(shù)科技研究所;中國(guó)人民大學(xué)大數(shù)據(jù)管理與分析方法研究北京市重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金(61502501) 國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目基金(2014CB340403)資助~~
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前2條
1 吳直雄;“’”運(yùn)用混亂亟待規(guī)范[J];中國(guó)出版;1996年12期
2 ;[J];;年期
相關(guān)會(huì)議論文 前2條
1 許錦云;;普通邏輯中的概念應(yīng)改為詞項(xiàng)[A];邏輯今探——中國(guó)邏輯學(xué)會(huì)第五次代表大會(huì)暨學(xué)術(shù)討論會(huì)論文集[C];1996年
2 李永銘;;普通邏輯三問(wèn)[A];1997年邏輯研究專(zhuān)輯[C];1997年
相關(guān)重要報(bào)紙文章 前1條
1 楊錫彭;漢語(yǔ)中的韻律詞[N];語(yǔ)言文字周報(bào);2013年
相關(guān)博士學(xué)位論文 前3條
1 成軍;論詞項(xiàng)的概念指向性[D];西南大學(xué);2010年
2 吳麗英;詞項(xiàng)裝配與合并的最簡(jiǎn)研究[D];上海外國(guó)語(yǔ)大學(xué);2008年
3 李翠英;搭配的動(dòng)態(tài)觀及其應(yīng)用研究[D];蘇州大學(xué);2011年
相關(guān)碩士學(xué)位論文 前5條
1 陳博影;從詞項(xiàng)邏輯的角度判斷“張之江命題”的真?zhèn)蝃D];福建師范大學(xué);2015年
2 洪歡;基于詞重要性的信息檢索圖模型[D];江西師范大學(xué);2015年
3 周?chē)?guó)亮;基于交叉詞項(xiàng)的中文信息檢索方法研究[D];華中師范大學(xué);2016年
4 尹浩傳;基于詞項(xiàng)依賴信息的中文信息檢索方法研究[D];華中師范大學(xué);2014年
5 羅楊;英漢身體部位詞項(xiàng)語(yǔ)義引申的認(rèn)知實(shí)證研究[D];四川外語(yǔ)學(xué)院;2010年
,本文編號(hào):1552899
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1552899.html