基于搜索引擎日志的查詢意圖分類(lèi)研究
本文關(guān)鍵詞: 信息搜索 分類(lèi)體系 查詢意圖分類(lèi) 分類(lèi)特征 出處:《西南大學(xué)》2016年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:在信息資源呈爆發(fā)式增長(zhǎng)的二十一世紀(jì),浩瀚的網(wǎng)絡(luò)資源給用戶提供了豐富多樣的上網(wǎng)體驗(yàn)。但是,對(duì)不同的用戶來(lái)說(shuō),要從如此多而雜的網(wǎng)絡(luò)資源中高效找到能滿足自己需求的信息,就變得越來(lái)越困難;對(duì)信息服務(wù)者來(lái)說(shuō),如何準(zhǔn)確且快速地獲取所需信息,是其不斷努力的方向。搜索引擎作為用戶獲取相關(guān)信息的重要工具,能幫助用戶快速定位到互聯(lián)網(wǎng)資源,并能直接返回與其信息需求相關(guān)的文檔。但是,當(dāng)前的搜索引擎的搜索模式大都是基于關(guān)鍵字匹配的,加之用戶向搜索引擎輸入的簡(jiǎn)短查詢存在模糊性和歧義性,使得用戶的查詢意圖在搜索引擎中不能被有效地識(shí)別。為了有效識(shí)別用戶的查詢意圖,現(xiàn)有的相關(guān)工作主要包含如何構(gòu)建分類(lèi)體系以及如何在給定分類(lèi)體系下進(jìn)行查詢意圖分類(lèi)。本文基于搜索引擎查詢?nèi)罩拘畔?對(duì)Broder分類(lèi)體系進(jìn)行了細(xì)化,并著重研究分類(lèi)特征的分類(lèi)性能。首先,考慮到搜索引擎中呈現(xiàn)的查詢信息特點(diǎn),對(duì)Broder關(guān)于用戶查詢意圖分類(lèi)體系中太泛化的信息類(lèi)和事務(wù)類(lèi)進(jìn)行了細(xì)分與重新定義,利用K-means聚類(lèi),獲得了新的查詢意圖分類(lèi)體系包括:導(dǎo)航類(lèi)、咨詢類(lèi)、資源類(lèi)、服務(wù)類(lèi)、熱點(diǎn)類(lèi)。其次,為了從用戶搜索行為中推斷出用戶查詢意圖,本文選取了查詢?cè)~信息(Qi)、點(diǎn)擊URL信息(Cu)和URL點(diǎn)擊排行(Cr)作為查詢意圖分類(lèi)特征,并根據(jù)這三類(lèi)特征所構(gòu)成的特征向量來(lái)判斷用戶查詢具體屬于分類(lèi)體系中的哪一個(gè)類(lèi)別。鑒于用戶查詢數(shù)據(jù)自身的特點(diǎn),采用SVM分類(lèi)器LIBSVM,利用提取的三類(lèi)特征對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練獲得SVM分類(lèi)模型。最后,由于各類(lèi)分布的不均勻性,在采用信息檢索領(lǐng)域常用的準(zhǔn)確率和召回率指標(biāo)對(duì)查詢意圖的分類(lèi)效果進(jìn)行評(píng)價(jià)的同時(shí),為了使評(píng)價(jià)結(jié)果更加客觀,增加了評(píng)價(jià)指標(biāo)F值。在實(shí)驗(yàn)中,主要對(duì)本文提出方法的整體分類(lèi)效果進(jìn)行分析,另外還探討了單層面的特征對(duì)分類(lèi)效果的影響。在利用測(cè)試集數(shù)據(jù)驗(yàn)證分類(lèi)效果的評(píng)估實(shí)驗(yàn)中,取得了較高的準(zhǔn)確率和召回率,且F值均大于0.8,說(shuō)明本文方法在識(shí)別用戶查詢意圖方面具有可行性。
[Abstract]:In 21th century, when the information resources were exploding, the vast amount of network resources provided users with rich and diverse online experience. However, for different users, It is becoming increasingly difficult to find information that meets your needs efficiently from so many and diverse network resources; for information service providers, how to get the required information accurately and quickly, Search engine, as an important tool for users to obtain relevant information, can help users quickly locate Internet resources and return documents related to their information requirements directly. The search mode of the current search engine is mostly based on keyword matching, and the short query input by the user to the search engine is fuzzy and ambiguous. In order to effectively identify the user's query intention, the user's intention can not be effectively recognized in the search engine. The existing related work mainly includes how to construct the classification system and how to classify the query intention under the given classification system. Based on the search engine query log information, this paper refines the Broder classification system. First of all, considering the characteristics of query information presented in search engine, the information classes and transaction classes which are too generalized in the classification system of user's query intention in Broder are subdivided and redefined. Using K-means clustering, a new classification system of query intention is obtained, which includes: navigation class, consultation class, resource class, service class, hot spot class. Secondly, in order to infer the user's query intention from the user's search behavior, In this paper, we select the query word information, URL information and URL click rank as the classification feature of the query intention. According to the feature vectors of these three features, the user query belongs to which kind of classification system. In view of the characteristics of the user query data, The SVM classifier LIBSVM is used to train the training data set to obtain the SVM classification model by using the extracted three kinds of features. In order to make the evaluation result more objective, the F value of evaluation index is increased, while the accuracy and recall index commonly used in information retrieval field are used to evaluate the classification effect of query intention. This paper mainly analyzes the overall classification effect of the proposed method, and also discusses the influence of single-level features on the classification effect. In the experiment to verify the classification effect by using test set data, a high accuracy rate and recall rate are obtained. The F values are all greater than 0.8, which shows that this method is feasible in identifying the user's query intention.
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國(guó)圖書(shū)館學(xué)報(bào);2013年01期
2 張曉娟;陸偉;;利用查詢重構(gòu)識(shí)別查詢意圖[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2013年01期
3 江雪;孫樂(lè);;用戶查詢意圖切分的研究[J];計(jì)算機(jī)學(xué)報(bào);2013年03期
4 白露;郭嘉豐;曹雷;程學(xué)旗;;基于查詢意圖的長(zhǎng)尾查詢推薦[J];計(jì)算機(jī)學(xué)報(bào);2013年03期
5 周之誠(chéng);;基于查詢意圖聚類(lèi)的實(shí)時(shí)搜索建議[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2011年02期
6 唐靜笑;呂學(xué)強(qiáng);柳成洋;李涵;;用戶查詢意圖的層次化識(shí)別方法[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2014年01期
7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2002年10期
8 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學(xué)學(xué)報(bào);2012年03期
9 伍大勇;趙世奇;劉挺;張宇;;融合多類(lèi)特征的Web查詢意圖識(shí)別[J];模式識(shí)別與人工智能;2012年03期
10 吳曉暉;宋萍萍;張榮欣;;有無(wú)查詢意圖的分類(lèi)與實(shí)現(xiàn)架構(gòu)模型研究[J];情報(bào)科學(xué);2009年12期
相關(guān)會(huì)議論文 前3條
1 王俞霖;孫樂(lè);黃云平;李文波;;基于規(guī)則和類(lèi)型還原的用戶查詢意圖識(shí)別[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 高鶯;沈潔;陳滄;劉春陽(yáng);葉君峰;;一種基于排序?qū)W習(xí)的查詢意圖預(yù)測(cè)算法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關(guān)子主題消解的悖向重排序方法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)博士學(xué)位論文 前1條
1 宋巍;基于主題的查詢意圖識(shí)別研究[D];哈爾濱工業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前9條
1 張楊浩;基于搜索引擎日志的查詢意圖分類(lèi)研究[D];西南大學(xué);2016年
2 張恒慶;網(wǎng)絡(luò)用戶查詢意圖分析[D];北京工業(yè)大學(xué);2014年
3 王井豐;基于百度百科的查詢意圖分類(lèi)[D];吉林大學(xué);2013年
4 張苗;基于用戶查詢意圖的信息檢索技術(shù)研究與實(shí)現(xiàn)方法[D];湖南大學(xué);2013年
5 胡剛;百科知識(shí)與統(tǒng)計(jì)方法結(jié)合的查詢意圖分類(lèi)[D];哈爾濱工業(yè)大學(xué);2011年
6 陳杰;基于Web檢索的查詢意圖分類(lèi)研究[D];華南理工大學(xué);2011年
7 蔡桂秀;基于Markov網(wǎng)絡(luò)團(tuán)的查詢意圖識(shí)別[D];江西師范大學(xué);2012年
8 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學(xué);2011年
9 華松;檢索重排序和文獻(xiàn)權(quán)威度判定方法研究[D];蘇州大學(xué);2012年
,本文編號(hào):1554956
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1554956.html