網(wǎng)絡(luò)用戶查詢意圖分析
本文關(guān)鍵詞:網(wǎng)絡(luò)用戶查詢意圖分析 出處:《北京工業(yè)大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 搜索引擎 查詢意圖 查詢分類 分類特征
【摘要】:自互聯(lián)網(wǎng)出現(xiàn)以來,網(wǎng)絡(luò)信息每天都在快速增加這些信息既包括傳統(tǒng)形式的網(wǎng)頁內(nèi)容電子文檔以及圖片視頻音頻等多媒體文件,也包括現(xiàn)在廣泛流行的微博社交網(wǎng)站移動應(yīng)用軟件APP等,它們廣泛地存在于各種網(wǎng)絡(luò)論壇個人郵件Blog以及社交網(wǎng)絡(luò)賬戶手機等的應(yīng)用軟件中用戶想要在如此浩瀚而又如此多樣化的網(wǎng)絡(luò)資源中準(zhǔn)確地找到能滿足自己需求的信息越來越困難這給現(xiàn)代的搜索引擎的提出了挑戰(zhàn):如何能準(zhǔn)確地預(yù)測此時此地用戶提交的查詢詞背后的潛在意圖 用戶的查詢目標(biāo)在各個查詢下有各自不同的含義,需要根據(jù)各個用戶當(dāng)時的需求返回相應(yīng)的結(jié)果,而不是僅僅根據(jù)用戶提交的查詢詞返回統(tǒng)一的結(jié)果如何能準(zhǔn)確地預(yù)測此時此地用戶提交的查詢詞背后的潛在意圖這是現(xiàn)代的搜索引擎新的關(guān)注點在前期對網(wǎng)絡(luò)用戶查詢意圖識別的開拓性研究中,主要是進行了小范圍的人工研究本課題提出了基于分類的自動識別網(wǎng)絡(luò)用戶的查詢意圖針對此問題,開展了以下工作: 1.基于Broder關(guān)于網(wǎng)絡(luò)用戶的查詢意圖的分類體系,同時考慮到導(dǎo)航類查詢和事務(wù)類查詢的查詢行為類似,都需要先導(dǎo)航到某一網(wǎng)站,再在此網(wǎng)站上進行活動,且導(dǎo)航類和事務(wù)類的查詢分類特征有很多相似之處,而與信息類的查詢特征區(qū)別較大因此,將查詢意圖分為信息類查詢和非信息類查詢兩類 2.為了和搜索引擎更好地結(jié)合,提出了基于機器學(xué)習(xí)的分類方法由于不同的分類算法只能應(yīng)用于特定的應(yīng)用場景所以,鑒于互聯(lián)網(wǎng)的海量數(shù)據(jù),選擇了支持向量機SVM分類算法 3.實驗數(shù)據(jù)集采用了來自真實的網(wǎng)絡(luò)搜索引擎日志記錄為了保證實驗的實際意義,選擇了AOL網(wǎng)站3個月的日志信息,達(dá)到200萬條查詢,且經(jīng)過人工標(biāo)注的數(shù)據(jù)量也比較大,達(dá)到1935條典型的用戶查詢 4.選取適當(dāng)?shù)姆诸愄卣鳛榱颂崛∮行胰娴姆诸愄卣鳎粌H需要網(wǎng)絡(luò)用戶之前的搜索日志提供的有效特征,如用戶的點擊特征nCS nRS以及點擊結(jié)果的排名中位數(shù)mRank,還需要提供更多的信息來解決以前未出現(xiàn)過的查詢詞通過分析用戶使用搜索引擎進行查詢的行為,提出了基于session的平均查詢會話數(shù)AvgQuery作為一個特征,該特征具有很好的區(qū)別性另外,查詢詞詞項長度nTerms也作為反映查詢詞自身的特征被列入對這些分類特征在實驗數(shù)據(jù)集上進行了統(tǒng)計分析,有些是區(qū)別性很明顯,但仍有些在坐標(biāo)圖上的區(qū)別不太明顯,,表明這些特征可能是線性不可分的 5.采用信息檢索領(lǐng)域常用的查準(zhǔn)率和召回率指標(biāo)對查詢意圖的分類效果進行評價考慮到信息類和非信息類分布的不均勻性,為了進行客觀的評價,本文增加了F值對分類結(jié)果進行評價在數(shù)據(jù)集上的實驗結(jié)果表明通過結(jié)合查詢的多個特征有助于識別查詢意圖,在人工標(biāo)注的測試集中對查詢意圖分類的正確率達(dá)到80%
[Abstract]:Since the advent of the Internet, the network information every day in the rapid increase of the information includes not only the traditional form of web content of electronic documents and pictures of audio and video and other multimedia files, including the now popular social networking sites micro-blog mobile application software such as APP, the user application software which is widely used in all kinds of Internet forums and social networking accounts personal mail Blog the mobile phone is so vast and want in such a variety of cyber source to accurately find the information they need to meet more and more difficult for the modern search engine challenge: how to accurately predict the potential intentions behind here the user submits a query word
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3;TP391.41
【相似文獻】
相關(guān)期刊論文 前10條
1 陸偉;周紅霞;張曉娟;;查詢意圖研究綜述[J];中國圖書館學(xué)報;2013年01期
2 張曉娟;陸偉;;利用查詢重構(gòu)識別查詢意圖[J];現(xiàn)代圖書情報技術(shù);2013年01期
3 江雪;孫樂;;用戶查詢意圖切分的研究[J];計算機學(xué)報;2013年03期
4 白露;郭嘉豐;曹雷;程學(xué)旗;;基于查詢意圖的長尾查詢推薦[J];計算機學(xué)報;2013年03期
5 周之誠;;基于查詢意圖聚類的實時搜索建議[J];現(xiàn)代圖書情報技術(shù);2011年02期
6 唐靜笑;呂學(xué)強;柳成洋;李涵;;用戶查詢意圖的層次化識別方法[J];現(xiàn)代圖書情報技術(shù);2014年01期
7 文軍,文貴華,丁月華;面向查詢意圖的搜索引擎設(shè)計與實現(xiàn)[J];計算機應(yīng)用研究;2002年10期
8 張美珍;王治瑩;;基于用戶查詢意圖的搜索排序算法[J];天津理工大學(xué)學(xué)報;2012年03期
9 伍大勇;趙世奇;劉挺;張宇;;融合多類特征的Web查詢意圖識別[J];模式識別與人工智能;2012年03期
10 吳曉暉;宋萍萍;張榮欣;;有無查詢意圖的分類與實現(xiàn)架構(gòu)模型研究[J];情報科學(xué);2009年12期
相關(guān)會議論文 前3條
1 王俞霖;孫樂;黃云平;李文波;;基于規(guī)則和類型還原的用戶查詢意圖識別[A];中國計算機語言學(xué)研究前沿進展(2007-2009)[C];2009年
2 高鶯;沈潔;陳滄;劉春陽;葉君峰;;一種基于排序?qū)W習(xí)的查詢意圖預(yù)測算法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
3 華松;洪宇;張劍峰;姚建民;朱巧明;;基于相關(guān)子主題消解的悖向重排序方法研究[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
相關(guān)博士學(xué)位論文 前1條
1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前7條
1 張恒慶;網(wǎng)絡(luò)用戶查詢意圖分析[D];北京工業(yè)大學(xué);2014年
2 王井豐;基于百度百科的查詢意圖分類[D];吉林大學(xué);2013年
3 張苗;基于用戶查詢意圖的信息檢索技術(shù)研究與實現(xiàn)方法[D];湖南大學(xué);2013年
4 胡剛;百科知識與統(tǒng)計方法結(jié)合的查詢意圖分類[D];哈爾濱工業(yè)大學(xué);2011年
5 陳杰;基于Web檢索的查詢意圖分類研究[D];華南理工大學(xué);2011年
6 張培英;基于用戶行為的用戶查詢意圖分析方法及研究[D];西華大學(xué);2011年
7 華松;檢索重排序和文獻權(quán)威度判定方法研究[D];蘇州大學(xué);2012年
本文編號:1346195
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1346195.html