基于搜索引擎日志的用戶查詢意圖分類
發(fā)布時間:2021-10-30 11:32
為了搜索引擎能提供高質量檢索,提出了一種查詢意圖自動分類模型。該模型將用戶查詢分為咨詢、學術、資源、服務、導航和熱點6類,建立了一套查詢意圖分類體系;在傳統(tǒng)搜索引擎系統(tǒng)中加入查詢意圖處理模塊,通過對用戶查詢意圖的查詢詞信息(Qi)、點擊URL信息(Cu)和基于某分類的URL點擊排序(Cr)3個分類特征進行統(tǒng)計分析,提取其特征向量,進而推斷出用戶查詢意圖。通過在Sogou數據集上的試驗表明,各類信息的查詢分類效果F值均大于0.8,取得了較好的分類效果。
【文章來源】:指揮信息系統(tǒng)與技術. 2019,10(02)
【文章頁數】:6 頁
【部分圖文】:
圖1搜索引擎系統(tǒng)結構示意圖
處理模塊進行相關處理。查詢意圖分類是一個篩選、預處理、訓練和最終分類的過程。Web文本分類流程如圖2所示,包括分類器訓練和查詢意圖分類2個過程。圖2Web文本分類流程查詢意圖分類是一個通過具體指導進行學習的過程。設有查詢意圖分類體系C={c1,c2,…,cm},對于用戶的每個查詢是由k個特征分量(di)和一個類別目標分量ci組成的向量,即qi=(d1,d2,…,dk,ci),每個分量di對應一個抽取的分類特征,根據已標注類別的查詢訓練數據集Q={q1,q2,…,qn}進行訓練學習。最終的分類器f便是根據這些特征選用某種機器學習算法獲得的。當用戶輸入一個查詢q時,選取同樣的特征提取方式,用k維特征向量表示,使用分類器f來判斷查詢q屬于C中意圖類別ci,表示為f:{q}→C。結合該方法中查詢特征向量具有一定維度的情況,本文采用SVM和最小距離分類法來完成學習分類器。1.3構建分類體系本文分類體系根據Sogou搜索引擎日志實際情況,對Broder分類體系進行細化,在確保該分類體系完備性同時,使得該分類體系具有更優(yōu)的獨立不相關性。保留導航類,對信息類和事務類進行細分,分類體系最終包括如下6類:1)咨詢類:涉及用戶想得到的建議、想法或解答等知識性查詢,如用戶通過搜索引擎輸入關鍵詞“什么是Broder分類?”,希望獲得Broder分類的知識。
com)的中文分類網站目錄及DMOZ目錄(www.dmoz.org)來識別這些URL的分類。分類目錄(classifieddirectory)收錄了網站名稱、網站地址和相關介紹等信息,是幫助用戶在網絡中尋獲信息的主題目錄。一般地,只有網站或網站中重要版塊的URL才會放到分類目錄,即分類目錄收錄的URL往往層次較少。為了解決該問題,本文采用前綴匹配方式,每次對URL尾部進行一些刪除處理。分類目錄查詢分類功能結構如圖3所示。圖3分類目錄查詢分類功能結構圖3中,查詢分類過程為:先將完整的待分類URL與分類目錄中URL進行匹配,如果該URL完全匹配,則直接使用分類目錄中對應的主題進行類別識別;如無法匹配,則對待分類URL后綴進行刪減,刪掉URL串中最后一個“/”后內容,再與分類目錄中URL匹配;反復操作,直至在分類目錄中獲得匹配,或者該URL刪掉所有“/”后在分類目錄中仍無匹配記錄。1.4.3URL點擊排行1個查詢可能點擊多個URL,1個URL也可能被多個查詢點擊,這些行為均記錄在查詢日志中。多數情況下,用戶會在獲得滿意結果時終止點擊,因此最靠后的點擊最接近用戶的真實意圖。除最后一次點擊的URL外,很難確定曾經點擊的URL接近用戶真實意圖的比重,然而可以確定的是越接近查詢意圖的URL獲得的點擊次數越多。假設用戶共進行了n次點擊,本文按如下方法進行分類比重的劃分:前n-1次點擊的UR
【參考文獻】:
期刊論文
[1]基于維基百科的短文本相關度計算[J]. 荊琪,段利國,李愛萍,趙謙. 計算機工程. 2018(02)
[2]基于網絡日志的用戶查詢推薦[J]. 王靜. 河南科技. 2016(07)
[3]搜索引擎廣告用戶行為預測與特征分析[J]. 王海雷,賀一駿,俞學寧,張銘. 計算機應用研究. 2013(05)
[4]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學報. 2013(01)
[5]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計算機研究與發(fā)展. 2012(06)
[6]基于用戶查詢意圖識別的Web搜索優(yōu)化模型[J]. 楊藝,周元. 計算機科學. 2012(01)
博士論文
[1]查詢意圖自動分類與分析[D]. 張曉娟.武漢大學 2014
碩士論文
[1]基于搜索引擎日志的查詢意圖分類研究[D]. 張楊浩.西南大學 2016
本文編號:3466652
【文章來源】:指揮信息系統(tǒng)與技術. 2019,10(02)
【文章頁數】:6 頁
【部分圖文】:
圖1搜索引擎系統(tǒng)結構示意圖
處理模塊進行相關處理。查詢意圖分類是一個篩選、預處理、訓練和最終分類的過程。Web文本分類流程如圖2所示,包括分類器訓練和查詢意圖分類2個過程。圖2Web文本分類流程查詢意圖分類是一個通過具體指導進行學習的過程。設有查詢意圖分類體系C={c1,c2,…,cm},對于用戶的每個查詢是由k個特征分量(di)和一個類別目標分量ci組成的向量,即qi=(d1,d2,…,dk,ci),每個分量di對應一個抽取的分類特征,根據已標注類別的查詢訓練數據集Q={q1,q2,…,qn}進行訓練學習。最終的分類器f便是根據這些特征選用某種機器學習算法獲得的。當用戶輸入一個查詢q時,選取同樣的特征提取方式,用k維特征向量表示,使用分類器f來判斷查詢q屬于C中意圖類別ci,表示為f:{q}→C。結合該方法中查詢特征向量具有一定維度的情況,本文采用SVM和最小距離分類法來完成學習分類器。1.3構建分類體系本文分類體系根據Sogou搜索引擎日志實際情況,對Broder分類體系進行細化,在確保該分類體系完備性同時,使得該分類體系具有更優(yōu)的獨立不相關性。保留導航類,對信息類和事務類進行細分,分類體系最終包括如下6類:1)咨詢類:涉及用戶想得到的建議、想法或解答等知識性查詢,如用戶通過搜索引擎輸入關鍵詞“什么是Broder分類?”,希望獲得Broder分類的知識。
com)的中文分類網站目錄及DMOZ目錄(www.dmoz.org)來識別這些URL的分類。分類目錄(classifieddirectory)收錄了網站名稱、網站地址和相關介紹等信息,是幫助用戶在網絡中尋獲信息的主題目錄。一般地,只有網站或網站中重要版塊的URL才會放到分類目錄,即分類目錄收錄的URL往往層次較少。為了解決該問題,本文采用前綴匹配方式,每次對URL尾部進行一些刪除處理。分類目錄查詢分類功能結構如圖3所示。圖3分類目錄查詢分類功能結構圖3中,查詢分類過程為:先將完整的待分類URL與分類目錄中URL進行匹配,如果該URL完全匹配,則直接使用分類目錄中對應的主題進行類別識別;如無法匹配,則對待分類URL后綴進行刪減,刪掉URL串中最后一個“/”后內容,再與分類目錄中URL匹配;反復操作,直至在分類目錄中獲得匹配,或者該URL刪掉所有“/”后在分類目錄中仍無匹配記錄。1.4.3URL點擊排行1個查詢可能點擊多個URL,1個URL也可能被多個查詢點擊,這些行為均記錄在查詢日志中。多數情況下,用戶會在獲得滿意結果時終止點擊,因此最靠后的點擊最接近用戶的真實意圖。除最后一次點擊的URL外,很難確定曾經點擊的URL接近用戶真實意圖的比重,然而可以確定的是越接近查詢意圖的URL獲得的點擊次數越多。假設用戶共進行了n次點擊,本文按如下方法進行分類比重的劃分:前n-1次點擊的UR
【參考文獻】:
期刊論文
[1]基于維基百科的短文本相關度計算[J]. 荊琪,段利國,李愛萍,趙謙. 計算機工程. 2018(02)
[2]基于網絡日志的用戶查詢推薦[J]. 王靜. 河南科技. 2016(07)
[3]搜索引擎廣告用戶行為預測與特征分析[J]. 王海雷,賀一駿,俞學寧,張銘. 計算機應用研究. 2013(05)
[4]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學報. 2013(01)
[5]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計算機研究與發(fā)展. 2012(06)
[6]基于用戶查詢意圖識別的Web搜索優(yōu)化模型[J]. 楊藝,周元. 計算機科學. 2012(01)
博士論文
[1]查詢意圖自動分類與分析[D]. 張曉娟.武漢大學 2014
碩士論文
[1]基于搜索引擎日志的查詢意圖分類研究[D]. 張楊浩.西南大學 2016
本文編號:3466652
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3466652.html
教材專著