基于模板匹配的查詢分類研究
發(fā)布時間:2022-09-28 13:08
互聯(lián)網(wǎng)迅猛發(fā)展引起的信息劇增使得互聯(lián)網(wǎng)用戶在檢索信息時需要憑借媒介才能快速、高效、準確的查找到需要的信息,而搜索引擎作為連接用戶和互聯(lián)網(wǎng)的橋梁,使用率是最高的,用戶對搜索引擎的依賴也促使其成為一個重要的人機交互渠道。在高使用率的情況下,越來越多的用戶希望能得到良好的用戶體驗支持:快速、準確地召回結(jié)果,圖形化的交互界面,智能完善查詢語句。近幾年,新事物的不斷興起使得搜索引擎用戶的搜索需求日益多樣化、個性化、精細化,滿足這種多樣精細的需求是搜索引擎的本質(zhì)功能,也是識別用戶真實查找意圖的關鍵步驟。對用戶檢索意圖的識別主要作用在兩方面,一是提取特征,二是對用戶查詢進行分類。傳統(tǒng)的用戶查詢分類方式是預先構(gòu)建好類別體系,但這種方法不具備靈活性、可擴展性比較差。面對上述問題,本文的方法在可擴展性方面做出了優(yōu)化,本文的研究工作旨在識別用戶在搜索引擎進行檢索時的真實需求,通過分析用戶輸入的查詢語句,識別用戶意圖并進行查詢類別判斷。本文使用的數(shù)據(jù)集是搜狗實驗室和360搜索的日志文件,根據(jù)用戶查詢語句的細分類別和附加信息構(gòu)建二分圖,并使用隨機游走算法挖掘具體類別的實體詞典和模板詞典。然后本文基于Hash表加...
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 本文主要工作
第二章 國內(nèi)外研究現(xiàn)狀
2.1 用戶查詢意圖分類
2.1.1 構(gòu)建分類體系相關研究
2.1.2 提取分類特征相關研究
2.2 用戶查詢的主題分類
2.2.1 豐富用戶查詢的方法
2.2.2 半監(jiān)督學習的方法
2.3 用戶查詢附加信息的挖掘
第三章 基于二分圖上隨機游走模型的詞典挖掘
3.1 用戶搜索日志中詞典挖掘描述
3.2 用戶搜索日志中詞典挖掘的整體設計
3.3 實體詞典的挖掘
3.3.1 構(gòu)建挖掘?qū)嶓w詞典的二分圖
3.3.2 基于二分圖上隨機游走挖掘?qū)嶓w詞典
3.4 模板詞典的挖掘
第四章 用戶查詢的類目識別算法設計
4.1 設計思路描述
4.2 基于hash和數(shù)組的Trie樹結(jié)構(gòu)
4.3 用戶查詢類目識別算法設計
4.3.1 Trie樹的構(gòu)建
4.3.2 Trie樹的查找匹配
4.4 時間復雜度分析
第五章 實驗及評價
5.1 實驗數(shù)據(jù)
5.2 詞典庫的建立
5.2.1 實體詞典的挖掘
5.2.2 模板詞典的挖掘
5.3 用戶查詢類別識別
5.4 實驗結(jié)果評估與分析
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]查詢?nèi)罩局胁樵円鈭D的自動識別[J]. 李煜,呂學強,李卓,徐麗萍. 計算機應用與軟件. 2015(11)
[2]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學報. 2013(01)
[3]基于用戶相似度計算的導航類意圖分類研究[J]. 任豪棟,賈年. 西華大學學報(自然科學版). 2011(03)
[4]基于搜索引擎優(yōu)化技術與模板引擎技術的網(wǎng)站優(yōu)化策略[J]. 蔣繼婭,劉彤,劉宇. 情報理論與實踐. 2010(05)
[5]Web檢索查詢意圖分類技術綜述[J]. 張森,王斌. 中文信息學報. 2008(04)
[6]對于搜索引擎優(yōu)化(SEO)的研究[J]. 馬曉玲,吳永和. 情報雜志. 2005(12)
[7]查詢意圖分類技術綜述[J]. 張森,王斌,張磊. 數(shù)字圖書館論壇. 2008 (07)
博士論文
[1]基于主題的查詢意圖識別研究[D]. 宋巍.哈爾濱工業(yè)大學 2013
[2]搜索引擎中命名實體查詢處理相關技術研究[D]. 伍大勇.哈爾濱工業(yè)大學 2012
本文編號:3681718
【文章頁數(shù)】:50 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 研究意義
1.3 本文主要工作
第二章 國內(nèi)外研究現(xiàn)狀
2.1 用戶查詢意圖分類
2.1.1 構(gòu)建分類體系相關研究
2.1.2 提取分類特征相關研究
2.2 用戶查詢的主題分類
2.2.1 豐富用戶查詢的方法
2.2.2 半監(jiān)督學習的方法
2.3 用戶查詢附加信息的挖掘
第三章 基于二分圖上隨機游走模型的詞典挖掘
3.1 用戶搜索日志中詞典挖掘描述
3.2 用戶搜索日志中詞典挖掘的整體設計
3.3 實體詞典的挖掘
3.3.1 構(gòu)建挖掘?qū)嶓w詞典的二分圖
3.3.2 基于二分圖上隨機游走挖掘?qū)嶓w詞典
3.4 模板詞典的挖掘
第四章 用戶查詢的類目識別算法設計
4.1 設計思路描述
4.2 基于hash和數(shù)組的Trie樹結(jié)構(gòu)
4.3 用戶查詢類目識別算法設計
4.3.1 Trie樹的構(gòu)建
4.3.2 Trie樹的查找匹配
4.4 時間復雜度分析
第五章 實驗及評價
5.1 實驗數(shù)據(jù)
5.2 詞典庫的建立
5.2.1 實體詞典的挖掘
5.2.2 模板詞典的挖掘
5.3 用戶查詢類別識別
5.4 實驗結(jié)果評估與分析
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]查詢?nèi)罩局胁樵円鈭D的自動識別[J]. 李煜,呂學強,李卓,徐麗萍. 計算機應用與軟件. 2015(11)
[2]查詢意圖研究綜述[J]. 陸偉,周紅霞,張曉娟. 中國圖書館學報. 2013(01)
[3]基于用戶相似度計算的導航類意圖分類研究[J]. 任豪棟,賈年. 西華大學學報(自然科學版). 2011(03)
[4]基于搜索引擎優(yōu)化技術與模板引擎技術的網(wǎng)站優(yōu)化策略[J]. 蔣繼婭,劉彤,劉宇. 情報理論與實踐. 2010(05)
[5]Web檢索查詢意圖分類技術綜述[J]. 張森,王斌. 中文信息學報. 2008(04)
[6]對于搜索引擎優(yōu)化(SEO)的研究[J]. 馬曉玲,吳永和. 情報雜志. 2005(12)
[7]查詢意圖分類技術綜述[J]. 張森,王斌,張磊. 數(shù)字圖書館論壇. 2008 (07)
博士論文
[1]基于主題的查詢意圖識別研究[D]. 宋巍.哈爾濱工業(yè)大學 2013
[2]搜索引擎中命名實體查詢處理相關技術研究[D]. 伍大勇.哈爾濱工業(yè)大學 2012
本文編號:3681718
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3681718.html
最近更新
教材專著