基于主題相似度的排序?qū)W習算法研究
發(fā)布時間:2017-05-15 10:23
本文關鍵詞:基于主題相似度的排序?qū)W習算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:搜索引擎的出現(xiàn)使人們獲取信息的效率大大提高,怎樣從海量的搜索結果中將用戶最關心、最需要的信息排在返回列表的最前面,即搜索結果的排序問題是信息檢索領域研究的關鍵問題之一,尤其是對搜索結果中位置靠前的頁面進行排序優(yōu)化,具有相當重要的研究意義和實踐價值。排序?qū)W習,就是利用機器學習方法來解決搜索排序問題,其在信息檢索、推薦系統(tǒng)、自動問答等方面有著廣泛應用,F(xiàn)有排序?qū)W習方法僅考慮了查詢與頁面之間的相關度與重要度,沒有考慮頁面彼此之間的相似度信息。本文在現(xiàn)有的Listwise類排序?qū)W習方法的研究基礎上,提出利用文檔之間的主題相似度進行加權投票的方法,進一步提高了模型的排序準確性。本文的主要研究工作如下:1)本文提出了一種利用文檔之間相似度來調(diào)整排序結果列表的方法,使文檔的評分方式由僅依靠重要度和相關度評分,擴展為可以通過各文檔的相似度進行加權投票。該方法充分利用了待排文檔之間的內(nèi)在關聯(lián)與文本特征,以更全面的角度綜合地考慮了搜索排序中文檔的重要度、相關度與相似度問題,從而得到更合理的排序結果。2)本文提出的主題相似度模型,從特征詞與主題分別兩個角度來計算文本間的相似度,綜合了兩種模型各自的優(yōu)勢,不僅考慮了文檔詞級別的相似還考慮了文檔之間的主題分布差異,提高了判別效果。3)實現(xiàn)了基于主題相似度的ListSimi算法。實驗證明,在OHSUMED和TD2003數(shù)據(jù)集上ListSimi算法能夠顯著的提升現(xiàn)有排序?qū)W習算法的準確度,尤其是對排序位置靠前的文檔,準確度提升非常明顯。對于一個商業(yè)搜索引擎,搜索結果列表中靠前的文檔檢索準確度直接影響著用戶的搜索體驗與滿意程度,這說明本文具有相當重要的研究意義與實踐價值。
【關鍵詞】:信息檢索 排序?qū)W習 主題模型 文本相似度
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3;TP181
【目錄】:
- 摘要6-7
- ABSTRACT7-10
- 第一章 緒論10-15
- 1.1 研究背景10
- 1.2 國內(nèi)外相關研究發(fā)展現(xiàn)狀10-13
- 1.2.1 信息檢索模型發(fā)展概況11-12
- 1.2.2 排序?qū)W習研究現(xiàn)狀12-13
- 1.3 本文主要工作與組織13-15
- 第二章 搜索排序相關方法15-30
- 2.1 引言15
- 2.2 基于鏈接的排序方法15-21
- 2.2.1 PageRank算法15-18
- 2.2.2 HITS算法18-21
- 2.3 排序?qū)W習方法概述21-29
- 2.3.1 Pointwise相關方法24-25
- 2.3.2 Pairwise相關方法25-27
- 2.3.3 Listwise相關方法27-29
- 2.4 本章小結29-30
- 第三章 基于VSM和LDA的相似度算法30-38
- 3.1 引言30
- 3.2 基于VSM的相似度計算30-31
- 3.3 基于LDA的相似度計算31-35
- 3.3.1 LDA模型描述31-34
- 3.3.2 基于LDA模型的文檔相似度算法34-35
- 3.4 基于主題相似度的相似度計算35-37
- 3.4.1 評估標準36
- 3.4.2 實驗設置36
- 3.4.3 對比分析36-37
- 3.5 本章小結37-38
- 第四章 基于主題相似的排序?qū)W習算法38-55
- 4.1 引言38
- 4.2 LISTSIMI排序?qū)W習算法描述38-42
- 4.2.1 Top-k概率模型38-40
- 4.2.2 損失函數(shù)構造40-41
- 4.2.3 梯度下隆算法41-42
- 4.3 算法實現(xiàn)42-43
- 4.4 實驗數(shù)據(jù)集43-44
- 4.4.1 LETOR 3.0數(shù)據(jù)集43-44
- 4.5 排序?qū)W習評價標準44-46
- 4.5.1 平均準確率MAP45
- 4.5.2 歸一化折扣累積增益NDCG45-46
- 4.6 實驗方法46-47
- 4.7 實驗結果與對比分析47-54
- 4.7.1 實驗結果47-53
- 4.7.2 對比分析53-54
- 4.8 本章小結54-55
- 第五章 結論與展望55-57
- 5.1 結論55-56
- 5.2 展望56-57
- 參考文獻57-60
- 致謝60-61
- 附錄61-62
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學;2013年12期
本文關鍵詞:基于主題相似度的排序?qū)W習算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:367519
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/367519.html
最近更新
教材專著