天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于機器學習的個性化信息檢索的研究

發(fā)布時間:2018-05-24 06:20

  本文選題:信息檢索 + 個性化; 參考:《吉林大學》2017年碩士論文


【摘要】:近幾年來,互聯(lián)網(wǎng)快速發(fā)展使得信息資源數(shù)據(jù)規(guī)模暴漲,促使了人們對于網(wǎng)絡的依賴性不斷的增加?焖俚纳罟(jié)奏使得大眾在繁雜的網(wǎng)絡中迅速而準確的獲取自己想要的信息變得至關重要,搜索引擎作為普通大眾尋找網(wǎng)絡資源最為重要的入口,其重要性日趨明顯。隨著越來越多的用戶依賴于搜索引擎獲取資源,搜索引擎的體驗的好壞已經(jīng)嚴重影響著人們的生活,其中影響用戶體驗效果最為重要的就是檢索的結果和用戶需求的相關性程度。從當今搜索引擎的發(fā)展來看,目前的搜索引擎還遠沒有達到能返回完全符合用戶需求的資源。決定搜索引擎返回結果和用戶需求的相關性的關鍵性技術,是搜索引擎的檢索模型,早期對于檢索模型的主要是研究方向都是基于用戶的輸入搜索關鍵詞對相關文檔進行排序。但是通過研究發(fā)現(xiàn)存在兩個問題,一個是用戶可能對自己所要搜尋的資源不明確,二是用戶通過搜索引擎輸入的關鍵詞通常不能完全表達自己的需求。基于以上兩個問題,研究者們提出把機器學習應用到搜索引擎的檢索模型中,但是這種方案目前還正在處于研究階段,本文的目的就是討論和研究怎樣把機器學習應用到檢索模型中,提高信息檢索的準確率,縮短查詢信息的時間。機器學習應用到信息檢索中的方法稱為學習排序,而目前常見的學習排序分為三類,單文檔方法、文檔對方法、文檔列表法,其中文檔列表法是機器學習應用于信息檢索被認為最為有效的也最有研究前景的方法。目前在文檔列表法中最為有效的方法是Christopher J.C.Burges提出的Lambda MART。本文提出結合用戶個性化的信息來提高信息檢索結果的準確性,即為個性化信息檢索,個性化信息檢索是一個彌補傳統(tǒng)搜索引擎無法準確獲取用戶搜索意圖的一種手段,針對如何把個性化信息加入搜索結果排序中,本文在Lambda MART算法的基礎上對其進行了改進,結合了用戶的個性化信息,包括用戶的性別、年齡、職業(yè)、地址信息、歷史網(wǎng)絡瀏覽信息,然后根據(jù)用戶的搜索關鍵詞,預測用戶的搜索意圖并把預測結果融合在排序結果中。Lambda MART是以決策迭代樹做為框架,并根據(jù)Rank Net和Lambda Rank來推出的負梯度方向做為每次迭代的方向,該梯度是具有實際的物理意義的梯度。并且該算法最大的優(yōu)勢在于能結合信息檢索中的評價指標,使得其在實際應用中更加有效。本文提出在使用決策迭代樹進行模型訓練時,特征的選擇加入用戶的個性化信息,并對Lambda MART在無初始模型的情況下提出通過優(yōu)化每次迭代的學習率來達到快速收斂的效果,解決了原始算法在無初始模型情況下無法訓練的缺陷。接著本文對比了Rank Net、GBDT與本文采用的Lambda MART算法進行實驗,通過MAP與NDCG指標得出結論,Lambda MART做為文檔列表法算法在信息檢索具有很大的優(yōu)勢。接著本文在Lambda MART的基礎上加入個性化信息,提出了本文的個性化信息檢索模型,與原始Lambda MART,以及Rank Net,GBDT進行實驗對比,并參照MAP與NDCG指標發(fā)現(xiàn),在加入個性化信息之后,模型的信息檢索準確率有大幅度提升,尤其是在主題性較強的領域。本文不僅提出算法,給出算法的具體過程,給出了實驗驗證,并且在最后給出了實際應用結果數(shù)據(jù)。結果顯示,本文的個性化信息檢索模型,在檢索準確率,以及用戶滿意度,對比原始的算法有較大的提升,個性化檢索是信息檢索的未來的方向,本文算法的提出,以及系統(tǒng)的設計實現(xiàn)對未來個性化檢索都有重要的參考價值。
[Abstract]:In recent years, the rapid development of the Internet has made the scale of information resources skyrocketing, prompting people to continue to increase their dependence on the network. The fast pace of life makes it very important for the masses to get the information they want quickly and accurately in the complex network. Search engines are the most common people in search of network resources. The important entrance is becoming more and more important. As more and more users rely on the search engine to obtain resources, the experience of the search engine has seriously affected people's life. The most important thing that affects the effect of the user experience is the degree of correlation between the results of the retrieval and the needs of the users. The key technology to determine the correlation between the return of the search engine and the needs of the user is the retrieval model of the search engine. The main research direction of the early search model is based on the user's input search keyword to Xiang Guanwen. But through the study, there are two problems, one is that the user may not have clear resources to search for themselves, and the two is that the key words that the user input through the search engine usually do not fully express their needs. Based on the above two questions, the researchers bring up the retrieval model that applies the machine learning to the search engine. But this scheme is still at the stage of research. The purpose of this paper is to discuss and study how to apply machine learning to the retrieval model, to improve the accuracy of information retrieval and to shorten the time of query information. The method of applying the machine learning to information retrieval is called learning sort, and the common learning sort is at present. For the three class, single document method, document pair method, and document list method, document list method is the most effective and the most promising method for machine learning to be applied to information retrieval. The most effective method in the document list method is the Lambda MART. proposed by Christopher J.C.Burges, which combines user personalization in this paper. Information retrieval results are more accurate, that is, personalized information retrieval, personalized information retrieval is a means to make up for the traditional search engine can not accurately obtain the user's search intention. In view of how to sort the personalized information into the search results, this paper changes it on the basis of the Lambda MART algorithm. It combines the user's personalized information, including the user's gender, age, occupation, address information, historical network browsing information, and then according to the user's search key words, predict the user's search intention and merge the prediction results into the ranking results.Lambda MART is the decision of the iterative tree as the framework, and based on the Rank Net and Lambda Rank The negative gradient direction is introduced as the direction of each iteration, and the gradient is the gradient of actual physical meaning. And the greatest advantage of the algorithm is that it can combine the evaluation index in information retrieval so that it is more effective in practical application. The user's personalized information and the effect of fast convergence by optimizing the learning rate of each iteration by optimizing the learning rate of each iteration in the absence of the initial model, and solving the defects that the original algorithm can not train in the absence of the initial model. Then this paper compares the Rank Net, GBDT and the Lambda MART algorithm used in this paper to carry out the experiment. Through the MAP and NDCG indicators, it is concluded that the Lambda MART as the document list algorithm has a great advantage in information retrieval. Then the personalized information is added to the Lambda MART, and the personalized information retrieval model is proposed, which is compared with the original Lambda MART, as well as Rank Net, GBDT. It is found that after adding personalized information, the accuracy of information retrieval of the model has been greatly improved, especially in the field of strong theme. This paper not only proposes algorithms, gives the specific process of the algorithm, gives the experimental verification, and finally gives the actual application result data. The results show that the personalized information retrieval model of this paper is shown. In the retrieval accuracy and the user satisfaction, the original algorithm has been greatly improved. The personalized retrieval is the future direction of the information retrieval. The proposed algorithm and the design of the system have important reference value for the future personalized retrieval.
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3;TP181

【相似文獻】

相關期刊論文 前10條

1 余肖生;張芳芳;;面向用戶的個性化信息檢索[J];圖書館理論與實踐;2006年06期

2 李樹青;;個性化信息檢索技術綜述[J];情報理論與實踐;2009年05期

3 易明;操玉杰;毛進;;基于點擊流的個性化信息檢索研究[J];情報科學;2011年04期

4 楊林;;淺析個性化信息檢索模型[J];蘭臺世界;2013年02期

5 楊濤;;個性化信息檢索及其實現(xiàn)方式探析[J];圖書情報論壇;2002年02期

6 陳小華;趙捧未;;基于關聯(lián)規(guī)則的個性化信息檢索系統(tǒng)研究[J];情報科學;2006年06期

7 郭新明;趙薔;弋改珍;;基于相關反饋的個性化信息檢索模型研究[J];咸陽師范學院學報;2008年06期

8 田曉珍;張敏;;基于元搜索引擎的個性化信息檢索系統(tǒng)[J];科技情報開發(fā)與經(jīng)濟;2008年02期

9 朱曉斌;周源;;個性化信息檢索在網(wǎng)絡營銷中的應用[J];科技信息(學術研究);2008年05期

10 徐險峰;;2001—2008年我國個性化信息檢索研究綜述[J];新世紀圖書館;2009年03期

相關會議論文 前2條

1 鄒博偉;張宇;范基禮;鄭偉;劉挺;;基于改進的TextTiling方法的用戶新興趣發(fā)現(xiàn)的研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

2 張艷;周國祥;;Web挖掘在個性化信息檢索中的應用[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年

相關重要報紙文章 前1條

1 應曉敏 竇文華;條條道路通羅馬[N];計算機世界;2003年

相關博士學位論文 前1條

1 王曉春;基于用戶搜索歷史的個性化信息檢索研究[D];哈爾濱工業(yè)大學;2015年

相關碩士學位論文 前10條

1 王劍;基于用戶偏好分析的個性化信息檢索關鍵技術研究[D];蘇州大學;2016年

2 胡曠達;基于神經(jīng)網(wǎng)絡的個性化信息檢索模型研究[D];沈陽航空航天大學;2016年

3 金眾威;基于機器學習的個性化信息檢索的研究[D];吉林大學;2017年

4 劉宏;基于語義的個性化信息檢索研究[D];華北電力大學(河北);2010年

5 余肖生;數(shù)字圖書館的個性化信息檢索研究[D];華中師范大學;2004年

6 紀明奎;基于語義網(wǎng)的個性化信息檢索模型研究[D];黑龍江大學;2007年

7 尹紅麗;基于本體的個性化信息檢索系統(tǒng)模型研究[D];山東大學;2006年

8 陳小華;數(shù)據(jù)挖掘技術在個性化信息檢索系統(tǒng)中的應用研究[D];西安電子科技大學;2006年

9 萬里;基于本體的個性化信息檢索研究[D];蘭州理工大學;2013年

10 林霞;個性化信息檢索技術在勘探門戶中的應用研究[D];西安石油大學;2011年



本文編號:1928012

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1928012.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1b21b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com