基于數(shù)據(jù)集特征的偽相關(guān)反饋中平衡參數(shù)自調(diào)節(jié)方法研究
本文選題:信息檢索 切入點(diǎn):偽相關(guān)反饋 出處:《天津大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)上文本數(shù)量呈指數(shù)級(jí)增長(zhǎng),如何有效檢索這些海量信息成為當(dāng)前重要的研究課題。文本信息檢索是處理海量文本的重要手段。文本信息檢索是指從大量文檔集合中找到與給定的查詢請(qǐng)求相關(guān)的、恰當(dāng)數(shù)目的文檔子集。面對(duì)龐大的文本信息,各種檢索模型被相繼提出,而其中最有效的一種就是偽相關(guān)反饋(PRF)模型。偽相關(guān)反饋已經(jīng)被證明是一種有效提高文本檢索性能的方法,并且被廣泛使用。對(duì)于偽相關(guān)反饋來講,如何選擇原始查詢與擴(kuò)展查詢?cè)~之間的平衡參數(shù)是一項(xiàng)重要但卻困難的工作。傳統(tǒng)方法中,平衡參數(shù)在不同的數(shù)據(jù)集和不同的查詢?cè)~中通常被設(shè)置成相同的經(jīng)驗(yàn)值。然而由于數(shù)據(jù)集之間、查詢?cè)~之間都各不相同,為了提升檢索效果,該平衡參數(shù)應(yīng)該有所不同。近期有研究提出了基于機(jī)器學(xué)習(xí)的方法,通過分析基于查詢?cè)~和反饋文檔的特征來預(yù)測(cè)該平衡參數(shù)。本文中,考慮到數(shù)據(jù)集的差異同樣會(huì)影響到平衡參數(shù)的選擇,我們提出了基于數(shù)據(jù)集的三類特征,包括查詢?cè)~的信息含量,反饋文檔和擴(kuò)展詞的可靠性。本文基于上述三大類特征,通過邏輯回歸和交叉驗(yàn)證的方法,自適應(yīng)的預(yù)測(cè)偽相關(guān)反饋中的平衡參數(shù)。首先分析了研究背景意義、國(guó)內(nèi)外研究現(xiàn)狀以及主要探究?jī)?nèi)容;接著介紹了文本信息檢索、檢索模型等信息檢索的相關(guān)知識(shí);之后詳細(xì)介紹了偽相關(guān)反饋的相關(guān)技術(shù);在詳細(xì)描述了三大類特征之后,介紹了整個(gè)實(shí)驗(yàn)的流程以及實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明我們提出的方法與之前的研究相比,在提高檢索性能方面有著一定的優(yōu)勢(shì)。
[Abstract]:With the rapid development of Internet technology, the number of online texts has increased exponentially. How to effectively retrieve these massive information has become an important research topic at present. Text information retrieval is an important means to deal with massive text. Text information retrieval refers to finding out from a large number of document sets related to a given query request. Appropriate number of document subsets. In the face of large text information, various retrieval models have been proposed one after another. One of the most effective is the pseudo-correlation feedback (PRF) model, which has been proved to be an effective method to improve the performance of text retrieval and is widely used. How to select the balance parameters between the original query and the extended query is an important but difficult task. The balance parameter is usually set to the same empirical value in different data sets and different query terms. However, because the query terms differ from one data set to another, in order to improve the retrieval effect, This balance parameter should be different. Recently, a machine learning based approach has been proposed to predict the balance parameter by analyzing the features of query words and feedback documents. Considering that differences in data sets also affect the selection of equilibrium parameters, we propose three types of features based on data sets, including the information content of query words, the reliability of feedback documents and extension words. Through the methods of logical regression and cross validation, the equilibrium parameters in pseudo-correlation feedback are predicted adaptively. Firstly, the significance of the research background, the current research situation at home and abroad and the main contents of the research are analyzed, and then the text information retrieval is introduced. The related knowledge of information retrieval, such as retrieval model, and the related technology of pseudo-correlation feedback are introduced in detail. After describing the three kinds of features in detail, The experimental results show that the proposed method has some advantages in improving retrieval performance compared with previous research.
【學(xué)位授予單位】:天津大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 嚴(yán)鳳斌;邰海軍;李會(huì)剛;;標(biāo)準(zhǔn)數(shù)據(jù)集合的分析與設(shè)計(jì)[J];科技廣場(chǎng);2010年01期
2 董璇;蔡立軍;;基于不平衡類數(shù)據(jù)集分類的空間插值方法[J];計(jì)算機(jī)仿真;2012年12期
3 張諍;王惠文;;大規(guī)模復(fù)雜數(shù)據(jù)集的約簡(jiǎn)方法[J];計(jì)算機(jī)工程;2010年23期
4 ;拒絕數(shù)字化[J];每周電腦報(bào);1999年03期
5 呂海燕;李華偉;呂紅;方霞;;元數(shù)據(jù)注冊(cè)系統(tǒng)中數(shù)據(jù)集分類在衛(wèi)生信息系統(tǒng)中的應(yīng)用[J];計(jì)算技術(shù)與自動(dòng)化;2011年03期
6 顧靜秋;吳華瑞;朱華吉;;數(shù)據(jù)集濃縮研究綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2012年10期
7 趙成龍;陳樂義;張冉;李紅;;一種快速有效處理數(shù)據(jù)集分類問題的新算法[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
8 張宏基;李文中;陸桑璐;;基于異步信息的匿名移動(dòng)數(shù)據(jù)集的用戶身份識(shí)別[J];計(jì)算機(jī)科學(xué);2013年11期
9 李芳芳;田志軍;;數(shù)據(jù)庫快速查詢方法研究與應(yīng)用[J];微電子學(xué)與計(jì)算機(jī);2012年03期
10 趙國(guó)強(qiáng);王會(huì)進(jìn);;一種用于大規(guī)模數(shù)據(jù)集的決策樹采樣策略[J];微型機(jī)與應(yīng)用;2010年21期
相關(guān)會(huì)議論文 前10條
1 許曉峰;金澈清;高明;周傲英;;面向大型數(shù)據(jù)集合的關(guān)鍵分類查找算法[A];第26屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
2 馬垣;崔麗;劉鴻雁;梁材;;關(guān)系中的概念與命題[A];第十七屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2000年
3 郭景峰;杜京;馬倩;鄒曉紅;;一種基于數(shù)據(jù)集性質(zhì)的快速等差模式聚類算法[A];第二十五屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(二)[C];2008年
4 向堅(jiān);俞堅(jiān);葉綠;;一種高效的大規(guī)模RFID數(shù)據(jù)集合清理方法[A];第六屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集(3)[C];2008年
5 盧建松;曹慶華;傅翠嬌;;探究Delphi平臺(tái)下處理.NET Web Service返回?cái)?shù)據(jù)集的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
6 張路;袁曉潔;劉芳;竇志成;;大規(guī)模數(shù)據(jù)集的分布式索引機(jī)制研究[A];2008年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
7 于愛榮;劉曉明;曹雷;王俊;;NET Web Services數(shù)據(jù)集在Delphi中的處理與研究[A];中國(guó)航空學(xué)會(huì)信號(hào)與信息處理專業(yè)全國(guó)第八屆學(xué)術(shù)會(huì)議論文集[C];2004年
8 王加陽;;動(dòng)態(tài)約簡(jiǎn)抽樣分析[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年
9 ;前言[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
10 閆昱;何守才;;Web信息檢索中的超連接分析[A];第十八屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
相關(guān)重要報(bào)紙文章 前5條
1 李開鵬 溫德成;SPSS:質(zhì)量信息管理的助手[N];中國(guó)質(zhì)量報(bào);2005年
2 記者 王慧 實(shí)習(xí)生 阿柔娜;首府專利信息檢索對(duì)外開放日活動(dòng)首次開啟[N];呼和浩特日?qǐng)?bào)(漢);2010年
3 朱華順 東莞理工學(xué)院圖書館館員;高!靶畔z索”課:培養(yǎng)讀者以最少時(shí)間和精力獲取信息[N];中國(guó)圖書商報(bào);2013年
4 梅竹;清華摘取國(guó)際信息檢索比賽兩項(xiàng)桂冠[N];計(jì)算機(jī)世界;2002年
5 清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室 張敏 金奕江;“!敝袚啤罢洹盵N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前10條
1 王海濤;基于大規(guī)模文本數(shù)據(jù)集的相似檢測(cè)關(guān)鍵技術(shù)研究[D];吉林大學(xué);2016年
2 申彥;大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D];江蘇大學(xué);2013年
3 唐勤;非均衡數(shù)據(jù)分類算法及其在助學(xué)貸款風(fēng)險(xiǎn)管理中的應(yīng)用研究[D];華中科技大學(xué);2012年
4 谷瓊;面向非均衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)及在地學(xué)數(shù)據(jù)處理中的應(yīng)用[D];中國(guó)地質(zhì)大學(xué);2009年
5 于澝;基于一維SOM神經(jīng)網(wǎng)絡(luò)的聚類及數(shù)據(jù)分析方法研究[D];天津大學(xué);2009年
6 彭濤;基于特征和實(shí)例的海量數(shù)據(jù)約簡(jiǎn)方法研究[D];華中科技大學(xué);2011年
7 花妍;具有語義一致性的跨模態(tài)關(guān)聯(lián)學(xué)習(xí)與信息檢索[D];北京郵電大學(xué);2015年
8 黎志升;地理信息檢索若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
9 王修力;基于描述復(fù)雜性的信息檢索理論與若干模型研究[D];北京語言大學(xué);2006年
10 林古立;互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應(yīng)用[D];華南理工大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 孟燁;基于數(shù)據(jù)集特征的偽相關(guān)反饋中平衡參數(shù)自調(diào)節(jié)方法研究[D];天津大學(xué);2016年
2 李建勛;基于模糊聚類分析的數(shù)據(jù)異常知識(shí)發(fā)現(xiàn)方法[D];哈爾濱工業(yè)大學(xué);2015年
3 俞闖;半監(jiān)督學(xué)習(xí)中不平衡數(shù)據(jù)集分類研究[D];大連理工大學(xué);2015年
4 周維潔;基于智能手機(jī)的車輛彎道識(shí)別與相對(duì)定位的研究[D];黑龍江大學(xué);2015年
5 楊寶栓;基于顯露模式的早期網(wǎng)癮行為檢測(cè)模型的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
6 鄒珈璇;一種RDF數(shù)據(jù)集的摘要工具的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2013年
7 李悅;大規(guī)模數(shù)據(jù)集關(guān)聯(lián)關(guān)系并行發(fā)現(xiàn)與優(yōu)化方法研究[D];北方工業(yè)大學(xué);2016年
8 王躍;基于遷移學(xué)習(xí)的半監(jiān)督聚類及其并行化實(shí)現(xiàn)[D];西南交通大學(xué);2016年
9 孫子川;微博垃圾博主的行為分析與檢測(cè)[D];西南交通大學(xué);2016年
10 肖雪平;面向大規(guī)模數(shù)據(jù)集的自適應(yīng)聚類算法并行化研究[D];曲阜師范大學(xué);2016年
,本文編號(hào):1604416
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1604416.html