基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究.pdf
本文關(guān)鍵詞:基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。
電子科技大學(xué)
博士學(xué)位論文
基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究
姓名:蒲強(qiáng)
申請(qǐng)學(xué)位級(jí)別:博士
專業(yè):計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)
指導(dǎo)教師:楊國(guó)緯;He Daqing
20100601摘要
摘要
隨著計(jì)算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,世界上的數(shù)據(jù)正以驚人的速度增長(zhǎng)
著。面對(duì)現(xiàn)代紛繁復(fù)雜的海量信息資源,人們反而有了“淹沒(méi)在信息海洋中”的
困惑。如何快捷、準(zhǔn)確地得到所需信息已成為人們關(guān)注的焦點(diǎn)問(wèn)題。信息檢索技
術(shù)能夠幫助不同領(lǐng)域的人們從文本、圖像、聲音等龐大的數(shù)據(jù)資料中尋找其所需
的信息。以信息檢索技術(shù)為核心技術(shù)的搜索引擎已經(jīng)成為人們從互聯(lián)網(wǎng)發(fā)現(xiàn)
所需信息的最依賴的工具,顯示出這一領(lǐng)域巨大的市場(chǎng)價(jià)值和經(jīng)濟(jì)利益。在龐大
用戶需求的驅(qū)動(dòng)下,信息檢索技術(shù)不斷發(fā)展和創(chuàng)新,成為近年來(lái)信息領(lǐng)域研究的
熱點(diǎn)。
本文的研究基于統(tǒng)計(jì)信號(hào)處理技術(shù)和信息檢索技術(shù)的結(jié)合,這是源于將文本
文檔看成不同主題信號(hào)混合的產(chǎn)物,利用統(tǒng)計(jì)信號(hào)領(lǐng)域中獨(dú)立分量分析,技術(shù)對(duì)文檔進(jìn)行處理,分離的獨(dú)立分量能
很好地表示文檔的語(yǔ)義主題結(jié)構(gòu);谶@一認(rèn)識(shí),全文以概率模型、信息論、線
性代數(shù)及有關(guān)統(tǒng)計(jì)方法為理論基礎(chǔ),配合大量詳實(shí)的實(shí)驗(yàn)分別研究了基于的
語(yǔ)義聚類理論模型及其應(yīng)用、基于語(yǔ)義聚類的相關(guān)模型和查詢模型的估計(jì),
同時(shí)還對(duì)信息檢索領(lǐng)域最常用的查詢擴(kuò)展技術(shù)進(jìn)行了研究。論文主要的貢獻(xiàn)和創(chuàng)
新之處包括五個(gè)方面:
.提出語(yǔ)義聚類激活的概念,并在理論上證明了利用激活語(yǔ)義聚
類下文檔估計(jì)的語(yǔ)義主題在語(yǔ)義距離上比使用全部反饋文檔估計(jì)的語(yǔ)義主題更接
近于真實(shí)語(yǔ)義主題。以用戶查詢?yōu)閷?dǎo)向的激活方式在語(yǔ)義上將聚類下的文檔與查
詢關(guān)聯(lián)起來(lái),克服了反饋文檔主題分散同現(xiàn)帶來(lái)
本文關(guān)鍵詞:基于獨(dú)立分量分析的語(yǔ)義聚類技術(shù)在信息檢索中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):194022
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/194022.html