自然語言處理在信息檢索中的研究和應(yīng)用
發(fā)布時(shí)間:2023-05-03 17:30
21世紀(jì)是互聯(lián)網(wǎng)的黃金時(shí)代。在這一期間,信息技術(shù)得到了快速的發(fā)展,因特網(wǎng)已經(jīng)成為目前最大的知識(shí)寶庫。其內(nèi)容浩如煙海,包羅萬象,是人們求知解惑的重要來源。信息檢索系統(tǒng)作為人們獲取網(wǎng)絡(luò)資源的高效工具,自始至終發(fā)揮著重要作用。但是傳統(tǒng)采用關(guān)鍵字進(jìn)行全文檢索方式的檢索系統(tǒng),存在檢索結(jié)果不全面和相關(guān)性低等問題。針對(duì)目前檢索系統(tǒng)存在的不足,本文使用自然語言處理中的相關(guān)技術(shù)對(duì)檢索系統(tǒng)加以優(yōu)化,實(shí)現(xiàn)對(duì)查詢關(guān)鍵詞進(jìn)行擴(kuò)展。本文設(shè)計(jì)了一種基于百科詞條信息的詞語相似度計(jì)算方法。該方法由詞條間對(duì)應(yīng)的名片、詞條正文,開放分類和相關(guān)詞條四部分之間的內(nèi)容相似度,來獲得給定詞匯對(duì)的整體相似度。利用該方法在《HowNet》中文詞典中獲取關(guān)鍵詞意思相近的詞作為擴(kuò)展詞。另外,本文還實(shí)現(xiàn)了對(duì)用戶興趣愛好信息的提取,并把結(jié)果作為對(duì)檢索結(jié)果排序優(yōu)化的依據(jù)。本文的主要工作如下:(1)深入研究Simhash算法,提出了改進(jìn)的TTSimhash算法。TTSimhash算法采用ICTCLAS分詞技術(shù),在關(guān)鍵詞初始權(quán)值計(jì)算中,引入TF-IDF方法,并考慮了詞性、詞長的因素。采用基于PageRank的思想對(duì)文本建立圖模型,通過鄰接節(jié)點(diǎn)以及鄰...
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及發(fā)展趨勢
1.3 本文主要工作
1.4 本文組織結(jié)構(gòu)
第2章 理論與技術(shù)基礎(chǔ)
2.1 中文分詞和預(yù)處理
2.2 TF-IDF算法
2.3 百度百科和詞語相似度
2.4 本章小結(jié)
第3章 Simhash算法的改進(jìn)
3.1 Simhash算法簡介
3.2 改進(jìn)的Simhash算法
3.2.1 投票模型簡介
3.2.2 關(guān)鍵詞權(quán)值計(jì)算
3.3 評(píng)價(jià)指標(biāo)
3.4 實(shí)驗(yàn)及結(jié)果分析
3.5 本章小結(jié)
第4章 基于TTSimhash算法的詞語相似度計(jì)算
4.1 詞條相似度計(jì)算
4.1.1 詞條名片相似度計(jì)算
4.1.2 詞條正文相似度計(jì)算
4.1.3 詞條開放分類相似度計(jì)算
4.1.4 相關(guān)詞條相似度計(jì)算
4.1.5 詞條相似度計(jì)算公式
4.2 數(shù)據(jù)集處理
4.3 評(píng)價(jià)指標(biāo)
4.4 實(shí)驗(yàn)及結(jié)果分析
4.5 本章小結(jié)
第5章 詞語相似度在信息檢索中的應(yīng)用
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.2.1 查詢擴(kuò)展模塊設(shè)計(jì)與實(shí)現(xiàn)
5.2.2 個(gè)性化模塊設(shè)計(jì)與實(shí)現(xiàn)
5.3 系統(tǒng)測試
5.3.1 查詢擴(kuò)展模塊測試
5.3.2 個(gè)性化模塊測試
5.3.3 系統(tǒng)搜索結(jié)果展示
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文
致謝
本文編號(hào):3807030
【文章頁數(shù)】:71 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀及發(fā)展趨勢
1.3 本文主要工作
1.4 本文組織結(jié)構(gòu)
第2章 理論與技術(shù)基礎(chǔ)
2.1 中文分詞和預(yù)處理
2.2 TF-IDF算法
2.3 百度百科和詞語相似度
2.4 本章小結(jié)
第3章 Simhash算法的改進(jìn)
3.1 Simhash算法簡介
3.2 改進(jìn)的Simhash算法
3.2.1 投票模型簡介
3.2.2 關(guān)鍵詞權(quán)值計(jì)算
3.3 評(píng)價(jià)指標(biāo)
3.4 實(shí)驗(yàn)及結(jié)果分析
3.5 本章小結(jié)
第4章 基于TTSimhash算法的詞語相似度計(jì)算
4.1 詞條相似度計(jì)算
4.1.1 詞條名片相似度計(jì)算
4.1.2 詞條正文相似度計(jì)算
4.1.3 詞條開放分類相似度計(jì)算
4.1.4 相關(guān)詞條相似度計(jì)算
4.1.5 詞條相似度計(jì)算公式
4.2 數(shù)據(jù)集處理
4.3 評(píng)價(jià)指標(biāo)
4.4 實(shí)驗(yàn)及結(jié)果分析
4.5 本章小結(jié)
第5章 詞語相似度在信息檢索中的應(yīng)用
5.1 系統(tǒng)需求分析
5.2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.2.1 查詢擴(kuò)展模塊設(shè)計(jì)與實(shí)現(xiàn)
5.2.2 個(gè)性化模塊設(shè)計(jì)與實(shí)現(xiàn)
5.3 系統(tǒng)測試
5.3.1 查詢擴(kuò)展模塊測試
5.3.2 個(gè)性化模塊測試
5.3.3 系統(tǒng)搜索結(jié)果展示
5.4 本章小結(jié)
第6章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文
致謝
本文編號(hào):3807030
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3807030.html
最近更新
教材專著