詞性在漢語科技文獻(xiàn)檢索中的作用與影響
發(fā)布時間:2023-06-03 01:52
詞性標(biāo)注是自然語言處理詞法分析中一種較為成熟的技術(shù),而自然語言處理在信息檢索中又占有舉足輕重的作用,將詞性用于外文文獻(xiàn)信息檢索已有一定的研究,研究表明詞性用于外文文獻(xiàn)信息檢索有一定影響,但影響不大。本研究主要針對詞性用于漢語科技文獻(xiàn)檢索的作用和影響進(jìn)行研究,試圖用測評數(shù)據(jù)說明影響程度和作用大小。 整個研究過程中,實(shí)現(xiàn)了畜牧獸醫(yī)語料庫和詞表的建立工作。詞性標(biāo)注過程利用的是中國科學(xué)院計(jì)算技術(shù)研究所研制出的基于多層隱馬爾可夫模型的漢語詞法分析系統(tǒng)ICTCLAS、南京農(nóng)業(yè)大學(xué)研究生程沖設(shè)計(jì)的CARMM系統(tǒng)中的未登錄詞功能以及自建的畜牧獸醫(yī)詞表相結(jié)合的方式實(shí)現(xiàn),詞性標(biāo)記集選用的是漢語文本詞性標(biāo)注標(biāo)記集(北大版)。采用了兩種提取檢索詞方式和多種檢索模型,其中,兩種提取檢索詞方式包括保留14維詞性提取的檢索詞方式和人工輔助參與提取檢索詞方式;多種檢索模型包括傳統(tǒng)的布爾邏輯檢索模型、“部分匹配的”布爾邏輯檢索模型和向量空間模型。在向量空間模型中,根據(jù)閾值取值有其自身的不足的特點(diǎn),本研究采用了兩種閾值2%和5%的方式,得到了多種測評數(shù)據(jù)。根據(jù)測評數(shù)據(jù),得出了帶詞性的檢索和不帶詞性的檢索的測評結(jié)果。測評結(jié)...
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 自然語言處理(NLP)在信息檢索中的應(yīng)用
1.1.1 自然語言處理(NLP)發(fā)展的三個階段
1.1.2 自然語言處理技術(shù)的應(yīng)用
1.1.3 自然語言處理資源的應(yīng)用
1.2 詞性用于漢語科技文獻(xiàn)檢索的現(xiàn)實(shí)可能性
1.3 論文主要研究的內(nèi)容和框架
第二章 詞性標(biāo)注的國內(nèi)外研究動態(tài)
2.1 詞性標(biāo)注的含義與目的
2.2 詞性標(biāo)注方法分類
2.3 國外英文詞性標(biāo)注的研究
2.3.1 國外的詞性標(biāo)注的語料庫和標(biāo)注系統(tǒng)
2.3.2 國外學(xué)者對詞性標(biāo)注的模型研究
2.4 國內(nèi)漢語詞性標(biāo)注的研究
2.4.1 國內(nèi)漢語詞性標(biāo)注的語料庫和標(biāo)注系統(tǒng)
2.4.2 國內(nèi)學(xué)者對詞性標(biāo)注模型的研究
2.5 詞性標(biāo)注對信息檢索系統(tǒng)性能影響的研究
2.5.1 目前詞性標(biāo)注用于檢索的研究
2.5.2 詞性標(biāo)注用于檢索的兩種用法
2.5.3 詞性標(biāo)注對外文信息檢索系統(tǒng)性能的影響
2.5.4 詞性標(biāo)注對漢語文獻(xiàn)信息檢索系統(tǒng)性能的影響
第三章 基于詞性的科技文獻(xiàn)檢索過程設(shè)計(jì)與實(shí)現(xiàn)
3.1 建庫
3.1.1 文獻(xiàn)來源
3.1.2 文獻(xiàn)格式和內(nèi)容處理
3.1.3 文獻(xiàn)庫設(shè)計(jì)
3.2 專業(yè)詞表建立
3.3 切詞和詞性標(biāo)注
3.3.1 機(jī)器切詞和詞性標(biāo)注
3.3.2 人工輔助標(biāo)注
3.3.3 切詞結(jié)果處理
3.3.4 存庫
3.4 權(quán)值計(jì)算
3.4.1 詞頻統(tǒng)計(jì)
3.4.2 權(quán)值公式的選擇
3.4.3 歸一化處理
3.4.4 數(shù)據(jù)記錄結(jié)構(gòu)
3.5 提問式設(shè)計(jì)
3.6 相關(guān)文獻(xiàn)分析
3.7 檢索模型的選擇
3.7.1 布爾邏輯模型檢索
3.7.2 向量空間模型檢索
3.8 檢索的程序?qū)崿F(xiàn)
3.8.1 提問式導(dǎo)入
3.8.2 提問式詞性標(biāo)注
3.8.3 提取檢索詞
3.8.4 向量檢索
3.8.5 布爾檢索
第四章 比較測評
4.1 常用信息檢索系統(tǒng)測評方法
4.1.1 測評指標(biāo)
4.1.2 概括表統(tǒng)計(jì)
4.1.3 檢準(zhǔn)率、檢全率折線圖
4.1.4 檢準(zhǔn)率、檢全率差額直方圖
4.2 比較測評
4.2.1 表格測評結(jié)果
4.2.2 R、P的折線圖測評結(jié)果
4.2.3 R、P差值直方圖和R、P差值的平均值表的測評結(jié)果
4.2.4 測評小結(jié)
4.3 與英文詞性檢索測評研究的比較
第五章 總結(jié)與展望
5.1 本文研究的主要創(chuàng)新
5.1.1 詞性首次系統(tǒng)地用于漢語文獻(xiàn)檢索
5.1.2 降維處理
5.1.3 設(shè)計(jì)了可用于詞性檢索的“部分匹配的布爾邏輯模型”
5.1.4 得出了詞性檢索對漢語文獻(xiàn)檢索的影響程度
5.2 本文研究的不足之處
5.2.1 專業(yè)詞表建立的不夠完善
5.2.2 語料庫專業(yè)單一,適用范圍狹窄
5.2.3 提問式的處理不能排除主觀性
5.3 后續(xù)研究工作
5.3.1 擴(kuò)大語料庫的學(xué)科范圍
5.3.2 擴(kuò)大語料庫文獻(xiàn)數(shù)目
5.3.3 建立適合詞性檢索的檢索模型
參考文獻(xiàn)
附錄1 漢語文本詞性標(biāo)注標(biāo)記集(北大版)
附錄2 37個檢索提問式的測評結(jié)果表
致謝
本文編號:3828433
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 自然語言處理(NLP)在信息檢索中的應(yīng)用
1.1.1 自然語言處理(NLP)發(fā)展的三個階段
1.1.2 自然語言處理技術(shù)的應(yīng)用
1.1.3 自然語言處理資源的應(yīng)用
1.2 詞性用于漢語科技文獻(xiàn)檢索的現(xiàn)實(shí)可能性
1.3 論文主要研究的內(nèi)容和框架
第二章 詞性標(biāo)注的國內(nèi)外研究動態(tài)
2.1 詞性標(biāo)注的含義與目的
2.2 詞性標(biāo)注方法分類
2.3 國外英文詞性標(biāo)注的研究
2.3.1 國外的詞性標(biāo)注的語料庫和標(biāo)注系統(tǒng)
2.3.2 國外學(xué)者對詞性標(biāo)注的模型研究
2.4 國內(nèi)漢語詞性標(biāo)注的研究
2.4.1 國內(nèi)漢語詞性標(biāo)注的語料庫和標(biāo)注系統(tǒng)
2.4.2 國內(nèi)學(xué)者對詞性標(biāo)注模型的研究
2.5 詞性標(biāo)注對信息檢索系統(tǒng)性能影響的研究
2.5.1 目前詞性標(biāo)注用于檢索的研究
2.5.2 詞性標(biāo)注用于檢索的兩種用法
2.5.3 詞性標(biāo)注對外文信息檢索系統(tǒng)性能的影響
2.5.4 詞性標(biāo)注對漢語文獻(xiàn)信息檢索系統(tǒng)性能的影響
第三章 基于詞性的科技文獻(xiàn)檢索過程設(shè)計(jì)與實(shí)現(xiàn)
3.1 建庫
3.1.1 文獻(xiàn)來源
3.1.2 文獻(xiàn)格式和內(nèi)容處理
3.1.3 文獻(xiàn)庫設(shè)計(jì)
3.2 專業(yè)詞表建立
3.3 切詞和詞性標(biāo)注
3.3.1 機(jī)器切詞和詞性標(biāo)注
3.3.2 人工輔助標(biāo)注
3.3.3 切詞結(jié)果處理
3.3.4 存庫
3.4 權(quán)值計(jì)算
3.4.1 詞頻統(tǒng)計(jì)
3.4.2 權(quán)值公式的選擇
3.4.3 歸一化處理
3.4.4 數(shù)據(jù)記錄結(jié)構(gòu)
3.5 提問式設(shè)計(jì)
3.6 相關(guān)文獻(xiàn)分析
3.7 檢索模型的選擇
3.7.1 布爾邏輯模型檢索
3.7.2 向量空間模型檢索
3.8 檢索的程序?qū)崿F(xiàn)
3.8.1 提問式導(dǎo)入
3.8.2 提問式詞性標(biāo)注
3.8.3 提取檢索詞
3.8.4 向量檢索
3.8.5 布爾檢索
第四章 比較測評
4.1 常用信息檢索系統(tǒng)測評方法
4.1.1 測評指標(biāo)
4.1.2 概括表統(tǒng)計(jì)
4.1.3 檢準(zhǔn)率、檢全率折線圖
4.1.4 檢準(zhǔn)率、檢全率差額直方圖
4.2 比較測評
4.2.1 表格測評結(jié)果
4.2.2 R、P的折線圖測評結(jié)果
4.2.3 R、P差值直方圖和R、P差值的平均值表的測評結(jié)果
4.2.4 測評小結(jié)
4.3 與英文詞性檢索測評研究的比較
第五章 總結(jié)與展望
5.1 本文研究的主要創(chuàng)新
5.1.1 詞性首次系統(tǒng)地用于漢語文獻(xiàn)檢索
5.1.2 降維處理
5.1.3 設(shè)計(jì)了可用于詞性檢索的“部分匹配的布爾邏輯模型”
5.1.4 得出了詞性檢索對漢語文獻(xiàn)檢索的影響程度
5.2 本文研究的不足之處
5.2.1 專業(yè)詞表建立的不夠完善
5.2.2 語料庫專業(yè)單一,適用范圍狹窄
5.2.3 提問式的處理不能排除主觀性
5.3 后續(xù)研究工作
5.3.1 擴(kuò)大語料庫的學(xué)科范圍
5.3.2 擴(kuò)大語料庫文獻(xiàn)數(shù)目
5.3.3 建立適合詞性檢索的檢索模型
參考文獻(xiàn)
附錄1 漢語文本詞性標(biāo)注標(biāo)記集(北大版)
附錄2 37個檢索提問式的測評結(jié)果表
致謝
本文編號:3828433
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3828433.html
最近更新
教材專著