面向現(xiàn)代漢語文本處理的全文檢索、自動分詞通用系統(tǒng)
發(fā)布時間:2021-01-01 15:36
全文檢索是現(xiàn)代信息檢索技術(shù)的一個非常重要的分支,它是處理非結(jié)構(gòu)化數(shù)據(jù)的強大工具,也是搜索引擎的核心技術(shù)之一。本研究對中文全文檢索的有關(guān)技術(shù)進行了較為深入的研究,重點放在全文檢索技術(shù)的應用上。對如何利用新技術(shù)、改善檢索系統(tǒng)的結(jié)構(gòu)、提高檢索系統(tǒng)的性能和效率、不斷適應信息技術(shù)發(fā)展的需求等方面進行了新的探索。 全文檢索是一種I/O密集型的應用,以往的全文檢索系統(tǒng)的開發(fā)多在關(guān)系數(shù)據(jù)庫的基礎上進行。本研究針對全文數(shù)據(jù)庫的特點,指出此方式的弊端與不足,并提出了基于文件系統(tǒng)進行構(gòu)建的解決方案。由于目前全文檢索系統(tǒng)的開發(fā)平臺并不多見,本文介紹了一種全文檢索引擎工具包——Lucene,它功能強大,小巧精悍,便于嵌入各種應用。近年在世界各地被廣泛使用,諸如IBM等公司都使用其核心代碼。作為一個開源軟件,為我們掌握搜索引擎的核心技術(shù)提供了絕佳機會,根據(jù)現(xiàn)代漢語文本的特點對進行二次開發(fā),是一件很有意義的事情。 漢語自動分詞及詞性標注是中文信息處理中的重要環(huán)節(jié)。針對現(xiàn)代漢語自動分詞及詞性標注的難點,本研究在自動分詞方面進行了如下探索:1.對幾種常用電子詞典的結(jié)構(gòu)進行了分析和比較,實現(xiàn)了核心詞典+專業(yè)詞...
【文章來源】:南京師范大學江蘇省 211工程院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
1.1 研究背景及現(xiàn)狀
1.1.1 全文檢索的概念與特點
1.1.2 中文全文檢索
1.2 本文的工作和意義
1.3 本文的主要內(nèi)容及其組織
第二章 全文檢索引擎Lucene的分析研究
2.1 Lucene簡介
2.2 Lucene的倒排索引原理
2.3 Lucene的組成結(jié)構(gòu)
2.4 LUCENE的基本數(shù)據(jù)類型
2.5 Lucene中的文件格式
2.6 全文檢索的實現(xiàn)機制
第三章 全文檢索系統(tǒng)的分析與設計
3.1 系統(tǒng)的整體結(jié)構(gòu)
3.2 模塊的功能描述
3.2.1 文檔對象
3.2.2 語言分析器和查詢分析器
3.2.3 檢索接口
3.2.4 索引接口
3.3 系統(tǒng)數(shù)據(jù)流邏輯
3.4 數(shù)據(jù)流分析
3.5 系統(tǒng)的可擴展性
第四章 中文自動分詞技術(shù)
4.1 自動分詞技術(shù)及發(fā)展概況
4.1.1 漢語自動分詞技術(shù)及存在的困難
4.1.2 漢語自動分詞的研究現(xiàn)狀及分析
4.2 分詞算法
4.2.1 現(xiàn)有的的分詞算法分析
4.2.2 本系統(tǒng)所用分詞算法
4.3 分詞詞典
4.3.1 詞典的常用組織結(jié)構(gòu)
4.3.2 本系統(tǒng)的分詞詞典機制
4.3.3 本系統(tǒng)詞典的結(jié)構(gòu)
4.4 歧義字段的處理
4.4.1 歧義字段產(chǎn)生的根源及其處理策略
4.4.2 本系統(tǒng)中歧義字段的消解方法
4.5 未登錄詞識別
4.5.1 未登錄詞的研究現(xiàn)狀
4.5.2 未登錄詞現(xiàn)有解決方案的討論
4.5.3 本系統(tǒng)中未登錄詞的解決方案
4.5.4 數(shù)字串的識別
4.5.5 重疊詞形式的識別
4.6 詞性標注
4.6.1 詞性標注的研究的概況
4.6.2 常用的兼類詞排歧方法及存在問題分析
4.6.3 本系統(tǒng)的處理方式
4.7 自動分詞系統(tǒng)的設計與實現(xiàn)
4.7.1 系統(tǒng)設計原則及思路
4.7.2 系統(tǒng)結(jié)構(gòu)研制流程圖
4.7.3 系統(tǒng)的實現(xiàn)及其性能測評
第五章 系統(tǒng)集成的設計與實現(xiàn)
5.1 檢索結(jié)果的打開與保存
5.2 建立檢索
5.3 檢索流程
5.4 查詢表達式的處理
5.5 檢索結(jié)果的輸出
5.6 自動分詞模塊
5.7 字頻、詞頻統(tǒng)計
第六章 結(jié)論
6.1 本文工作總結(jié)
6.2 檢索功能的比較與測試
6.3 今后的工作
參考文獻
后記
【參考文獻】:
期刊論文
[1]一種基于語境的中文分詞方法研究[J]. 張茂元,盧正鼎,鄒春燕. 小型微型計算機系統(tǒng). 2005(01)
[2]用基于詞的二元模型消解交集型分詞歧義[J]. 陳小荷. 南京師大學報(社會科學版). 2004(06)
[3]漢語自動分詞專家系統(tǒng)的設計與實現(xiàn)[J]. 王彩榮. 微處理機. 2004(03)
[4]詞性標注規(guī)則的獲取和優(yōu)化[J]. 陳文亮,朱靖波,呂學強. 術(shù)語標準化與信息技術(shù). 2004(02)
[5]基于角色標注的中國人名自動識別研究[J]. 張華平,劉群. 計算機學報. 2004(01)
[6]漢語語料的切分標注加工系統(tǒng)[J]. 徐菁,張輝,陸汝占. 計算機工程. 2003(09)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]全文檢索字索引技術(shù)的研究與實現(xiàn)[J]. 曹元大,賀海軍,涂哲明,王琴. 計算機工程. 2002(06)
[9]自然語言處理技術(shù)的三個里程碑[J]. 黃昌寧,張小鳳. 外語教學與研究. 2002(03)
[10]一種基于概率模型的分詞系統(tǒng)[J]. 李家福,張亞非. 系統(tǒng)仿真學報. 2002(05)
博士論文
[1]中文信息處理中若干關(guān)鍵技術(shù)的研究[D]. 王建會.復旦大學 2004
碩士論文
[1]中文自動分詞系統(tǒng)的研究[D]. 朱珣.華中師范大學 2004
[2]基于統(tǒng)計的漢語詞性標注方法的研究[D]. 梁以敏.大連理工大學 2004
[3]在自然漢語中進行分詞和詞性標注[D]. 劉東旭.電子科技大學 2003
[4]中文文本分詞研究[D]. 許林杰.山東師范大學 2003
[5]現(xiàn)代漢語通用分詞系統(tǒng)的技術(shù)與實現(xiàn)[D]. 羅智勇.北京工業(yè)大學 2002
[6]基于Internet的智能信息檢索技術(shù)研究[D]. 傅賽香.廣西師范大學 2002
[7]基于統(tǒng)計的開放式漢語自動分詞[D]. 關(guān)宏超.大連理工大學 2002
[8]規(guī)則與統(tǒng)計相結(jié)合的兼類詞處理機制[D]. 張麗靜.大連理工大學 2002
[9]現(xiàn)代漢語分詞系統(tǒng)通用性設計及切分歧義處理[D]. 婁(王廷).北京工業(yè)大學 2000
本文編號:2951549
【文章來源】:南京師范大學江蘇省 211工程院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
ABSTRACT
第一章 前言
1.1 研究背景及現(xiàn)狀
1.1.1 全文檢索的概念與特點
1.1.2 中文全文檢索
1.2 本文的工作和意義
1.3 本文的主要內(nèi)容及其組織
第二章 全文檢索引擎Lucene的分析研究
2.1 Lucene簡介
2.2 Lucene的倒排索引原理
2.3 Lucene的組成結(jié)構(gòu)
2.4 LUCENE的基本數(shù)據(jù)類型
2.5 Lucene中的文件格式
2.6 全文檢索的實現(xiàn)機制
第三章 全文檢索系統(tǒng)的分析與設計
3.1 系統(tǒng)的整體結(jié)構(gòu)
3.2 模塊的功能描述
3.2.1 文檔對象
3.2.2 語言分析器和查詢分析器
3.2.3 檢索接口
3.2.4 索引接口
3.3 系統(tǒng)數(shù)據(jù)流邏輯
3.4 數(shù)據(jù)流分析
3.5 系統(tǒng)的可擴展性
第四章 中文自動分詞技術(shù)
4.1 自動分詞技術(shù)及發(fā)展概況
4.1.1 漢語自動分詞技術(shù)及存在的困難
4.1.2 漢語自動分詞的研究現(xiàn)狀及分析
4.2 分詞算法
4.2.1 現(xiàn)有的的分詞算法分析
4.2.2 本系統(tǒng)所用分詞算法
4.3 分詞詞典
4.3.1 詞典的常用組織結(jié)構(gòu)
4.3.2 本系統(tǒng)的分詞詞典機制
4.3.3 本系統(tǒng)詞典的結(jié)構(gòu)
4.4 歧義字段的處理
4.4.1 歧義字段產(chǎn)生的根源及其處理策略
4.4.2 本系統(tǒng)中歧義字段的消解方法
4.5 未登錄詞識別
4.5.1 未登錄詞的研究現(xiàn)狀
4.5.2 未登錄詞現(xiàn)有解決方案的討論
4.5.3 本系統(tǒng)中未登錄詞的解決方案
4.5.4 數(shù)字串的識別
4.5.5 重疊詞形式的識別
4.6 詞性標注
4.6.1 詞性標注的研究的概況
4.6.2 常用的兼類詞排歧方法及存在問題分析
4.6.3 本系統(tǒng)的處理方式
4.7 自動分詞系統(tǒng)的設計與實現(xiàn)
4.7.1 系統(tǒng)設計原則及思路
4.7.2 系統(tǒng)結(jié)構(gòu)研制流程圖
4.7.3 系統(tǒng)的實現(xiàn)及其性能測評
第五章 系統(tǒng)集成的設計與實現(xiàn)
5.1 檢索結(jié)果的打開與保存
5.2 建立檢索
5.3 檢索流程
5.4 查詢表達式的處理
5.5 檢索結(jié)果的輸出
5.6 自動分詞模塊
5.7 字頻、詞頻統(tǒng)計
第六章 結(jié)論
6.1 本文工作總結(jié)
6.2 檢索功能的比較與測試
6.3 今后的工作
參考文獻
后記
【參考文獻】:
期刊論文
[1]一種基于語境的中文分詞方法研究[J]. 張茂元,盧正鼎,鄒春燕. 小型微型計算機系統(tǒng). 2005(01)
[2]用基于詞的二元模型消解交集型分詞歧義[J]. 陳小荷. 南京師大學報(社會科學版). 2004(06)
[3]漢語自動分詞專家系統(tǒng)的設計與實現(xiàn)[J]. 王彩榮. 微處理機. 2004(03)
[4]詞性標注規(guī)則的獲取和優(yōu)化[J]. 陳文亮,朱靖波,呂學強. 術(shù)語標準化與信息技術(shù). 2004(02)
[5]基于角色標注的中國人名自動識別研究[J]. 張華平,劉群. 計算機學報. 2004(01)
[6]漢語語料的切分標注加工系統(tǒng)[J]. 徐菁,張輝,陸汝占. 計算機工程. 2003(09)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]全文檢索字索引技術(shù)的研究與實現(xiàn)[J]. 曹元大,賀海軍,涂哲明,王琴. 計算機工程. 2002(06)
[9]自然語言處理技術(shù)的三個里程碑[J]. 黃昌寧,張小鳳. 外語教學與研究. 2002(03)
[10]一種基于概率模型的分詞系統(tǒng)[J]. 李家福,張亞非. 系統(tǒng)仿真學報. 2002(05)
博士論文
[1]中文信息處理中若干關(guān)鍵技術(shù)的研究[D]. 王建會.復旦大學 2004
碩士論文
[1]中文自動分詞系統(tǒng)的研究[D]. 朱珣.華中師范大學 2004
[2]基于統(tǒng)計的漢語詞性標注方法的研究[D]. 梁以敏.大連理工大學 2004
[3]在自然漢語中進行分詞和詞性標注[D]. 劉東旭.電子科技大學 2003
[4]中文文本分詞研究[D]. 許林杰.山東師范大學 2003
[5]現(xiàn)代漢語通用分詞系統(tǒng)的技術(shù)與實現(xiàn)[D]. 羅智勇.北京工業(yè)大學 2002
[6]基于Internet的智能信息檢索技術(shù)研究[D]. 傅賽香.廣西師范大學 2002
[7]基于統(tǒng)計的開放式漢語自動分詞[D]. 關(guān)宏超.大連理工大學 2002
[8]規(guī)則與統(tǒng)計相結(jié)合的兼類詞處理機制[D]. 張麗靜.大連理工大學 2002
[9]現(xiàn)代漢語分詞系統(tǒng)通用性設計及切分歧義處理[D]. 婁(王廷).北京工業(yè)大學 2000
本文編號:2951549
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2951549.html
教材專著