科技文檔的分類與查重
發(fā)布時(shí)間:2024-02-01 12:17
科技活動(dòng)具有不同的活動(dòng)形式與內(nèi)容,科技活動(dòng)的目的也具有多樣性。為了能夠?qū)崿F(xiàn)科學(xué)的評(píng)價(jià)科技項(xiàng)目的科技、社會(huì)、經(jīng)濟(jì)價(jià)值,本文提出了對(duì)科技項(xiàng)目分類與查重的相關(guān)模型和處理方法。 本文采用基于關(guān)鍵詞匹配的一種改進(jìn)的最大匹配分詞算法,在對(duì)科技文檔分詞得到的詞頻統(tǒng)計(jì)結(jié)果的基礎(chǔ)上,利用漢明碼集模板構(gòu)造了科技文檔的漢明碼集。在領(lǐng)域劃分模型的支持下,在基于漢明距離計(jì)算的文本相似度的基礎(chǔ)上將科技文檔劃分到其相應(yīng)的應(yīng)用領(lǐng)域。并基于歷史科技文檔的漢明碼集,利用改進(jìn)的誤差反傳算法對(duì)三層前饋人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練后可實(shí)現(xiàn)對(duì)科技文檔的自動(dòng)聚類,為實(shí)現(xiàn)科技項(xiàng)目同類可比性提供了支持。同時(shí),為了實(shí)現(xiàn)一份科技文檔的相似文檔快速查找功能,本文將已有的科技文檔按照層次聚類法構(gòu)造成樹(shù)形知識(shí)結(jié)構(gòu),可以極大的提高相似項(xiàng)目查找的速度和效率。
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
第1章 緒論
1.1 本文研究的目的
1.1.1 本文研究的目的
1.1.2 本文研究的意義
1.2 國(guó)內(nèi)外的研究現(xiàn)狀
1.2.1 科技文檔分類
1.2.2 文本相似度計(jì)算
1.2.3 中文分詞技術(shù)
1.3 本文的創(chuàng)新之處及內(nèi)容安排
1.3.1 本文的創(chuàng)新之處
1.3.2 本文的內(nèi)容安排
第2章 對(duì)項(xiàng)目申報(bào)書的分詞
2.1 對(duì)申報(bào)書分詞前的預(yù)處理
2.2 具體分詞算法與消歧處理
2.2.1 分詞詞典存儲(chǔ)格式
2.2.2 改進(jìn)的MM 方法
2.2.3 歧義詞處理
2.2.4 多義字處理
2.2.5 未登錄詞的處理
第3章 中文文本相似度計(jì)算
3.1 中文文本相似度計(jì)算模型
3.1.1 相似度
3.1.2 相似算法
3.2 中文文本相似度計(jì)算的主要方法
3.2.1 隱性語(yǔ)義標(biāo)引
3.2.2 基于向量空間模型的TF-IDF 方法
3.2.3 基于語(yǔ)義理解的相似度計(jì)算方法
3.2.4 基于屬性論的文本相似度計(jì)算方法
3.2.5 基于漢明距離的文本相似度計(jì)算方法
3.3 文本相似度計(jì)算方法的選擇
3.4 存在問(wèn)題及發(fā)展方向
3.4.1 存在的問(wèn)題
3.4.2 未來(lái)的發(fā)展方向
第4章 科技項(xiàng)目的計(jì)算機(jī)表示與分類、查重
4.1 知識(shí)表示的相關(guān)方法
4.1.1 產(chǎn)生式規(guī)則表示
4.1.2 語(yǔ)義網(wǎng)絡(luò)表示
4.1.3 框架表示
4.1.4 面向?qū)ο蟊硎?br> 4.2 科技項(xiàng)目的計(jì)算機(jī)表示
4.3 科技項(xiàng)目的分類規(guī)則與特點(diǎn)
4.3.1 項(xiàng)目分類的必要性
4.3.2 科技項(xiàng)目分類評(píng)價(jià)原則
4.3.3 本文所采用的分類標(biāo)準(zhǔn)
4.3.4 基于計(jì)算機(jī)表示的項(xiàng)目分類
4.4 基于計(jì)算機(jī)表示的項(xiàng)目聚類方法
4.4.1 基于誤差反傳算法的前饋神經(jīng)網(wǎng)絡(luò)
4.4.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與申報(bào)書聚類的實(shí)現(xiàn)
4.5 項(xiàng)目申報(bào)書在計(jì)算機(jī)內(nèi)的組織方式與知識(shí)表示
4.6 項(xiàng)目申報(bào)書的查重處理
第5章 系統(tǒng)設(shè)計(jì)與實(shí)施
5.1 系統(tǒng)組成與設(shè)計(jì)
5.1.1 分詞詞典
5.1.2 文本分詞模塊
5.1.3 漢明碼字庫(kù)集
5.1.4 領(lǐng)域劃分模塊
5.1.5 申報(bào)書聚類模塊
5.1.6 申報(bào)書查重模塊
5.2 系統(tǒng)實(shí)施
5.3 待解決的問(wèn)題
結(jié)論
參考文獻(xiàn)
后記
本文編號(hào):3892101
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
英文摘要
第1章 緒論
1.1 本文研究的目的
1.1.1 本文研究的目的
1.1.2 本文研究的意義
1.2 國(guó)內(nèi)外的研究現(xiàn)狀
1.2.1 科技文檔分類
1.2.2 文本相似度計(jì)算
1.2.3 中文分詞技術(shù)
1.3 本文的創(chuàng)新之處及內(nèi)容安排
1.3.1 本文的創(chuàng)新之處
1.3.2 本文的內(nèi)容安排
第2章 對(duì)項(xiàng)目申報(bào)書的分詞
2.1 對(duì)申報(bào)書分詞前的預(yù)處理
2.2 具體分詞算法與消歧處理
2.2.1 分詞詞典存儲(chǔ)格式
2.2.2 改進(jìn)的MM 方法
2.2.3 歧義詞處理
2.2.4 多義字處理
2.2.5 未登錄詞的處理
第3章 中文文本相似度計(jì)算
3.1 中文文本相似度計(jì)算模型
3.1.1 相似度
3.1.2 相似算法
3.2 中文文本相似度計(jì)算的主要方法
3.2.1 隱性語(yǔ)義標(biāo)引
3.2.2 基于向量空間模型的TF-IDF 方法
3.2.3 基于語(yǔ)義理解的相似度計(jì)算方法
3.2.4 基于屬性論的文本相似度計(jì)算方法
3.2.5 基于漢明距離的文本相似度計(jì)算方法
3.3 文本相似度計(jì)算方法的選擇
3.4 存在問(wèn)題及發(fā)展方向
3.4.1 存在的問(wèn)題
3.4.2 未來(lái)的發(fā)展方向
第4章 科技項(xiàng)目的計(jì)算機(jī)表示與分類、查重
4.1 知識(shí)表示的相關(guān)方法
4.1.1 產(chǎn)生式規(guī)則表示
4.1.2 語(yǔ)義網(wǎng)絡(luò)表示
4.1.3 框架表示
4.1.4 面向?qū)ο蟊硎?br> 4.2 科技項(xiàng)目的計(jì)算機(jī)表示
4.3 科技項(xiàng)目的分類規(guī)則與特點(diǎn)
4.3.1 項(xiàng)目分類的必要性
4.3.2 科技項(xiàng)目分類評(píng)價(jià)原則
4.3.3 本文所采用的分類標(biāo)準(zhǔn)
4.3.4 基于計(jì)算機(jī)表示的項(xiàng)目分類
4.4 基于計(jì)算機(jī)表示的項(xiàng)目聚類方法
4.4.1 基于誤差反傳算法的前饋神經(jīng)網(wǎng)絡(luò)
4.4.2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與申報(bào)書聚類的實(shí)現(xiàn)
4.5 項(xiàng)目申報(bào)書在計(jì)算機(jī)內(nèi)的組織方式與知識(shí)表示
4.6 項(xiàng)目申報(bào)書的查重處理
第5章 系統(tǒng)設(shè)計(jì)與實(shí)施
5.1 系統(tǒng)組成與設(shè)計(jì)
5.1.1 分詞詞典
5.1.2 文本分詞模塊
5.1.3 漢明碼字庫(kù)集
5.1.4 領(lǐng)域劃分模塊
5.1.5 申報(bào)書聚類模塊
5.1.6 申報(bào)書查重模塊
5.2 系統(tǒng)實(shí)施
5.3 待解決的問(wèn)題
結(jié)論
參考文獻(xiàn)
后記
本文編號(hào):3892101
本文鏈接:http://www.sikaile.net/tushudanganlunwen/3892101.html
最近更新
教材專著