基于文本和公式的科技文檔相似度計算研究
發(fā)布時間:2021-10-14 09:36
常用的文檔相似度計算方法主要包括集合模型方法、向量空間模型方法、潛在語義分析法等,這些方法僅利用文本信息計算文檔相似度。然而,科技文檔中包含著大量的非文本信息,如公式、圖和表,從而使得原有方法已不太適用。本文提出一種基于文本和公式的科技文檔相似度計算方法。該方法主要考慮科技文檔中的文本和公式信息,在得到文本相似度和文檔間公式相似度的基礎(chǔ)上,利用線性組合方法得到科技文檔相似度。在MREC數(shù)據(jù)集上的實驗結(jié)果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。結(jié)合公式信息計算科技文檔相似度,不僅能有效提高科技文檔相似度的準(zhǔn)確性,而且可以實現(xiàn)跨語言科技文檔的相似度計算。本文的主要工作包括:公式相似度計算方法有很多種,在不考慮公式變量的前提下,本文提出兩種公式相似度計算方法。針對基于文本方法中未考慮公式特征元素有序性的問題,提出一種基于特征序列化的公式相似度計算方法。該方法有序提取公式的運算符、常量和括號作為其特征元素,將公式特征元素的位置映射為位置向量,通過計算位置向量是否相等得到公式相似度。針對混合方法中子樹的無效匹配問題,提出一種基于有效匹配子樹的公式相似度計算方法。該方...
【文章來源】:河北大學(xué)河北省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
詞-文本矩陣
貨物運輸優(yōu)化圖
圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點到葉子節(jié)點的任何一條路徑。一個公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后,采用公式(2.11)計算公式相似度。
【參考文獻(xiàn)】:
期刊論文
[1]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢佳. 圖書館論壇. 2017(11)
[6]基于術(shù)語同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬圣賢,程學(xué)旗. 計算機(jī)學(xué)報. 2017(04)
[8]基于語義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀. 情報理論與實踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊. 計算機(jī)工程與設(shè)計. 2016(04)
[10]基于術(shù)語間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民. 現(xiàn)代情報. 2014(09)
碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007
本文編號:3435908
【文章來源】:河北大學(xué)河北省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
詞-文本矩陣
貨物運輸優(yōu)化圖
圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點到葉子節(jié)點的任何一條路徑。一個公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后,采用公式(2.11)計算公式相似度。
【參考文獻(xiàn)】:
期刊論文
[1]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動分類研究[J]. 李湘東,阮濤,劉康. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢佳. 圖書館論壇. 2017(11)
[6]基于術(shù)語同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民. 河北大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬圣賢,程學(xué)旗. 計算機(jī)學(xué)報. 2017(04)
[8]基于語義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀. 情報理論與實踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊. 計算機(jī)工程與設(shè)計. 2016(04)
[10]基于術(shù)語間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民. 現(xiàn)代情報. 2014(09)
碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007
本文編號:3435908
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3435908.html
最近更新
教材專著