天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于文本和公式的科技文檔相似度計算研究

發(fā)布時間:2021-10-14 09:36
  常用的文檔相似度計算方法主要包括集合模型方法、向量空間模型方法、潛在語義分析法等,這些方法僅利用文本信息計算文檔相似度。然而,科技文檔中包含著大量的非文本信息,如公式、圖和表,從而使得原有方法已不太適用。本文提出一種基于文本和公式的科技文檔相似度計算方法。該方法主要考慮科技文檔中的文本和公式信息,在得到文本相似度和文檔間公式相似度的基礎(chǔ)上,利用線性組合方法得到科技文檔相似度。在MREC數(shù)據(jù)集上的實驗結(jié)果表明,文本和公式方法在宏平均F1-score(MF)上最大可提高3%。結(jié)合公式信息計算科技文檔相似度,不僅能有效提高科技文檔相似度的準(zhǔn)確性,而且可以實現(xiàn)跨語言科技文檔的相似度計算。本文的主要工作包括:公式相似度計算方法有很多種,在不考慮公式變量的前提下,本文提出兩種公式相似度計算方法。針對基于文本方法中未考慮公式特征元素有序性的問題,提出一種基于特征序列化的公式相似度計算方法。該方法有序提取公式的運算符、常量和括號作為其特征元素,將公式特征元素的位置映射為位置向量,通過計算位置向量是否相等得到公式相似度。針對混合方法中子樹的無效匹配問題,提出一種基于有效匹配子樹的公式相似度計算方法。該方... 

【文章來源】:河北大學(xué)河北省

【文章頁數(shù)】:61 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于文本和公式的科技文檔相似度計算研究


詞-文本矩陣

貨物運輸,倉庫


貨物運輸優(yōu)化圖

樹型結(jié)構(gòu),公式,采用公式,樹型


圖 2-3 公式樹型結(jié)構(gòu)及子路徑Y(jié)okoi 將子路徑集定義為從根節(jié)點到葉子節(jié)點的任何一條路徑。一個公式樹型其子路徑集如圖 2-3 所示。獲取到公式樹型結(jié)構(gòu)的子路徑集后,采用公式(2.11)計算公式相似度。

【參考文獻(xiàn)】:
期刊論文
[1]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源.  情報科學(xué). 2019(03)
[2]基于數(shù)學(xué)表達(dá)式特征的科技文檔檢索模型[J]. 田學(xué)東,崔曉娟.  河北大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]基于維基百科的多種類型文獻(xiàn)自動分類研究[J]. 李湘東,阮濤,劉康.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(10)
[4]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[5]基于RPYS分析的引文分析研究:起源和演化[J]. 李信,趙薇,肖香龍,吳夢佳.  圖書館論壇. 2017(11)
[6]基于術(shù)語同義關(guān)系的文檔相似度研究[J]. 張錫忠,徐建民.  河北大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[7]深度文本匹配綜述[J]. 龐亮,蘭艷艷,徐君,郭嘉豐,萬圣賢,程學(xué)旗.  計算機(jī)學(xué)報. 2017(04)
[8]基于語義概念分析的科技文獻(xiàn)檢索研究[J]. 張孝飛,孔繁秀.  情報理論與實踐. 2016(08)
[9]基于有效路徑權(quán)重的XML樹匹配算法[J]. 趙艷妮,郭華磊.  計算機(jī)工程與設(shè)計. 2016(04)
[10]基于術(shù)語間本體關(guān)聯(lián)度的文檔相關(guān)度研究[J]. 吳樹芳,劉暢,徐建民.  現(xiàn)代情報. 2014(09)

碩士論文
[1]基于共引的科技文獻(xiàn)聚類算法的研究與應(yīng)用[D]. 王秋秋.浙江工業(yè)大學(xué) 2017
[2]融入數(shù)學(xué)表達(dá)式特征的科技論文個性化推薦[D]. 李曉雨.河北大學(xué) 2017
[3]匈牙利算法及其推廣[D]. 謝博耶夫.華東師范大學(xué) 2016
[4]基于word2vec的中文文本相似度研究與實現(xiàn)[D]. 吳多堅.西安電子科技大學(xué) 2016
[5]基于Hadamard變換的編碼壓縮及其主成分增強技術(shù)[D]. 何永龍.湖南大學(xué) 2014
[6]文本相似度計算理論與應(yīng)用研究[D]. 馬軍紅.西北大學(xué) 2011
[7]基于圖的科技文獻(xiàn)相似性搜索關(guān)鍵技術(shù)研究[D]. 朱戈.黑龍江大學(xué) 2011
[8]科技文檔中數(shù)學(xué)公式的描述與檢索[D]. 盧托.華中科技大學(xué) 2007



本文編號:3435908

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3435908.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶72b0f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com