融合詞向量的多特征句子相似度計算方法研究
本文選題:詞向量 + 句子相似度; 參考:《計算機科學與探索》2017年04期
【摘要】:在歸納常見的句子相似度計算方法后,基于《人民日報》3.4萬余份文本訓練了用于語義相似度計算的詞向量模型,并設計了一種融合詞向量的多特征句子相似度計算方法。該方法在詞方面,考慮了句子中重疊的詞數和詞的連續(xù)性,并運用詞向量模型測量了非重疊詞間的相似性;在結構方面,考慮了句子中重疊詞的語序和兩個句子的長度一致性。實驗部分設計實現了4種句子相似度計算方法,并開發(fā)了相應的實驗系統(tǒng)。結果表明:提出的算法能夠取得相對較好的實驗結果,對句子中詞的語義特征和句子結構特征進行組合處理和優(yōu)化,能夠提升句子相似度計算的準確性。
[Abstract]:After summarizing common sentence similarity calculation methods, a word vector model for semantic similarity calculation is trained based on < People's Daily > 34000 texts, and a multi-feature sentence similarity calculation method combining word vectors is designed. In terms of words, the number of overlapping words and the continuity of words in a sentence are considered, and the similarity between non-overlapping words is measured by using word vector model. In the aspect of structure, the word order and the length consistency of two sentences are considered. In the experiment part, four kinds of sentence similarity calculation methods are designed and implemented, and the corresponding experimental system is developed. The results show that the proposed algorithm can obtain relatively good experimental results and can improve the accuracy of sentence similarity calculation by combining and optimizing the semantic features and sentence structure features of sentences.
【作者單位】: 中國人民解放軍后勤科學研究所;北京航空航天大學計算機學院;昆明理工大學信息工程與自動化學院;
【基金】:國家自然科學基金No.61370126 國家高技術研究發(fā)展計劃(863計劃)No.2015AA016004 國家社會科學基金No.15GJ003-154 軟件開發(fā)環(huán)境國家重點實驗室探索性自主研究課題基金No.SKLSDE-2015ZX-16~~
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 蔡東風;白宇;于水;葉娜;任曉娜;;一種基于語境的詞語相似度計算方法[J];中文信息學報;2010年03期
2 丁政建;張路;;一種改進的本體相似度計算方法[J];計算機工程;2010年24期
3 朱珍元;鄭誠;;一種改進的本體相似度計算方法[J];微型機與應用;2011年01期
4 崔韜世;麥范金;;詞語相似度計算方法分析[J];網絡安全技術與應用;2012年05期
5 王國春;鄭山紅;趙輝;董亞則;;基于階段遞進的綜合本體相似度計算方法[J];吉林大學學報(信息科學版);2014年02期
6 張忠平;田淑霞;劉洪強;;一種新的本體相似度計算方法[J];計算機應用研究;2008年10期
7 趙歡;李仁發(fā);王家琴;張在美;;綜合多層信息的本體概念相似度計算方法的研究[J];通信學報;2009年06期
8 李改;李章鳳;李磊;;一種新的社會化相似度計算方法[J];計算機應用研究;2013年09期
9 曾輝;徐海洲;鐘茂生;;基于主題和焦點的問句相似度計算方法[J];科學技術與工程;2014年06期
10 張忠平;田淑霞;劉洪強;;一種綜合的本體相似度計算方法[J];計算機科學;2008年12期
相關會議論文 前8條
1 白宇;于水;葉娜;蔡東風;任曉娜;;一種基于語境的詞語相似度計算方法[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 喬林;黃維通;孟威;;一種改進的知網系統(tǒng)詞語相似度計算方法[A];全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C];2005年
3 菅小艷;鄭家恒;;一種改進的句子相似度計算方法[A];第二屆全國信息檢索與內容安全學術會議(NCIRCS-2005)論文集[C];2005年
4 盧延科;尹寶生;張桂平;苗雪雷;白宇;;基于偽LCS的中文專利句子相似度計算方法[A];第五屆全國信息檢索學術會議論文集[C];2009年
5 章志凌;虞立群;羅海飛;邵曉敏;;基于改進Corpus庫的詞語相似度計算方法[A];第二十四屆中國控制會議論文集(下冊)[C];2005年
6 章成志;李斌;;基于混合策略的查詢串相似度計算方法[A];全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C];2005年
7 陳希友;馮少榮;張東站;薛永生;;基于反饋的用戶訪問預測模型[A];第二十五屆中國數據庫學術會議論文集(一)[C];2008年
8 李天寧;肖桐;朱靖波;;科技論文的IPC自動標注[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
相關博士學位論文 前2條
1 蔡圓媛;基于知識整合的詞匯語義相似度計算方法研究[D];北京交通大學;2016年
2 吳小坤;輕量級服務推薦算法研究[D];北京郵電大學;2015年
相關碩士學位論文 前10條
1 唐積益;推薦系統(tǒng)中相似度計算方法的研究[D];江蘇科技大學;2015年
2 張廣源;微博檢索系統(tǒng)關鍵技術研究與實現[D];北京工業(yè)大學;2015年
3 尹路修;XML文檔的聚類研究[D];湖南師范大學;2015年
4 鄒能清;一種基于語義網絡的中文文本相似度計算方法[D];湘潭大學;2015年
5 鄔明強;基于分段融合的藏文文本相似度計算方法研究[D];西北民族大學;2016年
6 呂亞偉;食品安全網絡輿情監(jiān)測方法研究[D];北京化工大學;2016年
7 王璐;一種綜合多層次信息的句子相似度計算方法研究[D];重慶大學;2016年
8 高鵬楊;基于多標簽學習框架的微博文本分類研究[D];東南大學;2016年
9 萬青云;并行LDA、聚類算法的研究及應用[D];南昌大學;2016年
10 陳欣;一種基于多屬性本體的概念相似度計算方法的研究[D];東北師范大學;2010年
,本文編號:2016847
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2016847.html