短信復(fù)制的文本在哪里_基于語句相似度的中文文本復(fù)制檢測技術(shù)研究
本文關(guān)鍵詞:中文文本復(fù)制檢測技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《北京郵電大學(xué)》 2015年
基于語句相似度的中文文本復(fù)制檢測技術(shù)研究
張慧云
【摘要】:隨著網(wǎng)絡(luò)和計算機(jī)的普及,電子文檔成為一種應(yīng)用廣泛的信息存儲形式。電子文檔方便共享、存儲代價低,為知識的傳播提供了很大的便利,但是這一特性也導(dǎo)致了復(fù)制抄襲的普遍性,文本復(fù)制檢測技術(shù)應(yīng)運而生。文本復(fù)制檢測技術(shù)主要用于檢測文本之間是否存在復(fù)制、抄襲等,是自然語言處理領(lǐng)域重要的研究方向,該技術(shù)可以應(yīng)用在數(shù)字圖書館系統(tǒng)、搜索系統(tǒng)、論文提交系統(tǒng)等很多領(lǐng)域。 在研究基于知網(wǎng)的詞語相似度計算方法的基礎(chǔ)上,本文提出一種改進(jìn)的詞語相似度計算方法。該方法通過知網(wǎng)的KDML語言,把詞語的相似度轉(zhuǎn)換為義原集合的相似度,綜合詞語含義的共性和差異性,使得相似度計算結(jié)果更加合理。此外,還提出一種改進(jìn)的基于詞語結(jié)構(gòu)和詞語順序的文本相似度計算方法。該方法綜合考慮了文本的詞語語義特征、局部結(jié)構(gòu)特征和詞序特征,提取的特征更為全面,計算得到的文本相似度結(jié)果更加準(zhǔn)確。 最后,本文利用提出的基于詞語結(jié)構(gòu)和詞序的相似度計算方法,實現(xiàn)了中文文本復(fù)制檢測系統(tǒng)。該復(fù)制檢測系統(tǒng)基于B/S結(jié)構(gòu),采用SSH技術(shù)框架,包含文本預(yù)處理模塊、文本檢測模塊、結(jié)果顯示模塊和樣本庫模塊。論文利用該復(fù)制檢測系統(tǒng)進(jìn)行了算法驗證,結(jié)果證明了改進(jìn)方法的有效性。
【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計算方法[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年06期
2 梅家駒;竺一鳴;高蘊(yùn)琦;殷鴻翔;;編纂漢語類義詞典的嘗試——《同義詞詞林》簡介[J];辭書研究;1983年01期
3 呂學(xué)強(qiáng),任飛亮,黃志丹,姚天順;句子相似模型和最相似句子查找算法[J];東北大學(xué)學(xué)報;2003年06期
4 董振東,董強(qiáng);知網(wǎng)和漢語研究[J];當(dāng)代語言學(xué);2001年01期
5 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計算機(jī)工程與應(yīng)用;2003年15期
6 章志凌;虞立群;陳奕秋;羅海飛;邵曉敏;;基于Corpus庫的詞語相似度計算方法[J];計算機(jī)應(yīng)用;2006年03期
7 于江生 ,俞士汶;中文概念詞典的結(jié)構(gòu)[J];中文信息學(xué)報;2002年04期
8 李峰;李芳;;中文詞語語義相似度計算——基于《知網(wǎng)》2000[J];中文信息學(xué)報;2007年03期
9 董振東;語義關(guān)系的表達(dá)和知識系統(tǒng)的建造[J];語言文字應(yīng)用;1998年03期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉高軍;馬硯忠;段建勇;;基于維基百科的中文命名實體關(guān)聯(lián)度計算[J];北方工業(yè)大學(xué)學(xué)報;2012年01期
2 趙欣欣;索紅光;劉玉樹;張利萍;;基于帶權(quán)語義距離的網(wǎng)頁預(yù)取方法[J];北京理工大學(xué)學(xué)報;2006年08期
3 耿增民;劉萬春;朱玉文;;受限領(lǐng)域的自動文摘方法研究[J];北京理工大學(xué)學(xué)報;2006年08期
4 陳康;樊孝忠;劉杰;賈可亮;;基于問句語義表征的中文問句相似度計算方法[J];北京理工大學(xué)學(xué)報;2007年12期
5 王濤;樊孝忠;林培光;陳康;;基于復(fù)雜特征集的剽竊檢測[J];北京理工大學(xué)學(xué)報;2008年02期
6 齊波;王成良;;現(xiàn)代漢語短語的機(jī)器識別[J];重慶工學(xué)院學(xué)報(自然科學(xué)版);2007年12期
7 王東海;張志毅;王麗英;;電子詞典編纂中的語義網(wǎng)與義鏈研究[J];長江學(xué)術(shù);2007年04期
8 伍瑩;;基于“詞群—詞位變體”理論的現(xiàn)代漢語形容詞語義網(wǎng)絡(luò)構(gòu)建——以“胖”類形容詞為例[J];長江學(xué)術(shù);2011年02期
9 高元梓;;基于CEF和WordNet的詞匯拓展框架的構(gòu)建[J];重慶文理學(xué)院學(xué)報(社會科學(xué)版);2010年03期
10 張燕;宋錦斌;;卡通動畫數(shù)字媒體資源管理系統(tǒng)[J];長沙醫(yī)學(xué)院學(xué)報;2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 哈斯那順烏日圖;;蒙古文WordNet名詞同義詞集合構(gòu)建算法[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 徐文堪;;信息革命時代的語言理論和詞典編纂[A];中國辭書論集2000[C];2000年
3 鄧輝;林柏鋼;;一種基于《知網(wǎng)》的敏感信息預(yù)測技術(shù)[A];第十屆中國科協(xié)年會論文集(三)[C];2008年
4 戴玲真;;從《朗文多功能分類詞典》看語義場理論在分類詞典編撰中的應(yīng)用[A];福建省外國語文學(xué)會2005年年會暨學(xué)術(shù)研討會論文集[C];2005年
5 王惠;蘇新春;;XHK基于語法知識的漢語詞義描述[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年
6 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會、河北省計算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機(jī)輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
7 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項抽取方法研究[A];第二十二屆中國(天津)'2008IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會議論文集[C];2008年
8 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項抽取方法研究[A];第二十三屆中國(天津)2009IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會議論文集[C];2009年
9 陳慧清;林世平;;基于知網(wǎng)和模式自舉的概念間分類關(guān)系獲取方法[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會議論文集[C];2009年
10 劉國剛;;人工智能客戶服務(wù)體系的研究與實現(xiàn)[A];2008年中國通信學(xué)會無線及移動通信委員會學(xué)術(shù)年會論文集[C];2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉洋;基于本體的醫(yī)保審計知識庫構(gòu)建研究[D];哈爾濱工程大學(xué);2010年
2 王森;基于主題樹的自上而下文本復(fù)制檢測研究[D];大連理工大學(xué);2010年
3 孔勝;文本資源的知識抽取研究[D];大連理工大學(xué);2010年
4 呂韶華;面向中文評論文本的情感傾向性研究[D];大連理工大學(xué);2010年
5 邢鑫巖;基于序列模型的情感分析研究[D];大連理工大學(xué);2010年
6 蔡頌梅;語義增強(qiáng)的關(guān)系相似度度量算法研究[D];華東師范大學(xué);2011年
7 楊朝玉;基于知網(wǎng)的受限域問答系統(tǒng)原型的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年
8 王阿婷;基于概念集合的網(wǎng)頁內(nèi)容過濾方法的研究[D];北京交通大學(xué);2010年
9 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現(xiàn)[D];華東理工大學(xué);2011年
10 胡青;語義目錄的實現(xiàn)機(jī)制研究[D];武漢科技大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙蔚;劉秀琴;邱百爽;;語義網(wǎng)自適應(yīng)學(xué)習(xí)系統(tǒng)中領(lǐng)域本體的構(gòu)建[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2008年05期
2 朱靖波,王寶庫,姚天順;一種規(guī)則描述語言NPRDL語言[J];東北大學(xué)學(xué)報;1996年06期
3 程濤;施水才;王霞;呂學(xué)強(qiáng);;基于同義詞詞林的中文文本主題詞提取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
4 魯川,緱瑞隆,劉欽榮;交易類四價動詞及漢語謂詞配價的分類系統(tǒng)[J];漢語學(xué)習(xí);2000年06期
5 邱百爽;趙蔚;劉秀琴;;基于語義網(wǎng)的自適應(yīng)學(xué)習(xí)系統(tǒng)中用戶模型的研究[J];開放教育研究;2008年04期
6 黃河燕,陳肇雄,胡曾劍;IHSMTS中實例模式獲取機(jī)制的設(shè)計與實現(xiàn)[J];計算機(jī)研究與發(fā)展;2002年05期
7 王長勝,劉群;基于實例的漢英機(jī)器翻譯系統(tǒng)研究與實現(xiàn)[J];計算機(jī)工程與應(yīng)用;2002年08期
8 吳健,吳朝暉,李瑩,鄧水光;基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J];計算機(jī)學(xué)報;2005年04期
9 章志凌;虞立群;陳奕秋;羅海飛;邵曉敏;;基于Corpus庫的詞語相似度計算方法[J];計算機(jī)應(yīng)用;2006年03期
10 余正濤,高盛祥,紀(jì)鵬程;RDAQAS中問句相似度計算方法研究[J];昆明理工大學(xué)學(xué)報(理工版);2004年02期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 魯松;白碩;;詞距離的計算方法[A];自然語言理解與機(jī)器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
2 關(guān)毅;王曉龍;;基于統(tǒng)計的漢語詞匯間語義相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
3 顏偉;荀恩東;;基于WordNet的英語詞語相似度計算[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭帆;余敏;葉繼華;;一種基于分類和相似度的報警聚合方法[J];計算機(jī)應(yīng)用;2007年10期
2 許鵬遠(yuǎn);黨延忠;;基于元相似度的推薦算法[J];計算機(jī)應(yīng)用研究;2011年10期
3 孫喜來;王欣;葛昂;鄭家民;鄧宏斌;;面向相似度的多維異構(gòu)數(shù)據(jù)比對模型研究[J];信息安全與技術(shù);2011年09期
4 楊云;朱學(xué)峰;;一種新的計算中藥指紋圖譜相似度方法與實現(xiàn)[J];計算機(jī)測量與控制;2007年10期
5 熊子奇;張暉;林茂松;;基于相似度的中文網(wǎng)頁正文提取算法[J];西南科技大學(xué)學(xué)報;2010年01期
6 劉萍;陳燁;;詞匯相似度研究進(jìn)展綜述[J];現(xiàn)代圖書情報技術(shù);2012年Z1期
7 孫瑤瑤;劉杰;;基于Embedded MATLAB函數(shù)模塊的圖像相似度的實現(xiàn)[J];計算機(jī)與數(shù)字工程;2010年02期
8 朱新懿;耿國華;;顱面重構(gòu)中顱面相似度比較[J];計算機(jī)應(yīng)用研究;2010年08期
9 厲晗;徐向民;尤芳敏;錢民;馬東;;利用相似度分割特征集的混合核構(gòu)造方法[J];科學(xué)技術(shù)與工程;2007年04期
10 邢長征;孫偉;;一種改進(jìn)的基于句子相似度的檢測算法[J];計算機(jī)系統(tǒng)應(yīng)用;2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 杜琦;鞏政;;基于字符串相似度的自動評分算法實現(xiàn)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年
2 韓敏;唐常杰;段磊;李川;鞏杰;;基于TF/IDF相似度的標(biāo)簽聚類方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
3 郭帆;葉繼華;余敏;;分布式IDS報警聚合研究與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 何梅;劉亞軍;陳耿;;詞性劃分和差額法在主觀題閱卷中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 朱新懿;三維顱面相似度比較的研究[D];西北大學(xué);2012年
2 吳迪;基于加權(quán)相似度的序列聚類算法研究[D];燕山大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 唐凌志;基于語義理解的論文相似度研究[D];湘潭大學(xué);2011年
2 梁浩;網(wǎng)絡(luò)新聞相似度檢測系統(tǒng)[D];吉林大學(xué);2011年
3 單晗懷;跨媒體相似度機(jī)制研究和實現(xiàn)[D];浙江大學(xué);2006年
4 朱松;術(shù)語相似度和術(shù)語相關(guān)度的融合研究及應(yīng)用[D];河北大學(xué);2008年
5 裴冬梅;程序代碼相似度中的代碼轉(zhuǎn)換技術(shù)的研究[D];內(nèi)蒙古師范大學(xué);2008年
6 徐德玉;中文文檔內(nèi)容相似度檢測方法研究[D];長春工業(yè)大學(xué);2010年
7 黃妮;網(wǎng)絡(luò)學(xué)習(xí)平臺中的分詞與句子相似度算法研究[D];陜西師范大學(xué);2012年
8 張金鵬;基于語義的文本相似度算法研究及應(yīng)用[D];重慶理工大學(xué);2014年
9 張慧云;基于語句相似度的中文文本復(fù)制檢測技術(shù)研究[D];北京郵電大學(xué);2015年
10 王艷紅;基于節(jié)點相似度的復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的研究[D];西安電子科技大學(xué);2014年
本文關(guān)鍵詞:中文文本復(fù)制檢測技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:168438
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/168438.html