天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

安卓文本復制器_手機怎樣強行復制文本_《杭州電子科技大學》2009年碩士論文

發(fā)布時間:2016-08-15 14:02

  本文關鍵詞:中文文本復制檢測技術研究,由筆耕文化傳播整理發(fā)布。


《杭州電子科技大學》 2009年

中文文本復制檢測技術研究

盧小康  

【摘要】:在信息社會中,隨著計算機技術、通信技術、網絡技術的快速發(fā)展,網絡已成為人們獲取信息的一個重要途徑。人們預測,在不久的將來網絡媒體將會取代平面媒體成為人們獲取信息的主要渠道。面對因特網上信息持續(xù)爆炸式地增長,如何從中快速找到用戶所需要的信息成為一個難題。 為解決這個難題,搜索引擎技術應運而生。然而,現在的搜索引擎技術并非十分完善,返回結果集合中存在大量重復網頁。這些重復網頁主要是因為網站間的轉載引起的,它不但加大了用戶檢索到所需信息的難度,也浪費了存儲空間。因此,檢測出大量重復網頁,避免重復存儲,使信息檢索做到快速、準確是一項有意義的工作。另一方面,在因特網電子商務環(huán)境下,數字商品很容易被非法復制和擴散,這無疑會妨礙電子商務的健康發(fā)展。復制檢測技術一定程度上能輔助解決上述問題。目前國內中文文本復制檢測研究還不成熟,沒有一個完善的解決方案,許多問題需要解決。 本文首先對文本復制檢測技術的現狀和發(fā)展進行了簡要的回顧,對文本復制檢測技術的相關技術作了研究,并對中文文本預處理過程、文本分塊和特征提取策略、文本相似度的度量方法、文本復制檢測算法等問題進行了詳細論述。分析了常用的復制檢測算法,并對算法性能、優(yōu)缺點做了分析和比較。然后,本文著重研究了中文文本復制檢測算法,并提出兩種改進的算法。 傳統(tǒng)基于N-Gram的中文文本復制檢測方法雖然可以避免文本分詞,但在文本特征提取方面并不完善。本文改進了基于N-Gram的文本復制檢測方法,將N-Gram方法與滑動窗口技術結合起來,使得提取少量的文本特征就能較準確地計算文本相似度,從而提高算法的效率。實驗證明,該方法是行之有效的,取得了比較理想的查全率和查準率。 本文提出了一種改進的基于句子比較的文本復制檢測方法。方法采用句子-文檔多層索引存儲結構,使得在進行文本復制檢測時,通過句子能夠直接查找到存在該句子的所有文檔的信息。 本文最后用經過人工標注的文本測試語料對文中改進的兩種文本復制檢測方法進行測試,對測試結果進行分析和比較,用查準率和查全率兩個性能評價指標對兩種復制檢測方法的檢測結果進行評價。實驗結果顯示,本文所改進的兩種復制檢測方法均能達到較為理想的檢測效果。

【關鍵詞】:
【學位授予單位】:杭州電子科技大學
【學位級別】:碩士
【學位授予年份】:2009
【分類號】:TP391.1
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【引證文獻】

中國碩士學位論文全文數據庫 前1條

1 宋杰;改進的基于串匹配的中文文檔復制檢測方法研究[D];湖南大學;2012年

【參考文獻】

中國期刊全文數據庫 前10條

1 李旭;趙亞偉;劉國華;;基于指紋和語義特征的文檔復制檢測方法[J];燕山大學學報;2008年04期

2 樊勇;鄭家恒;;基于主題的網頁去重[J];電腦開發(fā)與應用;2008年04期

3 閻亞杰;;網頁去重方法研究[J];電腦開發(fā)與應用;2008年08期

4 趙巾幗;徐德智;羅慶云;;漢語句子相似度計算方法比對之研究[J];福建電腦;2007年10期

5 林清波,吳錘紅;求最長公共子序列長度的一個新方法[J];福建農業(yè)大學學報;1998年04期

6 麻會東;劉國華;李現偉;劉春輝;;基于文檔指紋的中文復制檢測方法[J];廣西師范大學學報(自然科學版);2007年04期

7 宋擒豹,沈鈞毅;數字商品非法復制和擴散的監(jiān)測機制[J];計算機研究與發(fā)展;2001年01期

8 張義忠,趙明生,朱精南;基于內容的網頁特征提取[J];計算機工程與應用;2001年10期

9 楊文峰,李星;基于PAT TREE統(tǒng)計語言模型與關鍵詞自動提取[J];計算機工程與應用;2001年15期

10 麻會東;劉國華;李旭;梁鵬;劉春輝;張凌宇;;基于提取關鍵詞的中文文檔復制檢測研究[J];計算機工程與科學;2007年10期

中國碩士學位論文全文數據庫 前1條

1 李健;聚類分析及其在文本挖掘中的應用[D];西安電子科技大學;2005年

【共引文獻】

中國期刊全文數據庫 前10條

1 文庭孝;漢語自動分詞研究進展[J];圖書與情報;2005年05期

2 吳斐;唐雁;補嘉;;基于N-gram的VB源代碼抄襲檢測方法[J];重慶理工大學學報(自然科學);2012年02期

3 李艷紅;龐小平;李海亭;;地名分詞搜索的詞典設計與匹配方法研究[J];測繪信息與工程;2011年02期

4 李躍民;王浩;趙生慧;;有詞典中文分詞算法研究[J];滁州學院學報;2008年03期

5 麻會東;劉國華;梁鵬;苑迎;;文檔復制檢測技術[J];燕山大學學報;2007年05期

6 李旭;趙亞偉;劉國華;;基于指紋和語義特征的文檔復制檢測方法[J];燕山大學學報;2008年04期

7 張玉連;王莎莎;宋桂江;;基于元搜索的網頁去重算法[J];燕山大學學報;2011年02期

8 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期

9 王雯;廖祥忠;;數字圖像作品抄襲鑒定研究[J];大連理工大學學報;2011年S1期

10 鄭天宏;許杭杰;董黎剛;;中文文本抄襲檢查系統(tǒng)的改良與設計[J];電腦編程技巧與維護;2010年20期

中國重要會議論文全文數據庫 前8條

1 曹玉娟;牛振東;彭學平;江鵬;;一個基于特征向量的近似網頁去重算法[A];中國索引學會第三次全國會員代表大會暨學術論壇論文集[C];2008年

2 連浩;劉悅;許洪波;王斌;程學旗;;一種改進的基于內容的快速網頁查重算法[A];全國第八屆計算語言學聯合學術會議(JSCL-2005)論文集[C];2005年

3 王智超;季鐸;蔡東風;張桂平;;文本聚類中基于知網的特征抽取方法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

4 沙蕓;周俊武;張國英;;基于主題關鍵詞的新聞去重算法[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

5 張亮;尹存燕;陳家駿;;基于語義樹的中文詞語相似度計算與分析[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

6 韓詠;孔蕾蕾;齊浩亮;;科技論文原創(chuàng)性檢查系統(tǒng)的研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

7 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現特征的中文自動文摘研究[A];第五屆全國信息檢索學術會議論文集[C];2009年

8 吳繼媛;孫淳;侯敏;;面向傳媒語言語料庫的關鍵詞自動抽取研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年

中國博士學位論文全文數據庫 前10條

1 盧建平;基于拓撲學和統(tǒng)計學的無字庫漢字智能造字研究[D];華南理工大學;2010年

2 侯鋒;中文報業(yè)出版的文字質量智能輔助控制技術研究[D];國防科學技術大學;2010年

3 荊濤;面向領域網頁的語義標注若干問題研究[D];吉林大學;2011年

4 孫晶濤;基于內容的垃圾郵件過濾技術研究[D];蘭州理工大學;2010年

5 龍軍;基于信任感知與演化的服務組合關鍵技術研究[D];中南大學;2011年

6 趙威;電網數據中心的數據安全問題研究[D];燕山大學;2011年

7 肖珊;基于概念語義的言說動詞系統(tǒng)研究[D];武漢大學;2011年

8 李世奇;面向文景轉換的中文淺層語義分析方法研究[D];哈爾濱工業(yè)大學;2011年

9 魏圓圓;基于本體論的農業(yè)知識建模及推理研究[D];中國科學技術大學;2011年

10 李俠;配價理論與語義詞典[D];黑龍江大學;2011年

中國碩士學位論文全文數據庫 前10條

1 王森;基于主題樹的自上而下文本復制檢測研究[D];大連理工大學;2010年

2 孫偉;基于文檔復制檢測技術的研究與實現[D];遼寧工程技術大學;2010年

3 楊芹;基于最大熵模型的中文網頁分類器設計和實現[D];蘇州大學;2010年

4 劉金鳳;面向自然語言處理的漢語句子語義知識庫構建研究[D];魯東大學;2009年

5 徐德玉;中文文檔內容相似度檢測方法研究[D];長春工業(yè)大學;2010年

6 李福轉;基于內容的垃圾郵件過濾技術的研究[D];電子科技大學;2010年

7 孟祥燕;問答對自動獲取的研究[D];昆明理工大學;2008年

8 陳林;基于指令詞的軟件特征技術研究[D];解放軍信息工程大學;2010年

9 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學;2010年

10 陳磊;用例圖到順序圖轉換的研究[D];西安電子科技大學;2009年

【同被引文獻】

中國期刊全文數據庫 前10條

1 麻會東;劉國華;梁鵬;苑迎;;文檔復制檢測技術[J];燕山大學學報;2007年05期

2 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學學報;2005年02期

3 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期

4 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術;2009年10期

5 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網頁檢測算法的研究與評價[J];電子學報;2000年S1期

6 宋擒豹,沈鈞毅;數字商品非法復制和擴散的監(jiān)測機制[J];計算機研究與發(fā)展;2001年01期

7 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術研究[J];計算機工程與應用;2003年15期

8 宋擒豹,楊向榮,沈鈞毅,齊勇;數字商品非法復制的檢測算法[J];計算機學報;2002年11期

9 董振東;董強;郝長伶;;知網的理論發(fā)現[J];中文信息學報;2007年04期

10 李玲娟;張睿;;數據泄漏防御算法的研究[J];計算機應用研究;2009年11期

中國博士學位論文全文數據庫 前1條

1 李旭;基于指紋和語義知識表示的中文文檔復制檢測方法[D];燕山大學;2010年

中國碩士學位論文全文數據庫 前3條

1 秦新國;電子作業(yè)管理和作業(yè)抄襲檢測技術研究[D];南京師范大學;2007年

2 甘燦;基于同義詞替換的自然語言文本信息隱藏技術研究[D];湖南大學;2008年

3 李婷婷;基于語義結構的學術論文復制檢測技術研究與實現[D];北京郵電大學;2010年

【二級參考文獻】

中國期刊全文數據庫 前10條

1 趙明臻;網絡信息檢索障礙及排除策略探論[J];圖書與情報;2005年01期

2 史彥軍,滕弘飛,金博;抄襲論文識別研究與進展[J];大連理工大學學報;2005年01期

3 金博,史彥軍,滕弘飛;基于語義理解的文本相似度算法[J];大連理工大學學報;2005年02期

4 金博;史彥軍;滕弘飛;;基于篇章結構相似度的復制檢測算法[J];大連理工大學學報;2007年01期

5 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網頁檢測算法的研究與評價[J];電子學報;2000年S1期

6 盧世光,丁方忠;搜索引擎使用技術回顧和發(fā)展趨勢探討[J];廣東通信技術;1999年05期

7 黃麗瓊;何中市;;基于統(tǒng)計語義和結構特征的自動文摘[J];廣西師范大學學報(自然科學版);2006年04期

8 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實例的Web信息抽取[J];河北大學學報(自然科學版);2001年04期

9 秦兵,劉挺,王洋,鄭實福,李生;基于常問問題集的中文問答系統(tǒng)研究[J];哈爾濱工業(yè)大學學報;2003年10期

10 何明;胡彩霞;;一種文本相似性的度量方法和計算方法[J];黃山學院學報;2005年06期

中國博士學位論文全文數據庫 前1條

1 袁方;面向智能信息檢索的Web挖掘關鍵技術研究[D];東北大學;2006年

中國碩士學位論文全文數據庫 前1條

1 岳文;信息檢索算法在Web中的應用與研究[D];湖南大學;2006年

【相似文獻】

中國期刊全文數據庫 前10條

1 鮑軍鵬,沈鈞毅,劉曉東;一個基于網格的文本復制檢測系統(tǒng)[J];微電子學與計算機;2004年09期

2 盧小康;王小華;王榮波;;一種句子級別的中文文本復制檢測方法[J];杭州電子科技大學學報;2009年06期

3 楊俊麗;彭新光;;中文文本復制檢測系統(tǒng)[J];山西大同大學學報(自然科學版);2008年02期

4 燕繼坤,鄭輝,席建民;相似文本的快速搜索[J];計算機工程;2004年15期

5 李旭;劉國華;余靖;王蕾;;一種面向文檔復制檢測的特征提取方法[J];小型微型計算機系統(tǒng);2008年05期

6 仇壯麗;;在線論文復制檢測系統(tǒng)設計[J];計算機工程與應用;2011年19期

7 金博,史彥軍,滕弘飛;中文文檔復制檢測系統(tǒng)研究[J];計算機工程;2005年19期

8 徐德玉;王迪;;基于COPS原型系統(tǒng)的網上文章復制檢測[J];科技信息;2009年31期

9 程玉柱;鄔書躍;;基于部件的文本相似度計算[J];計算機工程與設計;2006年18期

10 宋擒豹,沈鈞毅;數字商品非法復制和擴散的監(jiān)測機制[J];計算機研究與發(fā)展;2001年01期

中國重要會議論文全文數據庫 前10條

1 鄭天宏;許杭杰;董黎剛;;中文文本抄襲檢查技術的研究[A];浙江省電子學會2010學術年會論文集[C];2010年

2 徐幸;王厚峰;;中文文本蘊含的推理模型[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 齊攀;陳曉云;;一種基于統(tǒng)計信息的無字典中文文本特征提取算法[A];第二十屆全國數據庫學術會議論文集(技術報告篇)[C];2003年

4 高楚舒;丁于思;;因特網中文文本信息分析[A];計算機模擬與信息技術會議論文集[C];2001年

5 王曄;黃上騰;;基于n-gram相鄰字的中文文本特征提取算法[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

6 潘麗;鄒建成;;一種基于英文文本內容的零水印新算法[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年

7 肖志文;陳偉;梁久禎;雷彬;;基于LZW算法的中文文本壓縮算法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年

8 陳曉;;中文文本自動分詞研究述要[A];第四屆全國語言文字應用學術研討會論文集[C];2005年

9 蒙應杰;司蕾;是垚;;基于矢量圖形的中文文本零水印算法[A];第八屆全國信息隱藏與多媒體安全學術大會湖南省計算機學會第十一屆學術年會論文集[C];2009年

10 賈會強;劉曉麗;于洪志;;基于詞性特征提取的藏文文本分類方法研究[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年

中國重要報紙全文數據庫 前10條

1 中國社科院法學所研究員 劉仁文;[N];法制日報;2008年

2 吳子桐;[N];中華讀書報;2010年

3 賽迪評測計算機外圍設備實驗室;[N];中國計算機報;2003年

4 ;[N];中國計算機報;2004年

5 賽迪評測硬件評測事業(yè)部計算機外設實驗室;[N];中國計算機報;2003年

6 記者 齊澤萍;[N];山西經濟日報;2002年

7 詹亦文;[N];中國改革報;2003年

8 賽迪評測外設測試實驗室;[N];中國計算機報;2002年

9 本報記者 曹樹林 朱虹;[N];人民日報;2011年

10 賽迪評測外設測試實驗室;[N];中國計算機報;2002年

中國博士學位論文全文數據庫 前10條

1 陳秀新;多特征融合視頻復制檢測關鍵技術研究[D];北京工業(yè)大學;2013年

2 李旭;基于指紋和語義知識表示的中文文檔復制檢測方法[D];燕山大學;2010年

3 袁鑫攀;基于minwise哈希的文檔復制檢測的研究及應用[D];中南大學;2012年

4 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學;2012年

5 李南希;非特定人的自然書寫脫機中文文本行識別[D];華南理工大學;2010年

6 薛德軍;中文文本自動分類中的關鍵問題研究[D];清華大學;2004年

7 侯鋒;中文報業(yè)出版的文字質量智能輔助控制技術研究[D];國防科學技術大學;2010年

8 毛昱;基于流形正則化和情感要素的半監(jiān)督中文文本情感分類[D];北京郵電大學;2012年

9 章舜仲;文本分類中詞共現關系的研究及其應用[D];南京理工大學;2010年

10 徐迎暉;文本載體信息隱藏技術研究[D];北京郵電大學;2006年

中國碩士學位論文全文數據庫 前10條

1 盧小康;中文文本復制檢測技術研究[D];杭州電子科技大學;2009年

2 李婷婷;基于語義結構的學術論文復制檢測技術研究與實現[D];北京郵電大學;2010年

3 王森;基于主題樹的自上而下文本復制檢測研究[D];大連理工大學;2010年

4 馬勤;文檔復制檢測技術在學術監(jiān)管中的應用研究[D];鄭州大學;2012年

5 廖興偉;文檔復制檢測方法研究與系統(tǒng)實現[D];哈爾濱工業(yè)大學;2012年

6 孫偉;基于文檔復制檢測技術的研究與實現[D];遼寧工程技術大學;2010年

7 宋杰;改進的基于串匹配的中文文檔復制檢測方法研究[D];湖南大學;2012年

8 劉雙明;文檔復制檢測的應用研究[D];太原理工大學;2010年

9 唐亞偉;公式相似度算法及其在論文查重中的應用研究[D];渤海大學;2013年

10 黨蕾;中文文本多粒度情感分類計算的研究[D];西北大學;2010年


  本文關鍵詞:中文文本復制檢測技術研究,,由筆耕文化傳播整理發(fā)布。



本文編號:94638

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/94638.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶8768d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com