paperpass的查重原理 [轉(zhuǎn)載]有關(guān)碩士論文查重的總結(jié):使用paperpass和知網(wǎng)的心得!
9月30日上交了論文查重,今天晚些時候年級通知我們,結(jié)果出來了,沒有公布相似的比例,但通過了。這算是過了論文的第一關(guān)了,略微松了一口氣,回想之前改論文的痛苦過程,覺得應(yīng)該把一些經(jīng)驗記錄下來,因為我不是什么內(nèi)部人事,所以以下的內(nèi)容都是我在改論文過程中的一些推斷。paperpass的查重原理
現(xiàn)在流行的相似度匹配系統(tǒng)大概有這么幾類:知網(wǎng)、paperpass、維普及萬方等。
這些系統(tǒng)的原理都是一樣的,都是把你提交的論文拆分成一堆句子,再拆分成一堆關(guān)鍵字,然后與他們維護(hù)的數(shù)據(jù)庫做對比,計算重復(fù)的文字在你文章里的比重,算法類似于百度的關(guān)鍵字匹配,這么說,大家也就明白了,你簡單地把一個句子的各別詞換成同意詞,把字句變被字句,加一兩個“的”等是不行的,除非你把句子40%的詞都換了。
略有不同的他們數(shù)據(jù)庫內(nèi)文獻(xiàn)的多少、查重的粒度及斷定為相似的閥值。數(shù)據(jù)庫的大小就不說了,那后兩個是什么呢?
查重的粒度指可以被認(rèn)定為重復(fù)句的最小句長,舉個例子,現(xiàn)在的系統(tǒng)都把分號與句號當(dāng)作分句符,paperpass把這個最小句長設(shè)為8,這意味著小于8個字的句子無論怎樣都不會被認(rèn)為是重復(fù)的,因為你沒有到人家檢測的門檻。知網(wǎng)的好像是13。
我所理解的查重系統(tǒng)的大概原理也就這些了。下面介紹下我們常用的系統(tǒng):知網(wǎng)與paperpass。知網(wǎng)是官方的系統(tǒng),大部分學(xué)校用的都是知網(wǎng),當(dāng)然我校也是;paperpass為一個公司開發(fā)的,因為操作方便、不太貴且非常嚴(yán)格,被我們廣泛使用,我個人只用過paperpass。因為,只有校方的人有知網(wǎng)的入口,他們在淘寶上買,一次要300,而且經(jīng)常要改的話可能要檢數(shù)次,對學(xué)生是一筆很大的開銷。除此外,至于我為什么沒用知網(wǎng)查,還有個小故事,教研室和
我一同改論文的一兄弟,paperpass改到了17%,用知網(wǎng)查了一個才0.7%,我這個18%也就非常放心了。
同時,因為paperpass有時過于嚴(yán)格,會出現(xiàn),你都已經(jīng)看不出改動了,他還是橙色,比如我的18%、我兄弟的17%。這時就可以不改了,過尤不及,0.7也說不過去。
下面說下我的方法,這個網(wǎng)上都有,而且更全,我怕不過,但又不想在這上面費(fèi)更多的時間,就簡單地用了幾招:
1.盡量用長句,相當(dāng)于加大基數(shù)。
2.拼湊,不是把不同文獻(xiàn)的句子拼成一段,這樣沒用,而是把幾篇文章中的同一意思的幾個句子,拼成一句。
3.翻譯,翻譯國外的論文基本不會發(fā)生重復(fù),而且從道義上講也是合理的,翻譯也是自己的工作,是為學(xué)術(shù)做了貢獻(xiàn)的。畢竟,那些評你論文的教授們也沒打算讓你有什么開創(chuàng)性的成果,有自己的工作就可以了。
個人建議用后兩種,論文查重系統(tǒng)的設(shè)計不是為了查重而查重的,設(shè)計的初衷還是希望小碩們盡量原創(chuàng),設(shè)計的原則是“可以放過一個壞人,但決不錯怪一個好人”,只要是自已寫的或是翻譯的,通過就是小意思了。paperpass的查重原理再指說,碩士論文的目的就是讓人具有基本的研究能力,好好做還是收獲頗豐的。在學(xué)位沒問題的前題下,還是自已多多原創(chuàng)吧!
PaperPass官網(wǎng):?f=082719A9216A470A
本文編號:1263778
本文鏈接:http://www.sikaile.net/wenshubaike/lwzy/1263778.html