基于寫作風(fēng)格裂縫發(fā)現(xiàn)的作者識(shí)別技術(shù)研究
發(fā)布時(shí)間:2024-12-31 23:06
為了剽竊他人的知識(shí)成果并且躲避學(xué)術(shù)不端檢測(cè),抄襲者們往往不會(huì)整段抄襲,抄襲內(nèi)容也會(huì)經(jīng)過(guò)處理。本文是基于這個(gè)背景下,從寫作風(fēng)格的角度出發(fā),進(jìn)行文章原創(chuàng)性的判定工作。寫作風(fēng)格是作者長(zhǎng)期寫作留下的習(xí)慣,不會(huì)在短期發(fā)生改變,對(duì)作者寫作風(fēng)格的研究,可以挖掘作者的寫作習(xí)慣從而判定文章的原創(chuàng)性。本文了解和總結(jié)了國(guó)內(nèi)外相關(guān)領(lǐng)域的現(xiàn)狀和方法,設(shè)計(jì)了一套屬于自己的原創(chuàng)性檢測(cè)方法。文章可能不是由一個(gè)人完成的,所以本文首次提出了“風(fēng)格裂縫”這一概念,風(fēng)格裂縫表示風(fēng)格發(fā)生轉(zhuǎn)變的位置,根據(jù)風(fēng)格裂縫進(jìn)行文本分段。風(fēng)格裂縫的識(shí)別是通過(guò)風(fēng)格特征提取來(lái)實(shí)現(xiàn)的,分別從詞、句、情感多方面的考慮風(fēng)格特征,本文設(shè)計(jì)了7個(gè)特征用于風(fēng)格裂縫識(shí)別。根據(jù)風(fēng)格特征提取的結(jié)果結(jié)合聚類算法找出風(fēng)格裂縫的位置,根據(jù)風(fēng)格裂縫進(jìn)行文本分割。在風(fēng)格裂縫識(shí)別的基礎(chǔ)上對(duì)每個(gè)部分進(jìn)行作者識(shí)別,本文構(gòu)建了詞語(yǔ)級(jí)別作者識(shí)別框架(ARTW)用于作者識(shí)別,該框架以GloVe詞向量為底層的詞向量支持,將Bi-GRU嵌入到孿生神經(jīng)網(wǎng)絡(luò)中用于文本的特征表示。使用Bi-GRU高階特征抽取,使用孿生神經(jīng)網(wǎng)絡(luò)進(jìn)行相似度計(jì)算。在訓(xùn)練過(guò)程對(duì)虛詞加入attention機(jī)制,使網(wǎng)絡(luò)更快...
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 風(fēng)格特征提取
1.2.2 文本分割技術(shù)
1.2.3 作者識(shí)別
1.2.4 存在問(wèn)題
1.3 論文研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)理論及技術(shù)
2.1 相關(guān)理論
2.2 文本相似度計(jì)算
2.2.1 向量空間模型
2.2.2 漢明距離
2.2.3 皮爾遜相關(guān)系數(shù)
2.3 語(yǔ)言模型
2.3.1 TF-IDF算法
2.3.2 GloVe模型
2.4 機(jī)器學(xué)習(xí)算法
2.4.1 K-means算法
2.4.2 Attention機(jī)制
2.4.3 GRU神經(jīng)網(wǎng)絡(luò)
2.4.4 孿生神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 基于風(fēng)格特征融合的風(fēng)格裂縫識(shí)別
3.1 引言
3.2 風(fēng)格特征提取
3.2.1 單維風(fēng)格特征
3.2.2 多維風(fēng)格特征
3.3 風(fēng)格裂縫的識(shí)別
3.3.1 滑動(dòng)窗口
3.3.2 參數(shù)權(quán)重法
3.3.3 基于風(fēng)格特征的風(fēng)格聚類
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 單特征風(fēng)格裂縫識(shí)別結(jié)果
3.4.2 參數(shù)權(quán)重法
3.4.3 風(fēng)格裂縫識(shí)別
3.5 本章小結(jié)
第4章 基于風(fēng)格裂縫的作者識(shí)別技術(shù)
4.1 詞語(yǔ)級(jí)別作者識(shí)別框架ARTW
4.2 高階特征提取
4.2.1 語(yǔ)料庫(kù)預(yù)處理
4.2.2 單詞向量化
4.2.3 多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練
4.3 決策網(wǎng)絡(luò)
4.3.1 相似度結(jié)果輸出
4.3.2 聯(lián)合損失函數(shù)
4.4 實(shí)驗(yàn)結(jié)果和分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果
致謝
本文編號(hào):4021673
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 風(fēng)格特征提取
1.2.2 文本分割技術(shù)
1.2.3 作者識(shí)別
1.2.4 存在問(wèn)題
1.3 論文研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)理論及技術(shù)
2.1 相關(guān)理論
2.2 文本相似度計(jì)算
2.2.1 向量空間模型
2.2.2 漢明距離
2.2.3 皮爾遜相關(guān)系數(shù)
2.3 語(yǔ)言模型
2.3.1 TF-IDF算法
2.3.2 GloVe模型
2.4 機(jī)器學(xué)習(xí)算法
2.4.1 K-means算法
2.4.2 Attention機(jī)制
2.4.3 GRU神經(jīng)網(wǎng)絡(luò)
2.4.4 孿生神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 基于風(fēng)格特征融合的風(fēng)格裂縫識(shí)別
3.1 引言
3.2 風(fēng)格特征提取
3.2.1 單維風(fēng)格特征
3.2.2 多維風(fēng)格特征
3.3 風(fēng)格裂縫的識(shí)別
3.3.1 滑動(dòng)窗口
3.3.2 參數(shù)權(quán)重法
3.3.3 基于風(fēng)格特征的風(fēng)格聚類
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 單特征風(fēng)格裂縫識(shí)別結(jié)果
3.4.2 參數(shù)權(quán)重法
3.4.3 風(fēng)格裂縫識(shí)別
3.5 本章小結(jié)
第4章 基于風(fēng)格裂縫的作者識(shí)別技術(shù)
4.1 詞語(yǔ)級(jí)別作者識(shí)別框架ARTW
4.2 高階特征提取
4.2.1 語(yǔ)料庫(kù)預(yù)處理
4.2.2 單詞向量化
4.2.3 多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練
4.3 決策網(wǎng)絡(luò)
4.3.1 相似度結(jié)果輸出
4.3.2 聯(lián)合損失函數(shù)
4.4 實(shí)驗(yàn)結(jié)果和分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果
致謝
本文編號(hào):4021673
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/4021673.html
最近更新
教材專著