作者身份識別中不規(guī)范文本特征選擇方法的研究
發(fā)布時(shí)間:2017-09-17 04:48
本文關(guān)鍵詞:作者身份識別中不規(guī)范文本特征選擇方法的研究
更多相關(guān)文章: 作者身份 不規(guī)范文本 網(wǎng)絡(luò)文本 文本相似度
【摘要】:【目的】從不規(guī)范文本中提取特征,識別網(wǎng)絡(luò)文本作者身份!痉椒ā刻岢鰞煞N在不規(guī)范文本中提取特征的方法:利用在Jaccard系數(shù)的基礎(chǔ)上定義的不規(guī)范文本相似度M;利用不規(guī)范文本在文本中出現(xiàn)的次數(shù)。【結(jié)果】兩種特征的識別正確率分別達(dá)到85.1%和80.2%,加入這兩種特征后,傳統(tǒng)的基于統(tǒng)計(jì)值特征的分類器識別正確率分別提高5.8%和4%!揪窒蕖恐豢紤]到網(wǎng)絡(luò)文本在詞匯層面的不規(guī)范性,并沒有針對更高層面的特性進(jìn)行研究,如句法層面、結(jié)構(gòu)層面!窘Y(jié)論】本文提出的特征提取方法,可以有效地提取不規(guī)范文本特征,有助于作者身份識別系統(tǒng)識別正確率的提升。
【作者單位】: 大連外國語大學(xué)軟件學(xué)院;
【關(guān)鍵詞】: 作者身份 不規(guī)范文本 網(wǎng)絡(luò)文本 文本相似度
【基金】:國家社會科學(xué)基金項(xiàng)目“典籍英譯國外讀者網(wǎng)上評論觀點(diǎn)挖掘研究”(項(xiàng)目編號:15BYY028) 大連外國語大學(xué)科研項(xiàng)目“英文作者身份識別中書寫不規(guī)范文本處理方法的研究”(項(xiàng)目編號:2014XJQN15)的研究成果之一
【分類號】:TP391.1
【正文快照】: 1引言作者身份識別作為自然語言處理的一個(gè)重要方向,一直倍受關(guān)注。隨著微信、微博等社交網(wǎng)絡(luò)的興起與大數(shù)據(jù)時(shí)代的到來,出于對道德與信息安全方面的考慮,人們對網(wǎng)絡(luò)文本作者身份正確認(rèn)證的需求變得更加迫切。如在輿情監(jiān)控中,一些惡意信息是否出于同一作者,又如垃圾郵件的作者,
本文編號:867355
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/867355.html
最近更新
教材專著