天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

智能手機電子取證中文本分析的研究

發(fā)布時間:2018-02-13 08:40

  本文關鍵詞: 短文本分類 手機取證 特征權重 特征擴展 出處:《武漢郵電科學研究院》2014年碩士論文 論文類型:學位論文


【摘要】:隨著移動電話的迅速普及和手機容量的增大,處理手機大批量短信數(shù)據(jù)的挑戰(zhàn)也與日俱增。如何從手機中快速提取執(zhí)法人員感興趣的證據(jù)成為手機取證技術面臨的問題之一,短文本自動分類技術可以一定程度上解決該難題。雖然傳統(tǒng)的文本分類技術已經(jīng)相對成熟,但短文本的格式不規(guī)范且文本信息稀疏,導致適用于長文本的分類方法不能直接應用于短文本領域;谶@樣的背景,本文對手機取證中短文本分類方法進行相應的探索和對比。本文首先概述了手機取證的取證源、取證原則和取證過程,并以手機中短信信息為例分析手機取證系統(tǒng)提取電子證據(jù)的基本過程。接著重點針對手機取證系統(tǒng)中的短信自動分類子系統(tǒng)進行探討。討論了長文本和短文本存在的基本區(qū)別,分析傳統(tǒng)分類方法中幾種常使用的特征權值算法,并提出一種針對短文本特點的權重值改進算法。同時為了彌補短文本信息量稀少的劣勢,提出引入維基百科數(shù)據(jù)庫作為知識庫對短文本的特征進行擴展的方法。本文最后詳細介紹了短信信息分類子系統(tǒng)中的各個模塊設計過程和實現(xiàn)過程,并對本文中提到的兩種改進方法先后用六組試驗進行分類效果對比。六組實驗結果表明,基于傳統(tǒng)分類方法上的兩種改進方法均能一定程度上提高中文短文本分類的性能。同時也發(fā)現(xiàn),若在建立知識庫之初噪聲沒有被清理干凈,會影響基于特征擴展的分類方法的分類效果。
[Abstract]:With the rapid popularization of mobile phones and the increase of mobile phone capacity, the challenge of dealing with mass SMS data is also increasing. How to quickly extract evidence of interest to law enforcement officials from mobile phones has become one of the problems faced by mobile phone forensics technology. Although the traditional text classification technology is relatively mature, the format of short text is not standardized and the text information is sparse. As a result, the classification method suitable for long text can not be directly applied to the field of short text. Based on this background, this paper explores and compares the classification methods of short text book in mobile phone forensics. Firstly, this paper summarizes the evidential source of mobile phone forensics. Principles and procedures for obtaining evidence, Taking short message information in mobile phone as an example, this paper analyzes the basic process of extracting electronic evidence from mobile phone forensics system. Then, it focuses on the automatic classification subsystem of short message in mobile phone forensics system, and discusses the basic differences between long text and short text. This paper analyzes several feature weight algorithms that are often used in traditional classification methods, and proposes an improved algorithm of weight value for the characteristics of short text books, in order to make up for the shortage of short text information. This paper proposes a method to extend the features of short text by using Wikipedia database as a knowledge base. Finally, the design process and implementation process of each module in the short message classification subsystem are introduced in detail. The two improved methods mentioned in this paper are compared with each other by six groups of experiments. The results of the six groups of experiments show that, The two improved methods based on the traditional classification method can improve the performance of the Chinese text classification to some extent. It is also found that the noise is not cleaned up at the beginning of building the knowledge base. It will affect the classification effect of the classification method based on feature expansion.
【學位授予單位】:武漢郵電科學研究院
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TN929.53;TP391.1

【相似文獻】

相關期刊論文 前10條

1 唐亮;段建國;許洪波;梁玲;;基于信息論的文本分類模型[J];計算機工程與設計;2008年24期

2 施化吉;王賢川;李星毅;;基于規(guī)則重構的關聯(lián)文本分類[J];計算機工程與設計;2009年03期

3 劉伍穎;王挺;;適于垃圾文本流過濾的條件概率集成方法[J];計算機科學與探索;2010年05期

4 張征杰;王自強;;文本分類及算法綜述[J];電腦知識與技術;2012年04期

5 彭其華;;關聯(lián)挖掘下的海量文本信息深入挖掘實現(xiàn)[J];微電子學與計算機;2013年10期

6 汪明霓;BASIC文本系統(tǒng)[J];計算機應用研究;1988年01期

7 王東興,冷惠文;大量編程用文本數(shù)據(jù)的統(tǒng)一處理[J];鞍山鋼鐵學院學報;1997年06期

8 周鵬;數(shù)據(jù)庫中不規(guī)范文本文件的數(shù)據(jù)轉換[J];電腦編程技巧與維護;2005年05期

9 谷峰;吳揚揚;;文本分類關鍵技術[J];福建電腦;2006年09期

10 宋東風;張志浩;;短文本數(shù)據(jù)的自動分類[J];電腦與信息技術;2007年01期

相關會議論文 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

相關重要報紙文章 前2條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

2 山東 黃家貞;網(wǎng)頁保存工具——網(wǎng)頁快拷[N];電腦報;2001年

,

本文編號:1507755

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/wltx/1507755.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶2726b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com