基于關(guān)聯(lián)分類(lèi)的短信分類(lèi)研究
發(fā)布時(shí)間:2017-09-04 20:23
本文關(guān)鍵詞:基于關(guān)聯(lián)分類(lèi)的短信分類(lèi)研究
更多相關(guān)文章: 短信分類(lèi) 關(guān)聯(lián)分類(lèi) 語(yǔ)序 ACW
【摘要】:短信作為手機(jī)重要功能之一,在給用戶(hù)提供方便、快捷的溝通方式的同時(shí),也給用戶(hù)帶來(lái)了煩惱,非法和廣告等垃圾短信混雜在正常短信之中,嚴(yán)重干擾人們的日常生活,甚至造成巨額經(jīng)濟(jì)損失。雖然目前專(zhuān)家、學(xué)者對(duì)攔截垃圾短信提出了很多研究方法并取得了大量研究成果,但垃圾短信攔截的準(zhǔn)確率和召回率還有待提高。因此如何有效提高垃圾短信攔截準(zhǔn)確率和召回率,從而提高用戶(hù)滿(mǎn)意率,仍是研究重點(diǎn)。本文的主要工作:(1)提出基于語(yǔ)序的關(guān)聯(lián)分類(lèi)算法ACW(Associat ive Classificat ion Based on Word Order)。ACW算法通過(guò)改進(jìn)Apriori算法,將關(guān)聯(lián)分類(lèi)與語(yǔ)序相結(jié)合,將挖掘出的頻繁項(xiàng)依據(jù)語(yǔ)序排列,生成易于理解和調(diào)整的分類(lèi)規(guī)則。(2)選擇分類(lèi)準(zhǔn)確率大于預(yù)定閾值和任意兩條規(guī)則分別正確分類(lèi)的短信集合不存在包含關(guān)系的規(guī)則,達(dá)到刪除歧義規(guī)則,減少冗余規(guī)則,調(diào)整分類(lèi)規(guī)則集的目的,從而提高短信分類(lèi)準(zhǔn)確率。(3)在挖掘并生成分類(lèi)規(guī)則前,預(yù)處理數(shù)據(jù),包括分詞、聚類(lèi)、數(shù)據(jù)替換、敏感詞處理、去停用詞和獲取特征詞等,提高規(guī)則生成效率,降低特征向量空間維度,減少系統(tǒng)資源開(kāi)銷(xiāo)。(4)本研究?jī)?nèi)容經(jīng)過(guò)測(cè)試達(dá)到了設(shè)計(jì)要求,并在聯(lián)想研究院“騷擾短信攔截”項(xiàng)目中進(jìn)行實(shí)際上線應(yīng)用,證明該研究?jī)?nèi)容具有實(shí)際應(yīng)用價(jià)值。
【關(guān)鍵詞】:短信分類(lèi) 關(guān)聯(lián)分類(lèi) 語(yǔ)序 ACW
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-14
- 1.1 研究背景和研究意義8-9
- 1.1.1 研究背景8
- 1.1.2 研究意義8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 國(guó)內(nèi)研究現(xiàn)狀9-10
- 1.2.2 國(guó)外研究現(xiàn)狀10-11
- 1.3 主要研究?jī)?nèi)容11-12
- 1.4 論文結(jié)構(gòu)12-14
- 第2章 背景知識(shí)14-18
- 2.1 關(guān)聯(lián)規(guī)則14-16
- 2.1.1 基本概念14-15
- 2.1.2 Apriori算法15-16
- 2.2 關(guān)聯(lián)分類(lèi)16-17
- 2.2.1 概述16-17
- 2.2.2 CBA算法17
- 2.3 本章小結(jié)17-18
- 第3章 ACW算法設(shè)計(jì)18-28
- 3.1 概述18
- 3.2 算法設(shè)計(jì)18-27
- 3.2.1 規(guī)則生成19-23
- 3.2.2 規(guī)則選擇23-26
- 3.2.3 短信分類(lèi)26-27
- 3.3 本章小結(jié)27-28
- 第4章 基于ACW算法的短信分類(lèi)實(shí)現(xiàn)28-42
- 4.1 短信分類(lèi)整體設(shè)計(jì)28
- 4.2 數(shù)據(jù)預(yù)處理28-39
- 4.2.1 分詞28-31
- 4.2.2 聚類(lèi)31-32
- 4.2.3 短信分類(lèi)標(biāo)準(zhǔn)制定32-34
- 4.2.4 數(shù)據(jù)替換34-37
- 4.2.5 敏感詞處理37-38
- 4.2.6 去停用詞38
- 4.2.7 特征詞選擇38-39
- 4.3 ACW算法分類(lèi)短信39-41
- 4.3.1 規(guī)則生成40-41
- 4.3.2 規(guī)則選擇41
- 4.3.3 短信分類(lèi)41
- 4.4 本章小結(jié)41-42
- 第5章 測(cè)試42-52
- 5.1 測(cè)試設(shè)計(jì)42-44
- 5.1.1 測(cè)試環(huán)境42
- 5.1.2 測(cè)試步驟42-44
- 5.1.3 測(cè)試評(píng)價(jià)標(biāo)準(zhǔn)44
- 5.2 測(cè)試結(jié)果及分析44-50
- 5.3 本章小結(jié)50-52
- 結(jié)論52-54
- 參考文獻(xiàn)54-58
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文58-60
- 致謝60
本文編號(hào):793637
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/793637.html
最近更新
教材專(zhuān)著