《國防科學技術(shù)大學》2009年博士論文
本文關(guān)鍵詞:文本分類中特征選擇技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
《國防科學技術(shù)大學》 2009年
文本分類中特征選擇技術(shù)的研究
王博
【摘要】: 隨著信息技術(shù)的發(fā)展,基于在線文本和電子文本的應用得到廣泛普及,包括網(wǎng)絡新聞檢索、基于內(nèi)容的垃圾郵件過濾、論壇輿情分析和博客話題發(fā)現(xiàn)等在內(nèi)的多個領(lǐng)域已與人們的生活密不可分。為了有效地管理和利用文本信息,基于文本內(nèi)容的分類逐漸成為備受關(guān)注的領(lǐng)域。而文本數(shù)據(jù)的高維性可能導致低效的計算,因此降維是文本分類過程中不可或缺的環(huán)節(jié),已成為重點研究的技術(shù)。 特征選擇是數(shù)據(jù)挖掘和模式識別等領(lǐng)域中一項重要的預處理步驟,通過刪除與學習目標無關(guān)的特征、冗余特征或噪聲特征,達到降維的目的。由于監(jiān)督信息(類別信息)是文本分類的重要組成部分,文本分類所具有的類別關(guān)系復雜、類別分布不平衡、標注瓶頸和類別不確定等特點,為特征選擇研究提出了更多的挑戰(zhàn)。 本文以文本分類為背景,以特征選擇為研究內(nèi)容,圍繞文本分類面臨的主要挑戰(zhàn),重點關(guān)注具體應用中不同的監(jiān)督信息(類別信息),展開了對有監(jiān)督學習模式下的層次化特征選擇算法和半監(jiān)督學習模式下特征選擇算法的研究,并提出了一種適用于多種監(jiān)督學習模式的特征選擇方法,最后探討了當監(jiān)督信息不確定時選擇特征的過程。主要研究成果包括: (1)在有監(jiān)督學習模式下,針對由復雜的類別關(guān)系帶來的問題,假設文本的類別由類樹結(jié)構(gòu)進行組織,提出了層次化文本分類中的特征選擇算法FSRRH。設計了在不同層次上抽取訓練集的方法,以解決類別分布不平衡的問題;采用標準化處理的信息增益方法,選擇預測能力不同的特征子集;最后對傳統(tǒng)的近似Markov毯進行改進,以支持在特征子集之間去除冗余特征的功能。實驗結(jié)果表明,與平鋪的方法以及其它層次化特征選擇方法相比,在高維文本集中,算法FSRRH對分類性能有著較為顯著的提高,減輕了不平衡的類別分布對特征選擇的影響。 (2)在半監(jiān)督學習模式下,針對文本分類中的“標注瓶頸”問題,提出一種半監(jiān)督特征選擇算法SFRSC。利用少量已標注(labeled)樣本的同時兼顧大量的未標注(unlabeled)樣本,基于相關(guān)集準則理論,有效判斷擴展類標號的方向和范圍。同時設計了綜合計算類簇自相關(guān)度和類簇間離散度的復合標準,并以此評價特征。在真實數(shù)據(jù)集上的實驗表明,與其它兩個基準算法相比,SFRSC更能充分利用樣本所攜帶的信息,具有良好的性能和可擴展性。 (3)在文本分類應用中,針對監(jiān)督信息不同而導致需要重新設計特征選擇算法的問題,從核方法的角度,詳細地分析了有監(jiān)督、半監(jiān)督、無監(jiān)督學習模式下特征選擇間的一種內(nèi)在聯(lián)系,基于HSIC依賴性準則,提出一種可適用于多種監(jiān)督學習模式的特征選擇方法FSM_HSIC。通過核函數(shù)將(低維空間中的)非線性相關(guān)性映射為(高維空間中的)線性相關(guān)性,設計了Gram矩陣的不同構(gòu)造方式,以支持方法FSM_HSIC在不同的監(jiān)督學習模式下實例化為具體的算法。基于該方法,從核的角度對現(xiàn)有算法SPEC進行解釋,并給出理論證明;同時基于該方法,設計了一種交互特征選擇算法FSI。在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上的實驗表明,與若干基準算法和交互特征選擇算法相比,算法FSI可以更有效地選出交互特征,并具有更好的穩(wěn)定性和更快的收斂性。綜上所述,該方法并不能囊括所有的算法,但具有重要的實用價值。 (4)上述研究成果均是基于精確數(shù)據(jù),針對監(jiān)督信息不確定的問題,提出了特征選擇算法FSUNT。該算法適合的應用背景是:訓練樣本的類別不是精確的,而是具有某種已知的不確定性。采用已有的概率方式或模糊信息熵方式來表示不確定性,并以此為基礎,利用HSIC依賴性準則,將對模糊性的量化集成在Gram矩陣的構(gòu)造過程中。最后實驗結(jié)果表明,與兩個基準算法相比,算法FSUNT能更合理地衡量特征與不確定類別間的相關(guān)性,能更有效地挖掘模糊形式下的監(jiān)督信息,并具有較好的可擴展性。 綜上所述,本文的工作基于特征選擇是由數(shù)據(jù)驅(qū)動和應用驅(qū)動的本質(zhì)特點,圍繞不同的監(jiān)督信息,針對文本分類中特征選擇面臨的四個主要問題,提出了更為有效的解決方法,對于特征選擇的研究和實用化具有一定的理論意義和應用價值。
【關(guān)鍵詞】:
【學位授予單位】:國防科學技術(shù)大學
【學位級別】:博士
【學位授予年份】:2009
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【引證文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 黃章益;劉懷亮;;一種基于語義的中文文本特征降維技術(shù)研究[J];情報雜志;2011年S2期
2 胡昌平;陳果;;共詞分析中的詞語貢獻度特征選擇研究[J];現(xiàn)代圖書情報技術(shù);2013年Z1期
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 王科平;自動圖像標注的關(guān)鍵技術(shù)研究[D];北京郵電大學;2011年
2 賈哲;分布式環(huán)境中信息挖掘與隱私保護相關(guān)技術(shù)研究[D];北京郵電大學;2012年
3 朱朝勇;基于本體的知識庫分類研究[D];中國科學技術(shù)大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前9條
1 夏青松;基于改進哈希算法的快速KNN文本分類方法[D];安徽大學;2012年
2 廖朝陽;基于直推式學習和遷移學習方法改進的支持向量機分類方法及應用研究[D];西安電子科技大學;2012年
3 王飛;文本分類相關(guān)算法的研究與實現(xiàn)[D];哈爾濱工程大學;2012年
4 李可;文獻自動分類的文獻交流平臺的設計與實現(xiàn)[D];北京化工大學;2013年
5 張琴琴;垃圾郵件在對抗中的檢測[D];華南理工大學;2013年
6 王強;非均衡文本分類的特征選擇研究[D];南京師范大學;2013年
7 黃娟娟;基于KNN的文本分類特征選擇與分類算法的研究與改進[D];廈門大學;2014年
8 羅常泳;基于內(nèi)容的垃圾郵件檢測方法研究[D];浙江大學;2014年
9 路凱;基于綜合比率因子的互信息特征選擇方法的改進[D];華中師范大學;2014年
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 宮秀軍,史忠植;基于Bayes潛在語義模型的半監(jiān)督Web挖掘[J];軟件學報;2002年08期
2 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術(shù)研究進展[J];軟件學報;2006年09期
3 陳友;程學旗;李洋;戴磊;;基于特征選擇的輕量級入侵檢測系統(tǒng)[J];軟件學報;2007年07期
4 彭巖;張道強;;半監(jiān)督典型相關(guān)分析算法[J];軟件學報;2008年11期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭繼紹;朱文興;;最優(yōu)特征子集的遺傳算法求解[J];莆田學院學報;2006年02期
2 林大輝;陳秋妹;寧正元;;基于支持向量機的栗屬樹種分類研究[J];莆田學院學報;2009年05期
3 宋婉娟;;基于支持向量機的手寫數(shù)字串識別[J];湖北第二師范學院學報;2010年02期
4 劉海峰;王元元;張學仁;;文本分類中一種改進的特征選擇方法[J];情報科學;2007年10期
5 張野;楊建林;;基于KNN和SVM的中文文本自動分類研究[J];情報科學;2011年09期
6 王雅蕾;王君澤;王國華;徐曉林;;問答服務中的基于類文檔排名的問題分類算法[J];情報科學;2012年02期
7 孫蕾;溫有奎;;一種改進的SVM算法在決策分析中的應用[J];情報理論與實踐;2006年06期
8 韓毅;張克菊;金碧輝;;集成概念空間與潛在語義索引的文本聚類檢索研究[J];情報理論與實踐;2009年06期
9 龐觀松;蔣盛益;;文本自動分類技術(shù)研究綜述[J];情報理論與實踐;2012年02期
10 李萌;孫濟慶;;基于多Agent協(xié)作的自動分類知識庫研究[J];情報探索;2009年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉志斌;金連文;;候選字靜態(tài)生成技術(shù)及其在兩級LDA漢字識別中的應用[A];第二十六屆中國控制會議論文集[C];2007年
2 張彬;金連文;;基于AdaBoost的手寫體漢字相似字符識別[A];第二十六屆中國控制會議論文集[C];2007年
3 呂蓬;柳亦兵;馬強;魏于凡;;支持向量機在齒輪智能故障診斷中的應用研究[A];第二十六屆中國控制會議論文集[C];2007年
4 梁禹;王義剛;王娜;;基于支持向量機的電力電子電路故障診斷[A];第二十六屆中國控制會議論文集[C];2007年
5 胡清華;常軍濤;鮑文;于達仁;;高超聲速發(fā)動機進氣道起動/不起動模式分析[A];第二十九屆中國控制會議論文集[C];2010年
6 劉華;張建華;王嬈芬;王行愚;;人機系統(tǒng)操作員功能狀態(tài)的模糊聚類方法[A];第二十九屆中國控制會議論文集[C];2010年
7 ;Discontinuous Piecewise Parametric Modeling and Compensation Control for Manipulator Systems with Friction[A];中國自動化學會控制理論專業(yè)委員會B卷[C];2011年
8 王春林;;灰熔點預測建模研究[A];中國自動化學會控制理論專業(yè)委員會B卷[C];2011年
9 晉朝勃;胡剛強;史廣智;李玉陽;;一種采用支持向量機的水中目標識別方法[A];中國聲學學會水聲學分會2011年全國水聲學學術(shù)會議論文集[C];2011年
10 尹雪嬌;;基于蟻群算法的故障診斷[A];創(chuàng)新沈陽文集(A)[C];2009年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 趙瑩;半監(jiān)督支持向量機學習算法研究[D];哈爾濱工程大學;2010年
2 梁洪;基于內(nèi)容的醫(yī)學圖像檢索及語義建模關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年
3 任楨;圖像分類任務的關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2010年
4 殷志偉;基于統(tǒng)計學習理論的分類方法研究[D];哈爾濱工程大學;2009年
5 孔凡芝;引線鍵合視覺檢測關(guān)鍵技術(shù)研究[D];哈爾濱工程大學;2009年
6 于翔;基于網(wǎng)格的數(shù)據(jù)流聚類方法研究[D];哈爾濱工程大學;2010年
7 喬小燕;基于生物形態(tài)學的赤潮藻顯微圖像分割與特征提取研究[D];中國海洋大學;2010年
8 陳志國;基于群體智能的機器視覺的關(guān)鍵技術(shù)研究[D];江南大學;2010年
9 王曉明;基于統(tǒng)計學習的模式識別幾個問題及其應用研究[D];江南大學;2010年
10 徐紅林;基因調(diào)控網(wǎng)絡的建模及其結(jié)構(gòu)分解方法研究[D];江南大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 杜二玲;擬概率空間上等均值噪聲下統(tǒng)計學習理論的理論基礎[D];河北大學;2007年
2 朱杰;一種基于聚類的支持向量機反問題求解算法[D];河北大學;2007年
3 廖甜甜;白細胞圖像語義識別分類的研究[D];南昌航空大學;2010年
4 黃正榮;基于振動波的高速公路車輛行駛狀態(tài)辨識理論研究[D];南昌航空大學;2010年
5 劉棉;人機劃拳系統(tǒng)的實現(xiàn)[D];山東科技大學;2010年
6 劉桂珍;顱骨三維重建與信息提取[D];山東科技大學;2010年
7 李金華;基于SVM的多類文本分類研究[D];山東科技大學;2010年
8 張海峰;空間三維信息重構(gòu)與飛行器路徑規(guī)劃[D];山東科技大學;2010年
9 田文娟;基于支持向量機的人民幣序列號識別方法的研究[D];山東科技大學;2010年
10 陳楠楠;互動音樂桌[D];山東科技大學;2010年
【同被引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 侯漢清;;分類法的發(fā)展趨勢簡論[J];情報科學;1981年01期
2 岳濤;漢語自動分詞技術(shù)的最新發(fā)展及其在信息檢索中的應用[J];情報雜志;2005年04期
3 呂震宇;林永民;趙爽;朱衛(wèi)東;;基于同義詞詞林的文本特征選擇與加權(quán)研究[J];情報雜志;2008年05期
4 陳毅松,汪國平,董士海;基于支持向量機的漸進直推式分類學習算法[J];軟件學報;2003年03期
5 石洪波,王志海,黃厚寬,勵曉健;一種限定性的雙層貝葉斯分類模型[J];軟件學報;2004年02期
6 張翔;肖小玲;徐光祐;;基于樣本之間緊密度的模糊支持向量機方法[J];軟件學報;2006年05期
7 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術(shù)研究進展[J];軟件學報;2006年09期
8 陳友;程學旗;李洋;戴磊;;基于特征選擇的輕量級入侵檢測系統(tǒng)[J];軟件學報;2007年07期
9 徐燕;李錦濤;王斌;孫春明;;基于區(qū)分類別能力的高性能特征選擇方法[J];軟件學報;2008年01期
10 王梅;周向東;張軍旗;許紅濤;施伯樂;;基于擴展生成語言模型的圖像自動標注方法[J];軟件學報;2008年09期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 李衛(wèi)東;楊炳儒;李龍星;曲文龍;;基于中心詞位置的VSM文本分類算法[A];2005中國控制與決策學術(shù)年會論文集(下)[C];2005年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 孟佳娜;遷移學習在文本分類中的應用研究[D];大連理工大學;2011年
2 張海軍;基于大規(guī)模語料的中文新詞識別技術(shù)研究[D];中國科學技術(shù)大學;2011年
3 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學;2010年
4 田秀霞;數(shù)據(jù)庫服務中保護隱私的訪問控制與查詢處理[D];復旦大學;2011年
5 楊震;個性化信息獲取方法的研究[D];大連理工大學;2004年
6 譚璐;高維數(shù)據(jù)的降維理論及應用[D];國防科學技術(shù)大學;2005年
7 張國柱;雷達輻射源識別技術(shù)研究[D];國防科學技術(shù)大學;2005年
8 楊小兵;聚類分析中若干關(guān)鍵技術(shù)的研究[D];浙江大學;2005年
9 張葛祥;雷達輻射源信號智能識別方法研究[D];西南交通大學;2005年
10 匡鵬飛;時間詞語前后分句共現(xiàn)狀態(tài)之研究[D];華中師范大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 段江麗;基于SVM的文本分類系統(tǒng)中特征選擇與權(quán)重計算算法的研究[D];太原理工大學;2011年
2 胡改蝶;中文文本分類中特征選擇方法的應用與研究[D];太原理工大學;2011年
3 曾一平;中文文本情感分類的研究[D];北京交通大學;2011年
4 鄧彩鳳;中文文本分類中互信息特征選擇方法研究[D];西南大學;2011年
5 高艷影;中文問答系統(tǒng)中的問題分類研究[D];合肥工業(yè)大學;2011年
6 金艷偉;基于馬爾可夫隨機場的蒙古文信息檢索模型研究[D];內(nèi)蒙古大學;2011年
7 柯麗;基于頻繁共現(xiàn)熵的跨語言網(wǎng)頁自動分類研究[D];江西師范大學;2011年
8 賀愛香;決策樹在應用型本科高校就業(yè)管理中的應用研究[D];安徽大學;2011年
9 王金花;一種利用本體關(guān)聯(lián)度改進的TF-IDF特征詞提取方法[D];河北大學;2011年
10 周城;面向中文Web評論的情感分析技術(shù)研究[D];國防科學技術(shù)大學;2011年
【二級引證文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 楊峰;;面向高維信息可視化的順序映射降維方法[J];情報理論與實踐;2014年05期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 李曉旭;基于概率主題模型的圖像分類和標注的研究[D];北京郵電大學;2012年
2 劉杰;食品安全突發(fā)事件跨媒體信息的語義分析與分類研究[D];北京郵電大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學學報(自然科學版);2001年07期
2 陳毅松,汪國平,董士海;基于支持向量機的漸進直推式分類學習算法[J];軟件學報;2003年03期
3 饒鮮,董春曦,楊紹全;基于支持向量機的入侵檢測系統(tǒng)[J];軟件學報;2003年04期
4 李建中,李金寶,石勝飛;傳感器網(wǎng)絡及其數(shù)據(jù)管理的概念、問題與進展[J];軟件學報;2003年10期
《中國學術(shù)期刊(光盤版)》電子雜志社有限公司
同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司
地址:北京清華大學 84-48信箱 大眾知識服務
京ICP證040441號
互聯(lián)網(wǎng)出版許可證 新出網(wǎng)證(京)字008號
出版物經(jīng)營許可證 新出發(fā)京批字第直0595號
訂購熱線:400-819-9993 010-62982499
服務熱線:010-62985026 010-62791813
在線咨詢:
傳真:010-62780361
京公網(wǎng)安備11010802020475號
本文關(guān)鍵詞:文本分類中特征選擇技術(shù)的研究,由筆耕文化傳播整理發(fā)布。
,本文編號:167350
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/167350.html