天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

文本分類關(guān)鍵技術(shù)及應(yīng)用研究

發(fā)布時(shí)間:2017-08-10 14:30

  本文關(guān)鍵詞:文本分類關(guān)鍵技術(shù)及應(yīng)用研究


  更多相關(guān)文章: 文本分類 特征選擇 垃圾郵件分類 性別分類 查詢意圖識(shí)別 主動(dòng)學(xué)習(xí) 用戶興趣


【摘要】:以互聯(lián)網(wǎng)技術(shù)的發(fā)展為基礎(chǔ),電子文本信息的數(shù)量日益增加。如果僅憑人工方法組織和管理這些文本數(shù)據(jù),不僅需要消耗大量的人力和時(shí)間,而且也很難實(shí)現(xiàn),因此,文本分類作為處理文本數(shù)據(jù)的關(guān)鍵技術(shù)就顯得尤其重要,它是文本信息挖掘的基本功能,也成為了處理和組織文本數(shù)據(jù)的核心技術(shù),得到了學(xué)者們的廣泛關(guān)注,也具有非常廣闊的應(yīng)用前景。目前為止,文本分類技術(shù)被廣泛應(yīng)用于信息過(guò)濾、郵件分類、搜索引擎、查詢意圖預(yù)測(cè)、主題跟蹤、文本語(yǔ)料庫(kù)構(gòu)建等多個(gè)領(lǐng)域,可以方便用戶快速定位所需信息,解決雜亂數(shù)據(jù)的分類問(wèn)題。文本分類技術(shù)與人們的工作、生活越來(lái)越密切相關(guān),人們對(duì)文本處理系統(tǒng)的智能化和個(gè)性化要求也越來(lái)越高。如何在提高文本分類方法精度的同時(shí),滿足更高的個(gè)性化需求,是文本分類方法所要面臨的新的挑戰(zhàn)。本文對(duì)文本分類的基礎(chǔ)理論知識(shí)和相關(guān)技術(shù)進(jìn)行了研究,分析了目前文本分類研究中存在的熱點(diǎn)問(wèn)題,從提高分類方法的快速性、準(zhǔn)確性和個(gè)性化角度出發(fā),首先提出一種特征選擇方法,實(shí)現(xiàn)特征空間降維;然后利用分析和挖掘到的用戶興趣信息,針對(duì)文本分類的幾個(gè)有代表性的應(yīng)用領(lǐng)域,分別提出了一種垃圾郵件分類方法、一種用戶性別分類方法和一種網(wǎng)絡(luò)用戶查詢意圖識(shí)別方法。本文的研究?jī)?nèi)容和創(chuàng)新工作主要包括以下四點(diǎn):1.一種基于隨機(jī)游走和蜂群算法的特征選擇方法本文提出了一種基于隨機(jī)游走的特征選擇方法,能夠在不犧牲分類器性能的前提下,有效減少特征空間的維度。由于傳統(tǒng)的特征選擇方法總是包含一些冗余信息,而分類器卻難以處理較大的特征維度,因此需要將噪聲、不相關(guān)的和冗余的信息從原始特征空間中過(guò)濾掉。該方法首先利用一種最優(yōu)的特征選擇方法(OPFS)從訓(xùn)練集中選擇特征。其次,結(jié)合隨機(jī)游走算法和預(yù)先定義好的閾值,將冗余的特征過(guò)濾掉。在尋找最優(yōu)閾值的過(guò)程中,為了優(yōu)化參數(shù),采用了改進(jìn)的人工蜂群算法(IMABC)。最后,在四個(gè)經(jīng)典的文本分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別是:mini news group,20-Newsgroups,Reuters-21578和Web KB。實(shí)驗(yàn)結(jié)果表明,與六種經(jīng)典的特征選擇方法相比,本文方法取得了較好的效果。通過(guò)計(jì)算F1值,可以看出本文方法在保證了分類精度的同時(shí),可以很大程度上減少向量空間的維度。2.一種基于主動(dòng)學(xué)習(xí)和增量學(xué)習(xí)的垃圾郵件分類方法為了更好地滿足用戶的個(gè)性化需求,以文本分類中一種典型的二元分類問(wèn)題—垃圾郵件分類為研究對(duì)象,引入了基于詞頻的用戶興趣集的概念,可以在不犧牲垃圾郵件識(shí)別精度的情況下,達(dá)到有效提高垃圾郵件識(shí)別速度,且保證垃圾郵件過(guò)濾時(shí)的個(gè)性化需求的目的。首先,通過(guò)聯(lián)合使用基于詞頻的用戶興趣集和樸素貝葉斯分類器處理垃圾郵件分類問(wèn)題;其次,提出了一種基于邊界密度的垃圾郵件分類確定性評(píng)價(jià)方法,將最不確定的郵件選擇出來(lái),并推薦給用戶進(jìn)行標(biāo)注,該方法應(yīng)用了主動(dòng)學(xué)習(xí)的基本原理;最后,基于增量學(xué)習(xí)理論,將被用戶標(biāo)注過(guò)的郵件以及具有最大可能性被正確分類的郵件,用于分類器的再訓(xùn)練。在垃圾郵件分類領(lǐng)域的兩個(gè)通用數(shù)據(jù)集Trec 2007和Enron-spam上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與六種經(jīng)典的基于主動(dòng)學(xué)習(xí)和增量學(xué)習(xí)的方法相比,本文方法在保證了分類系統(tǒng)準(zhǔn)確性的情況下,減少了垃圾郵件分類的時(shí)間開(kāi)銷;此外,由于采用的主動(dòng)學(xué)習(xí)方法與傳統(tǒng)主動(dòng)學(xué)習(xí)方法相比,需要用戶進(jìn)行標(biāo)注的樣本更少,因而降低了用戶標(biāo)注的負(fù)擔(dān)。3.一種基于聚類的文本作者性別分類方法為了解決文本分類領(lǐng)域中有標(biāo)記的訓(xùn)練樣本獲取困難,人工標(biāo)注負(fù)擔(dān)較大的問(wèn)題,提出了一種基于聚類的文本作者性別分類方法。首先,采用聚類技術(shù)對(duì)未標(biāo)注樣本集進(jìn)行聚類,并結(jié)合不同聚類半徑信息,提出聚類確定性判定因子,選擇邊界區(qū)域特定樣本實(shí)施專家標(biāo)注以構(gòu)建訓(xùn)練樣本集并改善樣本集質(zhì)量;其次,結(jié)合使用了文檔結(jié)構(gòu)特征、文檔內(nèi)容特征和男女作者興趣特征進(jìn)行樣本表示;最后,使用序列最小優(yōu)化算法從訓(xùn)練樣本中學(xué)習(xí)到分類器,以實(shí)現(xiàn)新樣本的分類。多種對(duì)比實(shí)驗(yàn)表明,一方面,使用聚類方法構(gòu)建訓(xùn)練集,減少了人工標(biāo)注負(fù)擔(dān),而聚類確定性判定因子的使用解決了邊界樣本類別不確定的問(wèn)題;另一方面,算法結(jié)合了文檔結(jié)構(gòu)特征、文檔內(nèi)容特征和男女興趣特征作為特征,對(duì)于提升算法分類精度有著一定的意義。4.一種基于用戶興趣的查詢意圖識(shí)別方法網(wǎng)絡(luò)用戶查詢意圖識(shí)別問(wèn)題是Web文本分類的一個(gè)重要應(yīng)用。我們?cè)谘芯苛宋谋痉诸悊?wèn)題基礎(chǔ)理論和應(yīng)用領(lǐng)域的基礎(chǔ)上,將文本分類技術(shù)應(yīng)用于Web文本分類領(lǐng)域中,本文提出了一種基于用戶興趣的查詢意圖分類方法,通過(guò)挖掘出用戶的興趣習(xí)慣,可以更好的識(shí)別用戶的查詢意圖,實(shí)現(xiàn)個(gè)性化、智能化的檢索。首先,結(jié)合ODP開(kāi)放目錄定義了初始主題類別集合,用作預(yù)先確定的用戶興趣類別集;其次,通過(guò)對(duì)用戶瀏覽日志中的網(wǎng)頁(yè)分類,計(jì)算用戶在興趣類別上的興趣度,以構(gòu)建用戶興趣模型;與此同時(shí),對(duì)于給定的查詢,通過(guò)聚類方法獲得該查詢的全部子意圖;最后,利用獲得的用戶興趣模型和查詢的子意圖,識(shí)別出最符合用戶需求的查詢意圖。實(shí)驗(yàn)結(jié)果表明,用戶興趣模型可以較好的識(shí)別用戶感興趣的領(lǐng)域,并能區(qū)分出用戶針對(duì)不同興趣類別的喜好程度;而結(jié)合了用戶興趣的查詢意圖識(shí)別算法識(shí)別精度較高,且更具有個(gè)性化。
【關(guān)鍵詞】:文本分類 特征選擇 垃圾郵件分類 性別分類 查詢意圖識(shí)別 主動(dòng)學(xué)習(xí) 用戶興趣
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 提要4-5
  • 摘要5-8
  • Abstract8-15
  • 第1章 緒論15-29
  • 1.1 研究背景及意義15-18
  • 1.1.1 研究背景15-16
  • 1.1.2 研究意義16-18
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀18-25
  • 1.2.1 文本分類歷史18-19
  • 1.2.2 文本分類研究現(xiàn)狀19-25
  • 1.3 本文的主要工作25-27
  • 1.4 本文的組織結(jié)構(gòu)27-29
  • 第2章 文本分類概述29-50
  • 2.1 問(wèn)題描述29-30
  • 2.2 文本分類框架30-31
  • 2.3 預(yù)處理31-32
  • 2.4 文本表示32-35
  • 2.4.1 文本特征的定義32-33
  • 2.4.2 文本表示模型33-35
  • 2.5 特征降維35-37
  • 2.5.1 特征提取35-36
  • 2.5.2 特征選擇36-37
  • 2.6 特征權(quán)重計(jì)算37-39
  • 2.7 文本分類器設(shè)計(jì)39-46
  • 2.8 文本分類性能評(píng)測(cè)46-50
  • 2.8.1 評(píng)價(jià)方法46-47
  • 2.8.2 評(píng)價(jià)標(biāo)準(zhǔn)47-50
  • 第3章 基于隨機(jī)游走和蜂群算法的特征選擇方法50-69
  • 3.1 引言50-51
  • 3.2 相關(guān)原理51-55
  • 3.3 基于隨機(jī)游走和蜂群算法的特征選擇方法55-60
  • 3.3.1 算法描述55-57
  • 3.3.2 閾值 Δ 的選擇57-60
  • 3.4 實(shí)驗(yàn)結(jié)果與分析60-67
  • 3.5 本章小結(jié)67-69
  • 第4章 基于主動(dòng)學(xué)習(xí)和增量學(xué)習(xí)的垃圾郵件分類方法69-87
  • 4.1 引言69-70
  • 4.2 相關(guān)理論70-72
  • 4.3 基于主動(dòng)學(xué)習(xí)和增量學(xué)習(xí)的垃圾郵件分類方法72-80
  • 4.3.1 特征選擇和樣本訓(xùn)練73
  • 4.3.2 樣本分類73-74
  • 4.3.3 分類確定性評(píng)價(jià)74-76
  • 4.3.4 樣本標(biāo)注76-77
  • 4.3.5 更新基于詞頻的正負(fù)興趣集及訓(xùn)練樣本集77-78
  • 4.3.6 樣本分類的時(shí)間復(fù)雜性分析78-80
  • 4.4 實(shí)驗(yàn)結(jié)果與分析80-86
  • 4.4.1 閾值"康難≡,

    本文編號(hào):651220

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/651220.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶95fde***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com