天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 社科論文 > 新聞傳播論文 >

基于統(tǒng)計(jì)的文本分類技術(shù)研究

發(fā)布時(shí)間:2020-08-16 21:49
【摘要】: 隨著互聯(lián)網(wǎng)的發(fā)展,公眾既感到信息資源十分豐富,同時(shí)又感覺想找到所需的信息相對(duì)較難。筆者認(rèn)為原因之一是現(xiàn)有的信息系統(tǒng)還沒有能夠?qū)π畔①Y源進(jìn)行有效的組織管理,解決此問(wèn)題的途徑很多,內(nèi)容管理是其中之一,而文本分類則是所有基于內(nèi)容的文本信息管理的基礎(chǔ),因此筆者在參與“中美百萬(wàn)冊(cè)書數(shù)字圖書館”、“國(guó)家科學(xué)數(shù)字圖書館”等研究項(xiàng)目的同時(shí),從理論、技術(shù)和實(shí)踐三個(gè)方面對(duì)文本分類進(jìn)行了深入的探討,并采用文本分類技術(shù)來(lái)輔助解決了信息系統(tǒng)建設(shè)中資源服務(wù)、管理和采集方面的一些問(wèn)題。 在信息資源服務(wù)方面,本文首先從理論上分析了文本檢索和文本分類的關(guān)系。筆者認(rèn)為“分類”與“檢索”是密不可分的信息獲取手段,它們之間能夠互相促進(jìn)、互相補(bǔ)充。常規(guī)檢索方式中由于用戶所給的查詢條件很少,因此要檢索出用戶所需要的文檔確實(shí)是非常困難的一項(xiàng)工作。因此,如果能充分地將文本分類技術(shù)應(yīng)用到檢索系統(tǒng)當(dāng)中,能夠有效提高文本檢索的效果。本文在“中美百萬(wàn)冊(cè)書的層次檢索系統(tǒng)”中將分類體系與文本檢索相結(jié)合,驗(yàn)證了上面的設(shè)想;在“基于內(nèi)容的信息推薦系統(tǒng)”中將文本分類技術(shù)應(yīng)用到檢索中,在服務(wù)模式上為用戶提供了基于內(nèi)容的服務(wù),在技術(shù)上對(duì)算法進(jìn)行了研究,并構(gòu)建了原型系統(tǒng),理論上可以支持對(duì)一百萬(wàn)冊(cè)書檢索,并能夠達(dá)到秒級(jí)響應(yīng)速度。 在信息資源管理方面,由于海量信息資源的出現(xiàn),采用人工方式進(jìn)行管理越來(lái)越不切實(shí)際,采用計(jì)算機(jī)管理又達(dá)不到人工管理的精確程度。本文從理論方面指出了其中存在的核心問(wèn)題,即常用的等級(jí)列舉式分類體系與文本分類算法之間存在的矛盾:由于兩者用來(lái)描述信息的數(shù)據(jù)結(jié)構(gòu)不同,導(dǎo)致無(wú)法完美地相互結(jié)合,從而降低了分類算法的正確率,也不利于檢索系統(tǒng)的構(gòu)建。在“中英文物理網(wǎng)站分類系統(tǒng)”案例中,本文通過(guò)對(duì)分類體系和訓(xùn)練數(shù)據(jù)進(jìn)行分析,取得了采用文本分類技術(shù)來(lái)進(jìn)行信息資源管理的一些經(jīng)驗(yàn)。 在信息資源建設(shè)方面,本文用“冗余網(wǎng)頁(yè)過(guò)濾系統(tǒng)”來(lái)說(shuō)明如何解決資源建設(shè)中的重復(fù)建設(shè)問(wèn)題,在研究中主要針對(duì)算法的時(shí)間復(fù)雜度和空間復(fù)雜度進(jìn)行了優(yōu)化,找到了表達(dá)一篇文檔的最優(yōu)特征項(xiàng)個(gè)數(shù)數(shù)值,在確保正確率的基礎(chǔ)上加快過(guò)濾速度。在“2002年TREC文本過(guò)濾比賽”案例中,對(duì)比了一般類目和組合類目在文本過(guò)濾中的不同之處,并通過(guò)此案例說(shuō)明了如何將文本分類技術(shù)研究中的成果應(yīng)用在實(shí)際文本過(guò)濾系統(tǒng)當(dāng)中,并得到如下結(jié)論:只有將文本分類系統(tǒng)的各方面技術(shù)進(jìn)行綜合考慮,才能夠最終取得更好的分類效果。 另外,本文還探討了文本分類和文本檢索評(píng)價(jià)指標(biāo)之間的關(guān)系。在文本分類領(lǐng)域,有時(shí)也采用查全率和查準(zhǔn)率作為評(píng)價(jià)指標(biāo),但更常用的是分類正確率。筆者通過(guò)例子來(lái)說(shuō)明文本檢索中僅僅采用查全率和查準(zhǔn)率來(lái)評(píng)價(jià)檢索系統(tǒng)所可能存在的問(wèn)題,然后從理論上探討了查全率、查準(zhǔn)率和分類正確率之間的關(guān)系。 要想提高基于內(nèi)容的信息服務(wù)質(zhì)量,需要在技術(shù)方面從根本上提高文本分類 摘要 算法的正確率,因此本文全面研究了基于統(tǒng)計(jì)的自動(dòng)文本分類方法,包括特征項(xiàng) 提取、賦權(quán)、分類器構(gòu)建等問(wèn)題。 l)特征提取方面主要研究了特征項(xiàng)降維和N元模型。為了對(duì)文檔進(jìn)行充分表達(dá), 筆者對(duì)中文文本采用了多層次特征表示方法:系統(tǒng)通過(guò)從漢字、常用詞表和專 業(yè)詞表三個(gè)層次上提取文檔的統(tǒng)計(jì)特征,從而能夠更好地反映文檔特征項(xiàng)的統(tǒng) 計(jì)分布規(guī)律,為提高分類正確率打下基礎(chǔ)。 2)在特征項(xiàng)賦權(quán)方面,本文考察了先前的實(shí)驗(yàn)結(jié)果,對(duì)多種賦權(quán)方式進(jìn)行了實(shí) 驗(yàn),如文檔頻率、信息嫡、互信息和X2統(tǒng)計(jì)量。通過(guò)分析這些賦權(quán)方式之間的 理論矛盾和實(shí)驗(yàn)結(jié)果,筆者詳細(xì)探討了特征項(xiàng)與類別之間的關(guān)系,提出了綜合 賦權(quán)方式,從多方面考慮特征項(xiàng)權(quán)重,并取得比單一賦權(quán)方式更好的實(shí)驗(yàn)結(jié)果。 3)在分類器構(gòu)建方面,主要考察了三種分類器,Rocchi。、KNN和SVM。其中 KNN和SVM是公認(rèn)的較好的分類器。但筆者認(rèn)為Rocchi。有其自己的特點(diǎn), 如能夠直觀地反映每個(gè)類的特征,且時(shí)間和空間復(fù)雜度都較低。在筆者的實(shí)驗(yàn) 當(dāng)中,通過(guò)對(duì)其進(jìn)行改進(jìn),并與特征選擇和賦權(quán)相結(jié)合,系統(tǒng)的封閉測(cè)試分類 正確率可接近100%,開放測(cè)試正確率也明顯提高,接近KNN和SVM算法。 本文的實(shí)驗(yàn)環(huán)境采用的是中國(guó)大百科全書的原文和分類體系,標(biāo)準(zhǔn)的實(shí)驗(yàn)數(shù) 據(jù)既減少了分類體系類目之間的交叉,又保證了文檔與分類體系的相關(guān)性,從根 本上保證了實(shí)驗(yàn)結(jié)果的可信度。
【學(xué)位授予單位】:中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2003
【分類號(hào)】:G203
【圖文】:

示意圖,檢索系統(tǒng),圖書


計(jì)算機(jī)類中包含330次,而在圖書館類中包含300次。如果用戶對(duì)計(jì)算機(jī)感興趣,再點(diǎn)擊計(jì)算機(jī)類,就會(huì)得到一個(gè)按照出現(xiàn)次數(shù)進(jìn)行排序的圖書書目。圖2一1層次式檢索示意圖如果點(diǎn)擊開感興趣的圖書,也會(huì)看到圖書中各個(gè)章節(jié)中所包含查詢關(guān)鍵詞的次數(shù)。圈2一層次式檢索圖書示愈圖針對(duì)這個(gè)設(shè)想,筆者在“中美百萬(wàn)冊(cè)書”環(huán)境下設(shè)計(jì)了一個(gè)演示系統(tǒng),此系統(tǒng)的設(shè)計(jì)是用在全文檢索當(dāng)中,讓用戶能夠看到上面兩個(gè)圖所示的檢索結(jié)果,但實(shí)際實(shí)現(xiàn)時(shí)僅僅將元數(shù)據(jù)檢索與分類系統(tǒng)進(jìn)行了結(jié)合,并沒有結(jié)合到全文檢索系統(tǒng)當(dāng)中,但其含義是一樣的189,90]。圖2一層次式檢索系統(tǒng)

降維,特征降維,實(shí)驗(yàn)結(jié)果


sv五廈降維實(shí)驗(yàn)結(jié)果

降維,分類器,實(shí)驗(yàn)結(jié)果,特征項(xiàng)


丹U八U0nU八UQU內(nèi)D42護(hù)護(hù)尹尹尹尹尹尹護(hù)尹滬圖3一2sv五廈降維實(shí)驗(yàn)結(jié)果由實(shí)驗(yàn)結(jié)果可以看出,分類正確率先是隨著特征項(xiàng)的增加而增加,到1000維特征項(xiàng)時(shí),分類正確率最高,之后隨著特征項(xiàng)的增加,正確率逐漸下降。此實(shí)

【引證文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條

1 張成寶;王志玲;;基于層次分析法的中文文本分類系統(tǒng)評(píng)價(jià)[J];情報(bào)雜志;2007年10期

2 譚金波;;基于層次結(jié)構(gòu)的網(wǎng)頁(yè)自動(dòng)分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];情報(bào)雜志;2009年06期

3 曹勇;吳順祥;;使用KNN算法的中文Web文本分類技術(shù)研究[J];軟件導(dǎo)刊;2007年01期

4 劉博;楊柳;袁方;;改進(jìn)的KNN方法及其在中文文本分類中的應(yīng)用[J];西華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期



本文編號(hào):2794995

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/xinwenchuanbolunwen/2794995.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶942e2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com