天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本分類技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用與研究

發(fā)布時(shí)間:2020-07-07 23:30
【摘要】: 分類作為人類認(rèn)識(shí)世界的一種重要認(rèn)知手段已經(jīng)存在很長(zhǎng)時(shí)間。計(jì)算機(jī)的問(wèn)世與普及使用,使得分類成為計(jì)算機(jī)及相關(guān)領(lǐng)域的研究重點(diǎn),特別是Internet出現(xiàn)以后,在線文本文檔劇增,文本的分類就成為廣泛關(guān)注和研究的關(guān)鍵技術(shù)之一。 文本分類的一個(gè)重要應(yīng)用領(lǐng)域是數(shù)字圖書(shū)館。目前,數(shù)字圖書(shū)館正成為全球范圍內(nèi)信息基礎(chǔ)設(shè)施建設(shè)的熱點(diǎn)領(lǐng)域,是二十一世紀(jì)全球文化與科技競(jìng)爭(zhēng)的焦點(diǎn)之一,而數(shù)字圖書(shū)館建設(shè)的基礎(chǔ)是元數(shù)據(jù)的組織和建設(shè)。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù),為數(shù)字圖書(shū)館提供了一種精確描述數(shù)據(jù)內(nèi)容、語(yǔ)義和服務(wù)的機(jī)制。 本文就文本分類及其在數(shù)字圖書(shū)館中的應(yīng)用進(jìn)行研究,主要涉及以下4個(gè)問(wèn)題:訓(xùn)練文檔的支持向量預(yù)抽取、文本特征評(píng)估、元數(shù)據(jù)自動(dòng)抽取、知識(shí)本體元數(shù)據(jù)。 1.定義了凸包相對(duì)邊界向量方法,獲取凸包邊界上的邊界向量,然后依此邊界向量為訓(xùn)練樣本來(lái)求解支持向量,簡(jiǎn)化求解二次規(guī)劃的運(yùn)算量,從而有效提高支持向量機(jī)的訓(xùn)練速度。 2.定義了文本特征評(píng)估方法,找出類別的重要特征和噪音特征,然后根據(jù)分類結(jié)果評(píng)估測(cè)試樣本和訓(xùn)練樣本的質(zhì)量,優(yōu)化和擴(kuò)充文本庫(kù),逐步提高學(xué)習(xí)樣本的質(zhì)量、擴(kuò)大文本庫(kù)的范圍,并根據(jù)樣本質(zhì)量修改樣本在分類模型中的權(quán)重,提高分類系統(tǒng)的性能及其對(duì)不斷變化的外界的適應(yīng)性。 3.定義了元數(shù)據(jù)的抽取策略與抽取規(guī)則。在信息抽取的研究領(lǐng)域,有兩條主要的技術(shù)路線:基于規(guī)則的路線與基于統(tǒng)計(jì)模型的路線。基于規(guī)則的主要思路是通過(guò)分類文本的特征、結(jié)構(gòu)等信息,尋找到一些用于抽取的規(guī)則。基于統(tǒng)計(jì)模型的基本思想是尋找一個(gè)合適的模型,通過(guò)改變模型的參數(shù)和訓(xùn)練樣本集合來(lái)達(dá)到對(duì)應(yīng)用領(lǐng)域的適應(yīng)。 4.提出了數(shù)字圖書(shū)館元數(shù)據(jù)的知識(shí)本體。元數(shù)據(jù)提供數(shù)字圖書(shū)館的語(yǔ)義基礎(chǔ),使資源有了基本的微觀結(jié)構(gòu),但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語(yǔ)義異構(gòu)問(wèn)題,而本體能夠?qū)@些情況進(jìn)行很好地描述,從而為信息的組織、管理以及檢索、查詢提供模型和方法。
【學(xué)位授予單位】:首都師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.1;G250.76
【圖文】:

最優(yōu)超平面,超平面


+l}線性可分的情況下,用于分離的超平面形式的決策曲面方程是:wTx+b=0中,x是輸入向量,woR”是可調(diào)的權(quán)值向量,boR是偏置。這樣我們便以寫(xiě)成:b七。,對(duì)于y,=+1wTxl+b<O,對(duì)于y‘=一1此樣本集最優(yōu)分類,如果訓(xùn)量樣本可以無(wú)誤差地被劃分,每一類數(shù)據(jù)與超離最近的向量與超平面之間的距離最大,此超平面稱為最優(yōu)超平面。其中,平面的法線方向。如圖2所示。

網(wǎng)結(jié)構(gòu),本體,知識(shí)系統(tǒng),斯坦福大學(xué)


圖5.3TimBemers.Lee的語(yǔ)義網(wǎng)結(jié)構(gòu)圖美國(guó)斯坦福大學(xué)的知識(shí)系統(tǒng)實(shí)驗(yàn)室(K五owiedgesysternsLaboratory,KsL)在本體建模工具領(lǐng)域,還是在本體應(yīng)用層面的研究方面,都站在了知識(shí)

本體,本體語(yǔ)言,描述語(yǔ)言


AML+oIL(nARRAAgentMarlkupLan,age+OntologyInferenceLayer)是兩個(gè)組織共同協(xié)商的產(chǎn)物,它在最初的本體語(yǔ)言DAMLoNT的基礎(chǔ)上很多OIL的語(yǔ)言組件發(fā)展而成。它從描述邏輯入手,建立于W3C標(biāo)和RDF一S之上,并且以更豐富的建模原語(yǔ)擴(kuò)展了RDF和RDF一S。DA是建立一項(xiàng)技術(shù),使得智能主體能夠動(dòng)態(tài)地識(shí)別和理解信息資源,并以提供代理之間的互操作。OWLw以M陽(yáng)bOniologyLanguage)是W3C推薦的語(yǔ)義互聯(lián)網(wǎng)中本體描述語(yǔ)言它是從歐美一些研究機(jī)構(gòu)的一種結(jié)合性的描述語(yǔ)言DAML+OIL發(fā)展起W3C提出的本體語(yǔ)言棧中,OWL處于最上層,如圖5.4所示。

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蒲強(qiáng);劉啟和;楊國(guó)緯;;基于獨(dú)立分量分析的圖書(shū)館個(gè)性化及時(shí)服務(wù)[J];計(jì)算機(jī)應(yīng)用研究;2007年03期

2 葉福軍;;文本數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用研究[J];硅谷;2009年07期

3 馬強(qiáng);;文本數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用研究[J];蘭臺(tái)世界;2009年24期

4 張欣;21世紀(jì)的圖書(shū)館——數(shù)字圖書(shū)館及其實(shí)現(xiàn)的要素[J];外交學(xué)院學(xué)報(bào);1999年02期

5 王萍;;數(shù)字圖書(shū)館初露端倪[J];科學(xué)大眾(中學(xué)版);1999年11期

6 李春茜,萬(wàn)堅(jiān)軍;數(shù)字圖書(shū)館及其信息組織與檢索淺識(shí)[J];圖書(shū)館理論與實(shí)踐;2001年01期

7 段梅,李小梅;淺談數(shù)字圖書(shū)館[J];太原科技;2001年02期

8 寧淑華;數(shù)字圖書(shū)館與著作權(quán)保護(hù)[J];現(xiàn)代情報(bào);2001年05期

9 劉志賢;論數(shù)字圖書(shū)館的合理使用[J];情報(bào)雜志;2002年09期

10 邱文杰;高校發(fā)展數(shù)字圖書(shū)館的對(duì)策淺談[J];桂林航天工業(yè)高等?茖W(xué)校學(xué)報(bào);2002年04期

相關(guān)會(huì)議論文 前10條

1 劉穎;;論數(shù)字圖書(shū)館的信息構(gòu)建[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會(huì)論文(文章)匯編[C];2010年

2 郭啟智;;關(guān)于數(shù)字圖書(shū)館有關(guān)問(wèn)題的探討[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年

3 符翠;;數(shù)字圖書(shū)館建設(shè)探討[A];新環(huán)境下圖書(shū)館建設(shè)與發(fā)展——第六屆中國(guó)社區(qū)和鄉(xiāng)鎮(zhèn)圖書(shū)館發(fā)展戰(zhàn)略研討會(huì)征文集(下冊(cè))[C];2007年

4 王愛(ài)華;張銘;陳捷;楊冬青;唐世渭;;基于形式本體的數(shù)字圖書(shū)館內(nèi)容元數(shù)據(jù)的創(chuàng)建[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年

5 高翔;;淺談網(wǎng)站模式下的數(shù)字圖書(shū)館資源建設(shè)[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會(huì)論文(文章)匯編[C];2010年

6 陳克利;宗成慶;王霞;;基于大規(guī)模真實(shí)文本的平衡語(yǔ)料分析與文本分類方法[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

7 喻浩;潘薇;;數(shù)字圖書(shū)館支撐技術(shù)及其發(fā)展[A];數(shù)字圖書(shū)館資源建設(shè)與發(fā)展學(xué)術(shù)研討會(huì)暨中國(guó)農(nóng)學(xué)會(huì)農(nóng)業(yè)圖書(shū)館分會(huì)理事工作會(huì)議會(huì)議資料[C];2007年

8 潘淑春;喻浩;;數(shù)字圖書(shū)館建設(shè)及其運(yùn)行模式研究[A];數(shù)字圖書(shū)館資源建設(shè)與發(fā)展學(xué)術(shù)研討會(huì)暨中國(guó)農(nóng)學(xué)會(huì)農(nóng)業(yè)圖書(shū)館分會(huì)理事工作會(huì)議會(huì)議資料[C];2007年

9 林英;;談?wù)勚袊?guó)數(shù)字圖書(shū)館的研究、開(kāi)發(fā)與建設(shè)[A];福建省圖書(shū)館學(xué)會(huì)2002年學(xué)術(shù)年會(huì)論文集[C];2002年

10 延宏;;數(shù)字圖書(shū)館:服務(wù)如何個(gè)性化[A];新觀點(diǎn)新學(xué)說(shuō)學(xué)術(shù)沙龍文集24:數(shù)字時(shí)代圖書(shū)館的創(chuàng)新與共享[C];2008年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 延宏;數(shù)字圖書(shū)館:服務(wù)如何個(gè)性化[N];科技日?qǐng)?bào);2008年

2 本報(bào)記者 洪黎明;數(shù)字出版與數(shù)字圖書(shū)館的互動(dòng)[N];人民郵電;2008年

3 本報(bào)記者 諸葛漪;國(guó)內(nèi)數(shù)字圖書(shū)館為何“起大早趕晚集”[N];解放日?qǐng)?bào);2009年

4 張宇;走在“云端”的數(shù)字圖書(shū)館[N];中國(guó)文化報(bào);2010年

5 通訊員 鄧尚新;洛浦?jǐn)?shù)字圖書(shū)館正式啟動(dòng)[N];和田日?qǐng)?bào)(漢);2010年

6 本報(bào)記者 姜天驕 文化部副部長(zhǎng) 楊志今;讓數(shù)字圖書(shū)館資源惠及更多基層群眾[N];經(jīng)濟(jì)日?qǐng)?bào);2010年

7 本報(bào)記者 吳娜;讓每個(gè)縣都有數(shù)字圖書(shū)館[N];光明日?qǐng)?bào);2010年

8 記者 牛春梅;數(shù)字圖書(shū)館將覆蓋全國(guó)[N];北京日?qǐng)?bào);2010年

9 記者 陳磊;我國(guó)數(shù)字圖書(shū)館侵權(quán)盜版現(xiàn)象普遍存在[N];科技日?qǐng)?bào);2010年

10 通訊員 傅晨琦 記者 葉輝;杭州數(shù)字圖書(shū)館率先實(shí)現(xiàn)網(wǎng)站、手機(jī)、電視“三網(wǎng)融合”[N];光明日?qǐng)?bào);2010年

相關(guān)博士學(xué)位論文 前10條

1 程軍;基于統(tǒng)計(jì)的文本分類技術(shù)研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

2 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年

3 于曉燕;基于網(wǎng)格的數(shù)字圖書(shū)館模式構(gòu)建研究[D];南開(kāi)大學(xué);2010年

4 周麗霞;數(shù)字圖書(shū)館版權(quán)獲取研究[D];吉林大學(xué);2011年

5 陸穎雋;虛擬現(xiàn)實(shí)技術(shù)在數(shù)字圖書(shū)館的應(yīng)用研究[D];武漢大學(xué);2013年

6 孟佳娜;遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D];大連理工大學(xué);2011年

7 李智星;用于文本分類的簡(jiǎn)明語(yǔ)義分析技術(shù)研究[D];重慶大學(xué);2011年

8 劉伍穎;面向垃圾信息過(guò)濾的主動(dòng)多域?qū)W習(xí)文本分類方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

9 王博;文本分類中特征選擇技術(shù)的研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2009年

10 孫坦;數(shù)字圖書(shū)館理論與發(fā)展模式研究[D];中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心;2000年

相關(guān)碩士學(xué)位論文 前10條

1 張超林;文本分類技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用與研究[D];首都師范大學(xué);2007年

2 張彪;文本分類中特征選擇算法的分析與研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年

3 張保富;基于粗糙集的中文文本分類算法研究及應(yīng)用[D];江蘇大學(xué);2010年

4 蔣健;文本分類中特征提取和特征加權(quán)方法研究[D];重慶大學(xué);2010年

5 閆晨;KNN文本分類研究[D];燕山大學(xué);2010年

6 蘇小康;基于維基百科構(gòu)建語(yǔ)義知識(shí)庫(kù)及其在文本分類領(lǐng)域的應(yīng)用研究[D];華中師范大學(xué);2010年

7 李璇;基于坐標(biāo)下降法的半監(jiān)督學(xué)習(xí)算法及其在文本分類中的應(yīng)用[D];華南理工大學(xué);2010年

8 羅宏;數(shù)字圖書(shū)館著作權(quán)風(fēng)險(xiǎn)規(guī)避研究[D];四川大學(xué);2004年

9 宋志理;基于LDA模型的文本分類研究[D];西安理工大學(xué);2010年

10 郭志毅;基于EM算法的半監(jiān)督文本分類方法研究[D];重慶郵電大學(xué);2010年



本文編號(hào):2745771

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/2745771.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶05865***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com