天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

海洋文獻(xiàn)分類(lèi)中極小化標(biāo)注問(wèn)題的研究

發(fā)布時(shí)間:2021-11-20 17:32
  高效率的進(jìn)行海洋文獻(xiàn)的分類(lèi)對(duì)海洋科學(xué)研究具有重要意義。目前,解決此問(wèn)題較為成熟的技術(shù)是有監(jiān)督的文本分類(lèi)技術(shù)。但其往往存在人工標(biāo)注量太大的缺點(diǎn);此外,有標(biāo)注資源代價(jià)昂貴,而大量無(wú)標(biāo)注資源沒(méi)有加以利用。半監(jiān)督機(jī)器學(xué)習(xí)方法能根據(jù)少量有標(biāo)注資源從大量無(wú)標(biāo)注資源中獲取有用信息,有效降低人工標(biāo)注量。因此,本文運(yùn)用半監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行海洋文獻(xiàn)分類(lèi)中的極小化標(biāo)注問(wèn)題的研究。本文從描述文本分類(lèi)和機(jī)器學(xué)習(xí)的基本概念入手,對(duì)基于機(jī)器學(xué)習(xí)的文本分類(lèi)基礎(chǔ)技術(shù)——文本的表示、分類(lèi)方法和效果評(píng)估三部分內(nèi)容逐一進(jìn)行了討論和介紹,并根據(jù)已有實(shí)驗(yàn)結(jié)果選擇了最佳的分類(lèi)方法;接著通過(guò)對(duì)半監(jiān)督機(jī)器學(xué)習(xí)問(wèn)題的描述,引出了本文所采用的核心算法——協(xié)同訓(xùn)練(co-training)算法;最后,使用c#.net語(yǔ)言編程實(shí)現(xiàn)了基于co-training算法的海洋文獻(xiàn)分類(lèi)極小化標(biāo)注,這是本文研究的核心問(wèn)題。本文的主要工作和創(chuàng)新點(diǎn)有:(1)本文給出了基于協(xié)同訓(xùn)練算法的海洋文獻(xiàn)分類(lèi)的詳細(xì)流程,詳細(xì)設(shè)計(jì)了六大功能模塊,包括文本預(yù)處理、特征分割、訓(xùn)練、預(yù)測(cè)、挑選特征和評(píng)估模塊。其中,特征分割模塊是co-training方法區(qū)別于傳統(tǒng)的有監(jiān)督分類(lèi)... 

【文章來(lái)源】:中國(guó)海洋大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:72 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

海洋文獻(xiàn)分類(lèi)中極小化標(biāo)注問(wèn)題的研究


文本分類(lèi)系統(tǒng)的工作流程

最優(yōu)分類(lèi)


如果將某一直線(xiàn)兩側(cè)的樣本點(diǎn)分為正類(lèi)和負(fù)類(lèi),則推斷點(diǎn)x所對(duì)應(yīng)的類(lèi)別 y 的決策函數(shù)如下:y = f ( x ) = sgn( w x + b), (其中 sgn 為符號(hào)函數(shù),有1, 0sgn( )1, 0aaa = ≥= = < (函數(shù)的定義,很明顯 y 的取值要么是 1,要么是-1,也就是說(shuō) 1 和-1 兩類(lèi)。此時(shí)的分類(lèi)問(wèn)題是:對(duì)于任意給定的一個(gè)新的輸據(jù)訓(xùn)練集推斷它所對(duì)應(yīng)的輸出 y 是 1 還是-1。這是線(xiàn)性可分的分的工作就是要求出w和 b,從而確定出最優(yōu)分類(lèi)線(xiàn),使其不但錯(cuò)誤地分開(kāi),而且要使兩類(lèi)樣本點(diǎn)之間的間隔距離最大。

線(xiàn)性不可分,函數(shù)定義,樣本點(diǎn),非線(xiàn)性變換


(1)這兩條直線(xiàn) H1、H2 也能夠?qū)深?lèi)樣本點(diǎn)完全分開(kāi),H1 和 H2 之間沒(méi)有任何樣本點(diǎn)存在;(2)H1 與 H2 之間的距離是所有平行于 H 且滿(mǎn)足條件(1)的兩條直線(xiàn)中最大的。當(dāng)分類(lèi)線(xiàn) H 能夠使得滿(mǎn)足上述條件(1)(2)的兩條直線(xiàn) H1、H2 之間的距離最大化的時(shí)候,H 就是該二元分類(lèi)問(wèn)題的最優(yōu)分類(lèi)線(xiàn)。此時(shí),那些正好在直線(xiàn)H1 和 H2 上的樣本點(diǎn),就叫做“支持向量”。若將情況推廣到高維空間,最優(yōu)分類(lèi)線(xiàn)就成為最優(yōu)分類(lèi)面。如圖 2-3 所示

【參考文獻(xiàn)】:
期刊論文
[1]網(wǎng)絡(luò)環(huán)境下海洋院校圖書(shū)館海洋科學(xué)知識(shí)服務(wù)體系模式研究[J]. 邵艷.  浙江海洋學(xué)院學(xué)報(bào)(人文科學(xué)版). 2007(03)
[2]機(jī)器學(xué)習(xí)的發(fā)展現(xiàn)狀及其相關(guān)研究[J]. 蘇淑玲.  肇慶學(xué)院學(xué)報(bào). 2007(02)
[3]文本分類(lèi)綜述[J]. 靳小波.  自動(dòng)化博覽. 2006(S1)
[4]基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J]. 蘇金樹(shù),張博鋒,徐昕.  軟件學(xué)報(bào). 2006(09)
[5]使用最大熵模型進(jìn)行中文文本分類(lèi)[J]. 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā).  計(jì)算機(jī)研究與發(fā)展. 2005(01)
[6]中文文本分類(lèi)中特征抽取方法的比較研究[J]. 代六玲,黃河燕,陳肇雄.  中文信息學(xué)報(bào). 2004(01)
[7]基于VSM的中文文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張東禮,汪東升,鄭緯民.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2003(09)
[8]關(guān)于文本特征抽取新方法的研究[J]. 李凡,魯明羽,陸玉昌.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2001(07)

博士論文
[1]文本分類(lèi)及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005

碩士論文
[1]海洋文獻(xiàn)元數(shù)據(jù)的語(yǔ)義標(biāo)注技術(shù)研究[D]. 王浩然.中國(guó)海洋大學(xué) 2008
[2]基于貝葉斯的網(wǎng)頁(yè)文本分類(lèi)算法[D]. 張匯.華中科技大學(xué) 2004



本文編號(hào):3507808

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/tushudanganlunwen/3507808.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)cc026***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com