天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Hadoop的文本分類研究

發(fā)布時(shí)間:2019-07-18 15:16
【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)、電子商務(wù)、搜索引擎、移動(dòng)計(jì)算等已經(jīng)深入到人們的日常生活中,各類數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長(zhǎng),但是人們對(duì)信息的要求卻更加精細(xì)化、個(gè)性化。如何對(duì)海量的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分類的研究有著十分重要的意義,而云計(jì)算為海量數(shù)據(jù)的處理提供了強(qiáng)有力的工具,為此本文研究了基于云計(jì)算平臺(tái)Hadoop的文本分類,主要做了以下工作: (1)研究了云計(jì)算中的存儲(chǔ)、計(jì)算、虛擬化等關(guān)鍵技術(shù)。Hadoop作為一個(gè)開(kāi)源的并行計(jì)算平臺(tái),已經(jīng)逐步成為海量數(shù)據(jù)處理中最有力的工具,本文從設(shè)計(jì)理念、實(shí)現(xiàn)方法等多方面對(duì)其分布式文件系統(tǒng)HDFS和并行化編程范式MapReduce做了深入研究。 (2)將Hadoop平臺(tái)應(yīng)用到文本分類領(lǐng)域,在通用文本分類流程的基礎(chǔ)上,設(shè)計(jì)了一套基于MapReduce的并行化文本分類框架,在本地虛擬機(jī)環(huán)境下搭建了一個(gè)小型的Hadoop集群,編程實(shí)現(xiàn)了并行化文本分類算法,實(shí)驗(yàn)的運(yùn)行結(jié)果證明了該框架的有效性。 (3)在并行化文本分類框架的基礎(chǔ)上,研究了基于近鄰元分析的分類算法。不再僅僅將近鄰元分析作為一種距離測(cè)度學(xué)習(xí)算法,而是將其思想引入到分類中,結(jié)合局部近鄰思想,提出了一種K近鄰元分析分類算法(K-NCA),在文本分類的實(shí)驗(yàn)仿真取得了良好的效果,最后分析了算法的可并行性,提出了算法的并行化實(shí)現(xiàn)策略。
文內(nèi)圖片:MapReduce架構(gòu)Fig.2-1ArchitectureofMapReduce
圖片說(shuō)明: value。最終得到結(jié)果。圖2-1 MapReduce架構(gòu)Fig.2-1 Architecture of MapReduceMapReduce不僅是一種編程模型,同時(shí)也是一種高效的任務(wù)調(diào)度模型,它在多核多處理器也有良好的性能。
文內(nèi)圖片:云計(jì)算的架構(gòu)圖Fig.2-2ArchitectureofCloudComputing
圖片說(shuō)明: 上海交通大學(xué)碩士學(xué)位論文客戶端,應(yīng)用虛擬化把應(yīng)用對(duì)低層的系統(tǒng)和可能沖突,可以運(yùn)行一個(gè)程序的多個(gè)版本。的桌面環(huán)境與其使用的終端設(shè)備解耦,桌面,用戶可以通過(guò)任何設(shè)備,在任何地點(diǎn),任面系統(tǒng)。付模式計(jì)算可以分為三個(gè)層次:基礎(chǔ)設(shè)施即服務(wù)(服務(wù)(Platform as a Service, PaaS)、軟件即服個(gè)層次由底到上,也體現(xiàn)出了云計(jì)算的交付的產(chǎn)業(yè)鏈,,一個(gè)完整的可交付的云平臺(tái)如下圖
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 吳應(yīng)良,韋崗,李海洲;一種基于N-gram模型和機(jī)器學(xué)習(xí)的漢語(yǔ)分詞算法[J];電子與信息學(xué)報(bào);2001年11期

2 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期

3 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計(jì)算機(jī)工程;2005年08期

4 王自強(qiáng);錢旭;;基于流形學(xué)習(xí)和SVM的Web文檔分類算法[J];計(jì)算機(jī)工程;2009年15期

5 楊延?jì)?王治和;;基于樹(shù)樁網(wǎng)絡(luò)的貝葉斯文本分類算法[J];計(jì)算機(jī)工程;2009年16期

6 林小俊;張猛;暴筱;李軍;吳璽宏;;基于概念網(wǎng)絡(luò)的短文本分類方法[J];計(jì)算機(jī)工程;2010年21期

7 孫榮宗;苗奪謙;衛(wèi)志華;李文;;基于粗糙集的快速KNN文本分類算法[J];計(jì)算機(jī)工程;2010年24期

8 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計(jì)算機(jī)工程;2011年11期

9 李伯虎;張霖;王時(shí)龍;陶飛;曹軍威;姜曉丹;宋曉;柴旭東;;云制造——面向服務(wù)的網(wǎng)絡(luò)化制造新模式[J];計(jì)算機(jī)集成制造系統(tǒng);2010年01期

10 王振宇;郭力;;基于Hadoop的搜索引擎用戶行為分析[J];計(jì)算機(jī)工程與科學(xué);2011年04期



本文編號(hào):2515940

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2515940.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d16c2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com