天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

Spark平臺下的高效Web文本分類系統(tǒng)的研究

發(fā)布時間:2017-10-27 14:38

  本文關(guān)鍵詞:Spark平臺下的高效Web文本分類系統(tǒng)的研究


  更多相關(guān)文章: KNN TFIDF 文本分類 Hadoop Spark


【摘要】:針對KNN分類算法在面對海量Web文本處理情況時在單機上訓(xùn)練和測試效率低下的問題,提出基于Hadoop分布式平臺以及Spark并行計算模型的無中間結(jié)果輸出的改進型Web文本分類系統(tǒng)。同時為了充分利用Spark的迭代計算能力,在文本向量化階段,在傳統(tǒng)TFIDF文本特征加權(quán)算法的基礎(chǔ)上充分考慮特征項在類內(nèi)和類間的信息分布,提出一種改進的特征加權(quán)算法。實驗結(jié)果表明,該文本分類系統(tǒng)結(jié)合Spark計算模型在提高文本預(yù)處理、文本向量化以及KNN文本分類算法的性能上有著優(yōu)異的表現(xiàn)。
【作者單位】: 南京工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】KNN TFIDF 文本分類 Hadoop Spark
【分類號】:TP391.1
【正文快照】: 0 引言 隨著大數(shù)據(jù)浪潮的到來,對海量信息的處理能力已經(jīng)成為一個相當(dāng)重要的課題。成熟的文本分類系統(tǒng)通常具有很高準確率,但Web文本信息的實時性特點同時也要求分類系統(tǒng)具有很高的分類效率。目前使用比較廣泛的文本分類算法包括K臨近算法[1]、樸素貝葉斯[2]、最大熵[3]、支

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李光敏;許新山;熊旭輝;;Web文本情感分析研究綜述[J];現(xiàn)代情報;2014年05期

2 王序臻;;Web文本層次分類方法研究[J];溫州職業(yè)技術(shù)學(xué)院學(xué)報;2008年03期

3 鄒志華;田生偉;禹龍;馮冠軍;;改進的維吾爾語Web文本后綴樹聚類[J];中文信息學(xué)報;2013年02期

4 王景中;郭兆亮;;基于分層的中文Web文本內(nèi)容過濾研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2012年11期

5 王健;韓廣琳;;基于統(tǒng)計的Web文本自動摘要技術(shù)分析[J];福建電腦;2007年08期

6 翁_g;胡長軍;席強;張學(xué)春;;一種面向e-Science環(huán)境的多領(lǐng)域Web文本特征抽取模型[J];小型微型計算機系統(tǒng);2011年01期

7 鐘軍;田生偉;禹龍;;Web文本中維吾爾語領(lǐng)域術(shù)語的自動發(fā)現(xiàn)[J];計算機應(yīng)用;2012年02期

8 古麗娜孜;孫鐵利;;基于二叉樹的多類SVM在Web文本分類中的應(yīng)用研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2011年01期

9 李士勇;;基于人工免疫的Web文本自動摘要方法研究[J];現(xiàn)代計算機;2013年15期

10 徐麗;伏玉琛;李斯;;一種改進的SVM決策樹Web文本分類算法[J];蘇州大學(xué)學(xué)報(工科版);2011年05期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 劉斕冰;魏桂英;;Web文本信息挖掘技術(shù)[A];全國第十屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)年會論文集[C];2006年

2 于海燕;陳曉江;馮健;房鼎益;;Web文本內(nèi)容過濾方法的研究[A];2006年全國開放式分布與并行計算學(xué)術(shù)會議論文集(一)[C];2006年

3 袁志堅;賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 閆季鴻;基于Web文本和知識圖譜的實體摘要[D];華東師范大學(xué);2016年

2 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 于帥;中文Web文本情感傾向性分析技術(shù)的研究[D];哈爾濱工程大學(xué);2013年

2 郭凱;面向Web文本的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

3 鄧琨;基于Rough集的Web文本分類及其信息抽取研究[D];南昌大學(xué);2007年

4 桂海霞;利用表格等信息的Web文本分類研究與實現(xiàn)[D];安徽理工大學(xué);2008年

5 張諶奇;支持向量機在Web文本分類中的分析與應(yīng)用[D];暨南大學(xué);2008年



本文編號:1103945

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1103945.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9bfc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com