中文網(wǎng)頁(yè)自動(dòng)分類(lèi)新算法
本文選題:文本分類(lèi) + 搜索引擎; 參考:《清華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2000年01期
【摘要】:為了有效地組織因特網(wǎng)上極其豐富的信息資源 ,通過(guò)分析中文和中文網(wǎng)頁(yè)的特點(diǎn) ,提出了一種新的中文網(wǎng)頁(yè)的自動(dòng)分類(lèi)算法。這種算法主要利用字間的相關(guān)信息、詞頻以及頁(yè)面的標(biāo)記信息等 ,提取網(wǎng)頁(yè)特征 ,并計(jì)算可調(diào)的詞頻加權(quán)參數(shù) ,然后通過(guò)本類(lèi)和非本類(lèi)訓(xùn)練 ,建立專(zhuān)家數(shù)據(jù)庫(kù)。實(shí)驗(yàn)表明 ,該算法可以獲得 80 %以上的網(wǎng)頁(yè)分類(lèi)準(zhǔn)確率
[Abstract]:In order to effectively organize the abundant information resources on the Internet, a new automatic classification algorithm for Chinese web pages is proposed by analyzing the characteristics of Chinese and Chinese web pages. In this algorithm, the relevant information between words, word frequency and page tagging information are used to extract the features of web pages, and calculate the adjustable weighted parameters of word frequency. Then, the expert database is established through training of this class and non-class. Experiments show that the algorithm can achieve more than 80% of the accuracy of web page classification.
【作者單位】: 清華大學(xué)電子工程系!北京100084 清華大學(xué)電子工程系!北京100084 清華大學(xué)電子工程系!北京100084
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目!(6 96 2 5 1 0 3)
【分類(lèi)號(hào)】:TP393
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 柯麗;王明文;何世柱;黎佳;羅遠(yuǎn)勝;;基于頻率共現(xiàn)熵的跨語(yǔ)言網(wǎng)頁(yè)自動(dòng)分類(lèi)研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
2 駱萬(wàn)文;高飛;周學(xué)廣;;抗中文主動(dòng)干擾關(guān)鍵詞過(guò)濾研究綜述[J];吉首大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
3 李俊華;;基于Web文本挖掘的高校教師個(gè)人主頁(yè)系統(tǒng)研究與開(kāi)發(fā)[J];大理學(xué)院學(xué)報(bào);2011年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前10條
1 劉秉權(quán);李博;孫林;王寶勛;劉遠(yuǎn)超;;標(biāo)簽特征和正文特征融合的SVM博客文本分類(lèi)算法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
2 王巖;;基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年
3 潘文鋒;王斌;譚松波;;貝葉斯垃圾郵件過(guò)濾研究[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)’2004論文集[C];2004年
4 潘文鋒;王斌;于滿(mǎn)泉;譚松波;;Winnow算法在垃圾郵件過(guò)濾中的應(yīng)用[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 劉曉勇;;基于GA與SVM融合的網(wǎng)頁(yè)分類(lèi)算法[A];中國(guó)運(yùn)籌學(xué)會(huì)模糊信息與模糊工程分會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2010年
6 江濤;于洪志;徐濤;;互聯(lián)網(wǎng)藏文內(nèi)容安全檢測(cè)過(guò)濾系統(tǒng)研究[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
7 劉子豪;莊毅;;一種電子郵件敏感信息檢測(cè)算法[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
8 郎加云;胡學(xué)鋼;;電子郵件內(nèi)容過(guò)濾的相關(guān)特征研究[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
9 張海雷;王會(huì)珍;王安慧;朱靖波;;基于樸素貝葉斯模型的垃圾郵件過(guò)濾技術(shù)比較分析[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
10 李軍;何曉寧;黃成哲;齊浩亮;雷國(guó)華;;基于特征貢獻(xiàn)度的垃圾郵件過(guò)濾方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前1條
1 應(yīng)曉敏 竇文華;技術(shù)架構(gòu)[N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前9條
1 萬(wàn)源;基于語(yǔ)義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年
2 胡燕;基于Web信息抽取的專(zhuān)業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
3 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
4 宗校軍;中文網(wǎng)頁(yè)定題采集及分類(lèi)研究[D];華中科技大學(xué);2006年
5 萬(wàn)國(guó)根;面向內(nèi)容的網(wǎng)絡(luò)安全監(jiān)控模型及其關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2005年
6 譚建龍;串匹配算法及其在網(wǎng)絡(luò)內(nèi)容分析中的應(yīng)用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
7 孫建濤;Web挖掘中的降維和分類(lèi)方法研究[D];清華大學(xué);2005年
8 陳彬;垃圾郵件的特征選擇及檢測(cè)方法研究[D];華南理工大學(xué);2010年
9 孫晶濤;基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)研究[D];蘭州理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 楊昂;文本分類(lèi)算法研究[D];湖南大學(xué);2002年
2 袁野;基于Vague集的網(wǎng)絡(luò)輿情研究[D];西安電子科技大學(xué);2010年
3 謝振亮;基于WEB挖掘技術(shù)的網(wǎng)頁(yè)自動(dòng)分類(lèi)和聚類(lèi)的研究[D];天津大學(xué);2004年
4 楊盛;電子郵件過(guò)濾系統(tǒng)的研究與設(shè)計(jì)[D];中南大學(xué);2005年
5 楊麗華;基于內(nèi)容的垃圾郵件過(guò)濾技術(shù)研究[D];西南交通大學(xué);2006年
6 曾志中;基于貝葉斯算法的垃圾郵件過(guò)濾系統(tǒng)的分析與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
7 張匯;基于貝葉斯的網(wǎng)頁(yè)文本分類(lèi)算法[D];華中科技大學(xué);2004年
8 劉建波;基于Agent的用戶(hù)興趣模型的研究[D];沈陽(yáng)工業(yè)大學(xué);2005年
9 朱軍;中文垃圾郵件過(guò)濾技術(shù)研究及應(yīng)用[D];合肥工業(yè)大學(xué);2005年
10 朱志寧;基于Web的企業(yè)競(jìng)爭(zhēng)情報(bào)智能搜集平臺(tái)中頁(yè)面分析存儲(chǔ)的研究[D];昆明理工大學(xué);2006年
,本文編號(hào):1963538
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1963538.html