天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

Web文本分類方法研究與系統(tǒng)實(shí)現(xiàn)

發(fā)布時(shí)間:2018-12-07 20:55
【摘要】: 近年來,Web已經(jīng)飛速發(fā)展成為了世界上數(shù)據(jù)量最大的公共信息源。如何使Web用戶能夠在浩瀚的信息資源中方便、快捷的定位到所需要的信息,已經(jīng)成為迫切需要解決的問題。Web文本的正確分類正是其中的核心問題。Web文本分類源自于自動(dòng)分類技術(shù),是Web文本挖掘的重要組成部分。它不僅可以有效提高用戶的搜索效率,幫助用戶快速、準(zhǔn)確的定位到目標(biāo)知識(shí),而且還可以獲取到不同用戶的類別興趣特征,為滿足用戶的個(gè)性化服務(wù)要求提供參考。 目前的分類研究多把文檔類別看成是平面化的、不相交的,沒有考慮到類別間的層次關(guān)系。當(dāng)類別數(shù)目較多時(shí),平面分類學(xué)習(xí)得到分類器的時(shí)間開銷大,而且在對(duì)未知文檔分類時(shí),需要與全部類模型進(jìn)行比較,這顯然很不恰當(dāng)。本文在對(duì)Web文本挖掘及自動(dòng)分類技術(shù)進(jìn)行深入研究的基礎(chǔ)上,結(jié)合類別間的層次關(guān)系,實(shí)現(xiàn)了一個(gè)多層次的Web文本分類系統(tǒng)。本文創(chuàng)新點(diǎn)和關(guān)鍵技術(shù)如下: 1.建立了層次化的訓(xùn)練和分類模型:本文針對(duì)網(wǎng)頁內(nèi)容豐富、涉及多領(lǐng)域的多個(gè)類別的特征,分析了平面分類方法在多類別情況下存在的問題,提出了層次分類的思想,建立了層次化的訓(xùn)練和分類模型。 2.設(shè)計(jì)并實(shí)現(xiàn)了Web文本的自動(dòng)抽取器:Web網(wǎng)頁中摻雜的廣告、超鏈接等噪聲給Web文本分類帶來了極大困擾。本文實(shí)現(xiàn)了一個(gè)Web文本自動(dòng)抽取器,使Web頁面經(jīng)過處理變?yōu)檩^純凈的包含標(biāo)題和正文內(nèi)容的純文本。 3.提出了一種適合于Web網(wǎng)頁的關(guān)鍵詞提取方法:網(wǎng)頁中不同位置和不同詞性的詞語對(duì)表達(dá)網(wǎng)頁內(nèi)容所起的作用也有所不同,針對(duì)這一特點(diǎn),本文提出了基于詞性、位置和詞頻信息加權(quán)的關(guān)鍵詞提取方法來進(jìn)一步過濾掉網(wǎng)頁噪聲詞,取得了較好的效果。 4.提出了一種基于χ2統(tǒng)計(jì)量加權(quán)的分類方法:χ2統(tǒng)計(jì)量能夠很好的反映特征和類別間的相關(guān)性。本文創(chuàng)新性的將χ2統(tǒng)計(jì)量應(yīng)用于文本分類,不但簡(jiǎn)化了分類過程,而且在實(shí)際應(yīng)用中得到了較好的分類速度和準(zhǔn)確度。 本論文根據(jù)Web文本的特點(diǎn)提出了一套針對(duì)大規(guī)模、多類別的Web文本進(jìn)行分類的實(shí)施方案,設(shè)計(jì)了一個(gè)Web文本的多層次分類系統(tǒng)。結(jié)果表明,本系統(tǒng)在實(shí)踐中的分類性能優(yōu)于一般的平面分類器。
[Abstract]:In recent years, Web has developed rapidly into the largest public information source in the world. How to enable Web users to locate the needed information conveniently and quickly in the vast information resources, The correct classification of Web text is the core problem. Web text classification is derived from automatic classification technology and is an important part of Web text mining. It not only can effectively improve the search efficiency of users, help users to locate the target knowledge quickly and accurately, but also can obtain the interest characteristics of different users, and provide a reference to meet the personalized service requirements of users. Most of the current classification studies regard document categories as flat, disjoint, and do not take into account the hierarchical relationship between categories. When the number of categories is large, the time cost of learning classifier by plane classification is very large, and when classifying unknown documents, we need to compare them with all class models, which is obviously not appropriate. Based on the in-depth study of Web text mining and automatic classification technology, this paper implements a multi-level Web text classification system based on the hierarchical relationship between categories. The innovations and key technologies of this paper are as follows: 1. A hierarchical training and classification model is established. Aiming at the features of many kinds of web pages which are rich in content and involving many fields, this paper analyzes the problems existing in the method of plane classification in the case of multiple categories, and puts forward the idea of hierarchical classification. A hierarchical training and classification model is established. 2. An automatic Web text extractor is designed and implemented. The noise such as ads and hyperlinks in Web pages brings great trouble to Web text classification. In this paper, an automatic Web text extractor is implemented, which makes the Web page become pure text containing title and text. 3. In this paper, a keyword extraction method suitable for Web web pages is proposed. Different positions and different parts of speech in web pages play different roles in the expression of web pages. In view of this characteristic, this paper proposes a new method based on part of speech. Position and word frequency information weighted keyword extraction method to further filter out the page noise words, and achieved good results. 4. A classification method based on the weighting of 蠂 2 statistics is proposed. 蠂 2 statistics can well reflect the correlation between features and categories. This paper innovatively applies 蠂 2 statistics to text classification, which not only simplifies the classification process, but also obtains better classification speed and accuracy in practical application. According to the characteristics of Web texts, this paper proposes a set of implementation schemes for large-scale, multi-class Web text classification, and designs a multi-level classification system for Web texts. The results show that the classification performance of this system is better than that of general plane classifier in practice.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 付雪峰,王明文;基于模糊-粗糙集的文本分類方法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

2 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期

3 李曉黎,劉繼敏,史忠植;概念推理網(wǎng)及其在文本分類中的應(yīng)用[J];計(jì)算機(jī)研究與發(fā)展;2000年09期

4 王本年,高陽,陳世福,謝俊元;Web智能研究現(xiàn)狀與發(fā)展趨勢(shì)[J];計(jì)算機(jī)研究與發(fā)展;2005年05期

5 李波,李新軍;一種基于粗糙集和支持向量機(jī)的混合分類算法[J];計(jì)算機(jī)應(yīng)用;2004年03期

6 涂承勝,魯明羽,陸玉昌;Web內(nèi)容挖掘技術(shù)研究[J];計(jì)算機(jī)應(yīng)用研究;2003年11期

7 范焱,鄭誠,王清毅,蔡慶生,劉潔;用Naive Bayes方法協(xié)調(diào)分類Web網(wǎng)頁[J];軟件學(xué)報(bào);2001年09期

8 白翎雁;才書訓(xùn);;Web文本挖掘及相關(guān)技術(shù)研究[J];沈陽工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期

9 高淑琴;;Web文本分類技術(shù)研究現(xiàn)狀述評(píng)[J];圖書情報(bào)知識(shí);2008年03期

10 許高建;;基于Web的文本挖掘技術(shù)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年06期

相關(guān)博士學(xué)位論文 前2條

1 劉永丹;文檔數(shù)據(jù)庫若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年

2 王煜;基于決策樹和K最近鄰算法的文本分類研究[D];天津大學(xué);2006年

相關(guān)碩士學(xué)位論文 前7條

1 孫麗華;中文文本自動(dòng)分類的研究[D];哈爾濱工程大學(xué);2002年

2 羅強(qiáng);基于粗糙集理論的知識(shí)發(fā)現(xiàn)在web文本挖掘上的應(yīng)用研究[D];廣西大學(xué);2003年

3 張濱;中文文檔分類技術(shù)研究[D];武漢大學(xué);2004年

4 彭雅;文本分類算法及其應(yīng)用研究[D];湖南大學(xué);2004年

5 汪傳建;基于混合模型的文本分類的研究[D];東北大學(xué);2005年

6 鄒丹;基于Web的中文文本分類的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2006年

7 邢麗莉;基于Web的中文文本分類技術(shù)的研究[D];河北工程大學(xué);2008年

,

本文編號(hào):2367860

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/2367860.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2240***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com