基于WEB挖掘的網(wǎng)頁(yè)主題標(biāo)簽系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:Web網(wǎng)頁(yè) + 主題標(biāo)簽; 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:隨著Internet的快速發(fā)展,互聯(lián)網(wǎng)上的信息呈爆炸式增長(zhǎng)。這大大豐富了用戶(hù)獲取信息的渠道,但也使得Web信息呈現(xiàn)出駁雜和冗余的特點(diǎn),給用戶(hù)快速精確定位自己感興趣的信息帶來(lái)了一定困難。Web2.0時(shí)代的到來(lái),使標(biāo)簽成為一種互聯(lián)網(wǎng)信息組織方式。目前,一些研究者通過(guò)文木分類(lèi)、文摘自動(dòng)生成等技術(shù)來(lái)對(duì)Web網(wǎng)頁(yè)進(jìn)行標(biāo)引,從而提高用戶(hù)檢索的效率和準(zhǔn)確率。但是這種粗粒度的Web網(wǎng)頁(yè)關(guān)鍵信息提取和標(biāo)引仍然無(wú)法滿(mǎn)足用戶(hù)對(duì)信息查找的需求,它忽略了網(wǎng)頁(yè)自身的特點(diǎn)。另外,不同類(lèi)型的網(wǎng)頁(yè)采用統(tǒng)一的處理方式,使得輸出結(jié)果準(zhǔn)確度不高,缺乏具體應(yīng)用場(chǎng)景具體分析的功能。因此,利用合理的技術(shù)和網(wǎng)頁(yè)信息組織方式幫助用戶(hù)獲取有價(jià)值的信息,成為Web網(wǎng)頁(yè)主題標(biāo)簽提取亟需解決的問(wèn)題。本文采用自然語(yǔ)言標(biāo)引方式對(duì)Web網(wǎng)頁(yè)進(jìn)行分析和研究,提出了構(gòu)建Web網(wǎng)頁(yè)主題標(biāo)簽的解決方案,并完成相應(yīng)的網(wǎng)頁(yè)主題標(biāo)簽系統(tǒng)。其中,主要研究?jī)?nèi)容和成果包括:1)實(shí)現(xiàn)了網(wǎng)頁(yè)主題標(biāo)簽的提取。本文利用Web文本挖掘技術(shù),同時(shí)結(jié)合網(wǎng)頁(yè)自身特點(diǎn),設(shè)計(jì)了網(wǎng)頁(yè)主題標(biāo)簽提取的流程,并實(shí)現(xiàn)了數(shù)據(jù)準(zhǔn)備、網(wǎng)頁(yè)信息抽取、文本預(yù)處理、網(wǎng)頁(yè)主題標(biāo)簽構(gòu)建等功能模塊;2)研究了三種應(yīng)用場(chǎng)景下的網(wǎng)頁(yè)標(biāo)簽構(gòu)建技術(shù)。分別對(duì)關(guān)鍵詞提取方法和命名實(shí)體識(shí)別技術(shù)進(jìn)行了研究,并在此基礎(chǔ)上,針對(duì)有正文信息的網(wǎng)頁(yè)、需要識(shí)別特殊信息的網(wǎng)頁(yè)和無(wú)正文信息的網(wǎng)頁(yè)分別實(shí)現(xiàn)了多特征融合關(guān)鍵詞提取、命名實(shí)體識(shí)別和基于TF的關(guān)鍵詞提取方法,并將其應(yīng)用到不同類(lèi)型網(wǎng)頁(yè)的主題標(biāo)簽構(gòu)建中;3)不同分類(lèi)網(wǎng)頁(yè)的主題標(biāo)簽提取方案研究。通過(guò)對(duì)新聞?lì)、視頻類(lèi)和電商類(lèi)網(wǎng)頁(yè)特點(diǎn)進(jìn)行分析及對(duì)比,提出了其各自合適的網(wǎng)頁(yè)主題標(biāo)簽提取方案。首先需要抽取能夠代表網(wǎng)頁(yè)中心思想的文本內(nèi)容,然后根據(jù)其特點(diǎn)采取合適的網(wǎng)頁(yè)標(biāo)簽構(gòu)建技術(shù)生成網(wǎng)頁(yè)主題標(biāo)簽,最后進(jìn)行可視化展示。4)提出了系統(tǒng)的應(yīng)用方案。本文利用網(wǎng)頁(yè)主題標(biāo)簽提取為用戶(hù)提供數(shù)據(jù)分析能力,實(shí)現(xiàn)批量URL的分析。對(duì)批量URL進(jìn)行分析后,用戶(hù)可直觀(guān)地看到數(shù)據(jù)分析結(jié)果,這樣可以幫助用戶(hù)發(fā)掘數(shù)據(jù)背后隱含的價(jià)值和意義,并客觀(guān)地認(rèn)識(shí)和理解數(shù)據(jù);谏鲜鲅芯?jī)?nèi)容和成果,本文構(gòu)建并實(shí)現(xiàn)了基于Web文本挖掘的網(wǎng)頁(yè)主題標(biāo)簽系統(tǒng),該系統(tǒng)能夠?qū)eb網(wǎng)頁(yè)進(jìn)行挖掘分析,從而為網(wǎng)頁(yè)生成具有一定準(zhǔn)確性的主題標(biāo)簽,實(shí)現(xiàn)網(wǎng)頁(yè)信息的有效組織和管理,以便用戶(hù)有效獲取所需的知識(shí)。
[Abstract]:With the rapid development of Internet, the information on the Internet is increasing explosively.This greatly enriches the channels for users to obtain information, but also makes the Web information present the characteristics of complexity and redundancy, which brings some difficulties to the users to locate the information they are interested in quickly and accurately. The arrival of the era of Web 2.0.Make tagging a way of organizing information on the Internet.At present, some researchers use the techniques of document classification and automatic generation of abstracts to index Web pages, so as to improve the efficiency and accuracy of user retrieval.However, this coarse-grained Web page key information extraction and indexing still can not meet the needs of users to find information, it ignores the characteristics of the page itself.In addition, different types of web pages adopt a unified processing method, which makes the output accuracy is not high, and lacks the function of specific analysis of specific application scenarios.Therefore, the use of reasonable technology and web information organization to help users to obtain valuable information, Web page topic label extraction needs to be solved.In this paper, the natural language indexing method is used to analyze and study the Web web pages, and a solution to construct the Web web page theme tags is proposed, and the corresponding web page theme label system is completed.Among them, the main research contents and results include: 1) to achieve the extraction of page theme tags.In this paper, we use Web text mining technology, and combine the characteristics of web pages, design the process of page topic label extraction, and realize the data preparation, page information extraction, text preprocessing.This paper studies the construction technology of web page label in three application scenarios.The methods of keyword extraction and named entity recognition are studied respectively, and on this basis, for web pages with text information,Web pages that need to recognize special information and pages without text information have realized multi-feature fusion keyword extraction, named entity recognition and TF based keyword extraction methods, respectively.It is applied to the topic label construction of different web pages.Through the analysis and comparison of the features of news, video and ecommerce web pages, this paper puts forward their own suitable schemes for extracting the theme tags of their web pages.Firstly, it is necessary to extract the text content which can represent the central idea of the web page, and then according to its characteristics, we adopt the appropriate technology of page label construction to generate the web page theme label. Finally, we present a systematic application scheme.In this paper, we use topic label extraction to provide users with data analysis ability and realize batch URL analysis.After analyzing the batch URL, the user can see the result of the data analysis intuitively, which can help the user to discover the hidden value and meaning behind the data, and to understand and understand the data objectively.Based on the above research contents and achievements, this paper constructs and implements a topic label system based on Web text mining. The system can mine and analyze Web pages, thus generating a certain accuracy of topic labels for web pages.Realize the effective organization and management of web information, so that users can obtain the required knowledge effectively.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張莉婧;李業(yè)麗;曾慶濤;雷嘉麗;楊鵬;;基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J];北京印刷學(xué)院學(xué)報(bào);2016年04期
2 余珊珊;蘇錦鈿;李鵬飛;;基于改進(jìn)的TextRank的自動(dòng)摘要提取方法[J];計(jì)算機(jī)科學(xué);2016年06期
3 顧益軍;夏天;;融合LDA與TextRank的關(guān)鍵詞抽取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2014年Z1期
4 金瑛;;國(guó)外關(guān)于社會(huì)標(biāo)簽的研究進(jìn)展[J];圖書(shū)館學(xué)研究;2014年12期
5 王星;劉偉;;基于引文的中文學(xué)術(shù)文獻(xiàn)自動(dòng)標(biāo)引方法研究[J];圖書(shū)情報(bào)工作;2014年03期
6 龐寧;;基于網(wǎng)頁(yè)特征的特征詞提取技術(shù)[J];西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
7 夏天;;詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2013年09期
8 張琰;王強(qiáng);安萍;;基于Web文本挖掘相關(guān)技術(shù)的研究[J];科協(xié)論壇(下半月);2012年09期
9 丁世飛;齊丙娟;譚紅艷;;支持向量機(jī)理論與算法研究綜述[J];電子科技大學(xué)學(xué)報(bào);2011年01期
10 孫鎮(zhèn);王惠臨;;命名實(shí)體識(shí)別研究進(jìn)展綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2010年06期
相關(guān)碩士學(xué)位論文 前10條
1 鐘旭東;網(wǎng)頁(yè)分類(lèi)中的標(biāo)簽權(quán)重自動(dòng)優(yōu)化研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2015年
2 趙媛心;Web服務(wù)標(biāo)簽挖掘模塊的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
3 毛新武;基于組合特征的中文新聞網(wǎng)頁(yè)關(guān)鍵詞提取研究[D];北京林業(yè)大學(xué);2013年
4 王偉;Web挖掘技術(shù)及其在互聯(lián)網(wǎng)中的應(yīng)用研究[D];山東大學(xué);2013年
5 王曉飛;基于主題特征的Web信息挖掘模型的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
6 張宏兵;Web文本挖掘技術(shù)在網(wǎng)頁(yè)推薦中的應(yīng)用研究[D];南京理工大學(xué);2013年
7 張聰聰;面向互聯(lián)網(wǎng)網(wǎng)站標(biāo)注的標(biāo)簽庫(kù)的研究[D];北京郵電大學(xué);2013年
8 伍菲;面向主題型的網(wǎng)頁(yè)分類(lèi)技術(shù)的研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
9 盧健;面向文本的主題挖掘技術(shù)與實(shí)現(xiàn)[D];濟(jì)南大學(xué);2010年
10 胡靜;基于Web的中文文本挖掘技術(shù)的研究及實(shí)現(xiàn)[D];中南大學(xué);2009年
,本文編號(hào):1770910
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1770910.html