天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于語義分析的垃圾頁面檢測算法研究

發(fā)布時(shí)間:2018-05-05 21:22

  本文選題:搜索引擎 + 垃圾網(wǎng)頁檢測 ; 參考:《大連理工大學(xué)》2013年碩士論文


【摘要】:垃圾網(wǎng)頁是針對搜索引擎結(jié)果排名設(shè)計(jì)的,而不是為了提高用戶上網(wǎng)體驗(yàn)。為了能使某些頁面在搜索引擎的檢索排名中比較靠前,垃圾網(wǎng)頁制作者往往采用欺騙搜索引擎的手段。垃圾網(wǎng)頁的猖獗使得搜索引擎的檢索排名越來越不能反映網(wǎng)頁的真實(shí)價(jià)值,用戶的搜索體驗(yàn)不斷下降,垃圾網(wǎng)頁已經(jīng)成為搜索引擎面臨的最大挑戰(zhàn)之一。因此,研究有效的垃圾網(wǎng)頁檢測算法具有深遠(yuǎn)的意義。 本文首先對搜索引擎的工作原理進(jìn)行了簡單描述,并介紹了幾種常用的垃圾網(wǎng)頁檢測技術(shù),對他們的研究狀況做了簡單的分析。接著說明了這些技術(shù)的基本原理以及他們的特點(diǎn),總結(jié)了一系列反搜索引擎技術(shù)。 本文針對垃圾網(wǎng)頁的特點(diǎn),圍繞特征提取和分類器設(shè)計(jì)等關(guān)鍵問題進(jìn)行了研究,并用機(jī)器學(xué)習(xí)的方法,系統(tǒng)設(shè)計(jì)了垃圾網(wǎng)頁檢測框架。核心思想是提取網(wǎng)頁中具有代表性的內(nèi)容特征,然后用機(jī)器學(xué)習(xí)算法訓(xùn)練這些特征,構(gòu)建檢測模型,再用生成的檢測模型對網(wǎng)頁進(jìn)行分類。這樣就把垃圾網(wǎng)頁的檢測轉(zhuǎn)化成機(jī)器學(xué)習(xí)中的分類問題,采用C4.5決策樹算法,將網(wǎng)頁分類為正常網(wǎng)頁和垃圾網(wǎng)頁。之后又加入了Bagging和Boosting方法,進(jìn)一步提高了分類的準(zhǔn)確度。本文在公開的標(biāo)準(zhǔn)測試數(shù)據(jù)集WEBSPAM-UK2007上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明用本文的基于語義分析的分類算法可以有效的檢測垃圾網(wǎng)頁。
[Abstract]:Spam pages are designed for ranking search engine results, not for improving the user's online experience. In order to make some pages rank higher in search engines, spam web page makers often use the means of cheating search engines. The rampant spam pages make the search ranking of search engines more and more unable to reflect the true value of web pages, and the search experience of users is declining. Spam pages have become one of the biggest challenges facing search engines. Therefore, it is of great significance to study the effective spam detection algorithm. In this paper, the working principle of search engine is briefly described, and several common spam page detection techniques are introduced, and their research status is analyzed briefly. Then it explains the basic principle of these technologies and their characteristics, and summarizes a series of anti-search engine technologies. According to the characteristics of garbage pages, this paper studies the key problems such as feature extraction and classifier design, and designs the detection framework of garbage pages by means of machine learning. The core idea is to extract the representative content features from web pages, then train these features with machine learning algorithm, construct the detection model, and then use the generated detection model to classify the web pages. In this way, the detection of garbage pages is transformed into a classification problem in machine learning, and C4.5 decision tree algorithm is used to classify web pages into normal pages and junk pages. Then Bagging and Boosting methods were added to further improve the accuracy of classification. The experimental results on the open standard test data set (WEBSPAM-UK2007) show that the classification algorithm based on semantic analysis can effectively detect garbage pages.
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王秋;;校園網(wǎng)頁設(shè)計(jì)[J];中國教育網(wǎng)絡(luò);2008年12期

2 一號;;Dreamweaver必備網(wǎng)頁設(shè)計(jì)技巧[J];網(wǎng)絡(luò)與信息;2007年02期

3 ;平面設(shè)計(jì)師生存手冊(3) 機(jī)會風(fēng)從網(wǎng)上來[J];電腦愛好者;2009年20期

4 阿嘉;;東方網(wǎng)頁王Ⅲ 網(wǎng)頁制作一氣呵成[J];電腦采購周刊;2001年43期

5 余晶;韓俊;;新聞網(wǎng)站設(shè)計(jì)中的視覺傳達(dá)[J];新聞前哨;2008年01期

6 劉海桃;;淺談網(wǎng)頁設(shè)計(jì)[J];科技傳播;2010年21期

7 林文發(fā);;網(wǎng)頁設(shè)計(jì)中的色彩搭配[J];信息與電腦(理論版);2010年12期

8 段新宇;;淺談網(wǎng)頁設(shè)計(jì)中的文字運(yùn)用[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年01期

9 唐雨薇;;CSS在網(wǎng)頁編程應(yīng)用[J];中國商界(下半月);2010年07期

10 鄭文碩;;如何搞好網(wǎng)頁設(shè)計(jì)的布局[J];China's Foreign Trade;2011年04期

相關(guān)會議論文 前10條

1 王謹(jǐn);;水墨風(fēng)格在網(wǎng)頁設(shè)計(jì)中的運(yùn)用[A];城市文化與藝術(shù)審美[C];2008年

2 許文惠;;圖書館網(wǎng)站及網(wǎng)頁設(shè)計(jì)初探[A];圖書館理論與實(shí)踐[C];2002年

3 王新;滕玉才;李長富;;淺談船上甚高頻無線電話使用中的不良現(xiàn)象與管理[A];2002航海實(shí)用新技術(shù)論文集[C];2002年

4 孫宇航;;科技期刊網(wǎng)站的建設(shè)探討[A];第4屆中國科技期刊青年編輯學(xué)術(shù)研討會論文集[C];2004年

5 姚秋明;甄莉;;基于NEWS油藏綜合解釋系統(tǒng)的網(wǎng)站建設(shè)[A];油氣地球物理實(shí)用新技術(shù)——中國石化石油勘探開發(fā)研究院南京石油物探研究所2005年學(xué)術(shù)交流會論文集[C];2005年

6 楊孫超;;縣級公共圖書館網(wǎng)站建設(shè)的思考[A];福建省圖書館學(xué)會2006年學(xué)術(shù)年會論文集[C];2006年

7 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機(jī)械工程學(xué)會年會暨中國工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會論文集[C];2006年

8 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年

9 杜玉梅;杜習(xí)英;劉曉云;;中小企業(yè)網(wǎng)站建設(shè)方案[A];計(jì)算機(jī)模擬與信息技術(shù)會議論文集[C];2001年

10 余嶸華;;大學(xué)物理網(wǎng)上教學(xué)系統(tǒng)的安全設(shè)計(jì)[A];全國第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 黃繼新;反垃圾信息:技術(shù)抑或法律?[N];經(jīng)濟(jì)觀察報(bào);2004年

2 楊永猛;西藏移動維護(hù)消費(fèi)者權(quán)益[N];人民郵電;2008年

3 苗莎莎;內(nèi)蒙古移動遏制不良信息出新舉[N];人民郵電;2008年

4 何宗卯 本報(bào)特約記者 李典勝;向垃圾信息說不[N];解放軍報(bào);2011年

5 本報(bào)記者 劉燕;各大社區(qū)聯(lián)手打響垃圾信息圍殲戰(zhàn)[N];科技日報(bào);2011年

6 ;垃圾信息有望繳清[N];中國電腦教育報(bào);2011年

7 本報(bào)記者 秦國防;綠色聯(lián)盟能否掃清信息垃圾[N];河南日報(bào);2008年

8 記者 周國勇 實(shí)習(xí)生 金丹;手文明:你會丟東西嗎?[N];紹興日報(bào);2011年

9 張英;權(quán)威調(diào)查:用戶平均每周收到8.29條垃圾短信[N];人民郵電;2006年

10 魏達(dá)嘉;跳出“一企一事” 關(guān)注國計(jì)民生[N];文匯報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 程紅蓉;垃圾圖像特征提取與選擇研究[D];電子科技大學(xué);2011年

2 李輝;移動商務(wù)導(dǎo)購系統(tǒng)的研究[D];大連理工大學(xué);2008年

3 夏虎;移動社交網(wǎng)絡(luò)結(jié)構(gòu)和行為研究及其應(yīng)用[D];電子科技大學(xué);2012年

4 盧湖川;人臉識別中幾個關(guān)鍵算法研究[D];大連理工大學(xué);2008年

5 劉衛(wèi)紅;垃圾郵件檢測與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

6 鄧蔚;垃圾郵件過濾中的敵手分類問題研究[D];電子科技大學(xué);2011年

7 張開敏;移動Web瀏覽系統(tǒng)的若干關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2012年

8 劉伍穎;面向垃圾信息過濾的主動多域?qū)W習(xí)文本分類方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年

9 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年

10 賴布爾(Muhammad Nabeel Talib);語義支持的一種面向盲人使用者的電子商務(wù)語音瀏覽方法研究[D];華中科技大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 彭聰;一種在移動網(wǎng)絡(luò)環(huán)境下的網(wǎng)頁排序算法的研究[D];湖南大學(xué);2010年

2 劉俊榮;基于行為識別的網(wǎng)頁文本分類算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

3 宋鰲;網(wǎng)頁去噪在交互電視中的應(yīng)用與研究[D];上海交通大學(xué);2011年

4 任昌;基于多特征融合的網(wǎng)頁對象自動定位技術(shù)研究[D];中北大學(xué);2011年

5 劉陽;基于內(nèi)容的搜索引擎網(wǎng)頁去重研究[D];江蘇大學(xué);2010年

6 陳燁;面向用戶體驗(yàn)的網(wǎng)頁界面優(yōu)化設(shè)計(jì)方法研究[D];重慶大學(xué);2010年

7 劉典型;多頁面特殊網(wǎng)頁文字提取與合并技術(shù)研究[D];湖南大學(xué);2010年

8 董娟;基于頁面結(jié)構(gòu)分析的網(wǎng)頁信息抽取方法研究[D];中國石油大學(xué);2010年

9 李文嬌;基于語義分析的垃圾頁面檢測算法研究[D];大連理工大學(xué);2013年

10 宋玲;網(wǎng)頁交互設(shè)計(jì)的視覺體驗(yàn)[D];西安美術(shù)學(xué)院;2010年

,

本文編號:1849346

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1849346.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶88331***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com