天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)絡(luò)爬蟲的注塑信息研究與實(shí)現(xiàn)

發(fā)布時間:2020-09-15 17:44
   這些年來,隨著互聯(lián)網(wǎng)的發(fā)展,尤其是智能手機(jī)和各種物聯(lián)網(wǎng)設(shè)備的加入,互聯(lián)網(wǎng)中的數(shù)據(jù)量也迎來了爆發(fā)式的增長。如此巨量的信息一方面豐富和方便了人們的生活,但另一方面也增加了獲取有效信息的難度。因此采用主題爬蟲技術(shù)方便快捷地收集注塑行業(yè)的相關(guān)信息,從而實(shí)現(xiàn)對注塑行業(yè)發(fā)展的監(jiān)控和預(yù)測,對于企業(yè)發(fā)展有著重要意義。本文來源于《大型注塑成型智能制造工廠》,設(shè)計(jì)和實(shí)現(xiàn)了能夠定向抓取網(wǎng)絡(luò)數(shù)據(jù)的主題爬蟲系統(tǒng)。通過閱讀大量的國內(nèi)外文獻(xiàn)資料,然后結(jié)合項(xiàng)目實(shí)際中遇到的問題,對主題爬蟲以及技術(shù)框架有了一定的了解和認(rèn)識,發(fā)現(xiàn)一些對于主題爬蟲的研究中所存在的問題:1)目前還沒有對于如何選取適當(dāng)?shù)某跏挤N子的研究;2)主題爬蟲的性能和召回率仍有提高空間,需要進(jìn)一步研究。針對上面提出的幾個問題,通過進(jìn)一步的實(shí)踐研究,本文給出了一些新的解決方法,并以此為基礎(chǔ),設(shè)計(jì)實(shí)現(xiàn)了主題爬蟲系統(tǒng)。在論文后面,利用多個實(shí)驗(yàn)表明了本文改進(jìn)算法的效果。本文的創(chuàng)新點(diǎn)有以下幾個:(1)在介紹了初始種子的選取問題后,在HITS算法的基礎(chǔ)上,提出了一種新的改進(jìn),以此來更方便高效的選取初始種子。在本文中,結(jié)合HITS算法定義的權(quán)威度和中心度,通過它們來描述鏈接之間的連接情況,并定義了一個能夠計(jì)算候選種子好壞的公式,從而選取更好的初始種子,提高主題爬蟲的效率。在論文最后也給出了系統(tǒng)的采集結(jié)果,證明了算法改進(jìn)的效果。(2)主題爬蟲通常采用概念背景圖來作為爬行策略,針對這種策略的缺點(diǎn),本文給出了一種改進(jìn)方法——基于綜合價值的概念背景圖的爬行策略。針對概念背景圖的構(gòu)建過程,給出了一種改進(jìn)方法。與此同時,將經(jīng)常被忽略的父網(wǎng)頁、鏈接上下文等因素納入了綜合考慮,定義了一種能夠預(yù)測待訪問鏈接價值的公式,以此來提前預(yù)測鏈接價值,剔除無關(guān)鏈接,加快爬蟲運(yùn)行速率。在最后,給出相關(guān)實(shí)驗(yàn)數(shù)據(jù),表明了采用改進(jìn)后的爬行策略的主題爬蟲,無論是速度還是精準(zhǔn)度都有很大提升。(3)結(jié)合前兩點(diǎn),設(shè)計(jì)實(shí)現(xiàn)完整的主題爬蟲系統(tǒng)。本文介紹了系統(tǒng)中關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn)方案,并設(shè)計(jì)了相應(yīng)的數(shù)據(jù)庫方案,利用Java中的爬蟲框架WebMagic實(shí)現(xiàn)了爬蟲系統(tǒng)。該爬蟲系統(tǒng)具有一定的通用性,初始種子選取策略的改進(jìn)減少了大量的人工時間,爬行策略的改進(jìn)提高了系統(tǒng)的速度和準(zhǔn)確度。在最后,給出系統(tǒng)運(yùn)行結(jié)果也表明爬行效率有顯著的提升。
【學(xué)位單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP391.3
【部分圖文】:

系統(tǒng)結(jié)構(gòu)圖,網(wǎng)絡(luò)爬蟲,系統(tǒng)結(jié)構(gòu),網(wǎng)鏈


圖 2-1 網(wǎng)絡(luò)爬蟲系統(tǒng)結(jié)構(gòu)Figure 2-1 Web crawler system structure中,不同網(wǎng)頁之間通過超鏈接聯(lián)系在一起,如果把不同的網(wǎng)鏈接就是連接它們的線,那么整個互聯(lián)網(wǎng)就可以看做一個十

系統(tǒng)結(jié)構(gòu)圖,主題,系統(tǒng)結(jié)構(gòu)


主題爬蟲系統(tǒng)結(jié)構(gòu)

相關(guān)度,計(jì)算流程,準(zhǔn)確率,廣泛應(yīng)用


圖 2-3 相關(guān)度計(jì)算流程Figure 2-3 Flow chart of correlation calculation型量化了文檔的相關(guān)度,能夠根據(jù)值的大小快速比較方便,準(zhǔn)確率高。因此得到了廣泛應(yīng)用。

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 羅杰;;優(yōu)化主題信息及材料收集與利用的探討[J];山東教育;2016年Z2期

2 祁寧;吳齊;趙青;;面向主題信息服務(wù)的垂直搜索引擎應(yīng)用研究[J];圖書館學(xué)研究;2008年09期

3 曾利沙;論旅游指南翻譯的主題信息突出策略原則[J];上海翻譯;2005年01期

4 丁國君;;小學(xué)主題信息教育的探索與實(shí)踐[J];中小學(xué)電教;2002年09期

5 唐建;洪宇;劉夢眙;姚亮;姚建民;;融合圖片主題信息的圖片描述翻譯[J];中文信息學(xué)報(bào);2019年07期

6 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

7 吳筱媛,鄧紅素,顧寧;基于主題信息和相關(guān)信息發(fā)現(xiàn)的元數(shù)據(jù)描述方法[J];計(jì)算機(jī)工程;2002年02期

8 田麗;;情報(bào)分析中提取主題信息核心要素的模型及方法[J];計(jì)算機(jī)與現(xiàn)代化;2018年10期

9 梁田;;個性化科研主題信息環(huán)境構(gòu)建技術(shù)方案實(shí)踐[J];圖書情報(bào)工作;2012年S2期

10 羅長壽;康麗;劉國靖;;基于遺傳算法的主題信息搜索系統(tǒng)研究[J];現(xiàn)代情報(bào);2009年03期

相關(guān)會議論文 前10條

1 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

2 黃俊;;公共圖書館主題圖書館建設(shè)實(shí)踐與思考——以江西省為例[A];中國圖書館學(xué)會年會論文集(2015年卷)[C];2015年

3 李燕;李勝陽;許志輝;朱子建;李長松;;基于本體語義的流域決策主題信息組織研究[A];大數(shù)據(jù)時代的信息化建設(shè)——2015(第三屆)中國水利信息化與數(shù)字水利技術(shù)論壇論文集[C];2015年

4 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2004年

5 丁曉陽;王蘭成;吳彬;;基于詞頻與改進(jìn)余弦相似算法的主題挖掘及索引應(yīng)用研究[A];2019年中國索引學(xué)會年會暨學(xué)術(shù)研討會論文集[C];2019年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 刁宇峰;林鴻飛;;基于LDA模型的博客垃圾評論發(fā)現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

8 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

9 何莉;林鴻飛;;分布式檢索中基于主題的語言模型集合選擇策略[A];2009年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(下冊)[C];2009年

10 田少娟;魏慧楠;王鐳;;基于LDA主題模型的評論熱點(diǎn)挖掘與手機(jī)產(chǎn)品性能分析[A];2017年(第五屆)全國大學(xué)生統(tǒng)計(jì)建模大賽獲獎?wù)撐倪x[C];2017年

相關(guān)博士學(xué)位論文 前3條

1 潘智勇;基于結(jié)構(gòu)化主題模型的圖像分類方法研究[D];哈爾濱工業(yè)大學(xué);2019年

2 梁曉賀;基于超網(wǎng)絡(luò)分析的微博輿情主題發(fā)現(xiàn)研究[D];中國農(nóng)業(yè)科學(xué)院;2019年

3 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D];浙江大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 王純宇;融合主題預(yù)測的多輪對話回復(fù)生成[D];哈爾濱工業(yè)大學(xué);2019年

2 楊力;基于網(wǎng)絡(luò)爬蟲的注塑信息研究與實(shí)現(xiàn)[D];廣東工業(yè)大學(xué);2019年

3 丁偉鵬;基于主題融合的情感分類算法研究[D];西安電子科技大學(xué);2019年

4 馮晉田;基于主題模型的無監(jiān)督方面級觀點(diǎn)挖掘算法研究[D];華中科技大學(xué);2019年

5 陳虹雨;融合知識的層次主題模型研究與應(yīng)用[D];華中科技大學(xué);2019年

6 韓進(jìn)賓;面向應(yīng)用商店的主題爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];東南大學(xué);2018年

7 高唱;中國安全生產(chǎn)報(bào)社主題信息服務(wù)應(yīng)用示范研究[D];北京印刷學(xué)院;2019年

8 李夢穎;基于主題模型的學(xué)習(xí)方法研究及其在用戶畫像上的應(yīng)用[D];北京交通大學(xué);2019年

9 彭葉紅;基于主題模型與變分自編碼的情感對話生成技術(shù)研究[D];華中師范大學(xué);2019年

10 蔣藝琪;基于情感分析和特征過濾的主題提取方法研究[D];華中科技大學(xué);2019年



本文編號:2819273

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2819273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶80eb3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com