面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì)
本文關(guān)鍵詞:面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
【摘要】:在搜索引擎快速發(fā)展的今天,作為搜索引擎關(guān)鍵組成部分的網(wǎng)絡(luò)爬行器也得到了極大的發(fā)展,其中針對特定主題(如機(jī)票搜索、旅行搜索和視頻搜索等)的網(wǎng)絡(luò)爬行器也越來越受到人們的關(guān)注。另一方面,伴隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,越來越多的社交應(yīng)用在發(fā)展壯大。例如:微博和微信等以幾何倍數(shù)增長,同時(shí)新聞媒體以及政府公告,也逐步以短消息形式出現(xiàn)。針對論壇、微博和微信等短文本數(shù)據(jù),傳統(tǒng)方法基本依靠各公司內(nèi)部提供的關(guān)鍵詞搜索。然而,當(dāng)用戶面對大量的文本信息時(shí),為解決信息淹沒問題就需要以特定主題為目標(biāo)提取有用的信息。本文就是在根據(jù)工作需求的情況下,設(shè)計(jì)與實(shí)現(xiàn)了面向特定主題的網(wǎng)絡(luò)爬行器。 本文首先介紹了搜索引擎和通用網(wǎng)絡(luò)爬行器的相關(guān)知識。然后對比分析了幾種常見搜索策略及相關(guān)算法。同時(shí),對主題網(wǎng)絡(luò)爬行器的技術(shù)特點(diǎn)進(jìn)行了分析。針對特定Web頁面的數(shù)據(jù)獲取,本文通過元搜索相關(guān)技術(shù)來實(shí)現(xiàn)。為分析特定主題的傳播人群范圍,引入微博數(shù)據(jù)進(jìn)行分析。充分利用社交媒體中以人為節(jié)點(diǎn)的社交網(wǎng)絡(luò),在爬取人物節(jié)點(diǎn)之后,就可以大致了解對某一重大事件或熱點(diǎn)的傳播人群并研究社交網(wǎng)絡(luò)中的人群分布特點(diǎn)。
【關(guān)鍵詞】:搜索引擎 社交媒體 微博 主題網(wǎng)絡(luò)爬行器 元搜索
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-13
- 1.1 研究背景8-9
- 1.2 研究現(xiàn)狀9-11
- 1.3 本文的研究內(nèi)容與組織結(jié)構(gòu)11-13
- 1.3.1 本文的研究內(nèi)容11-12
- 1.3.2 本文的組織結(jié)構(gòu)12-13
- 第2章 網(wǎng)絡(luò)爬行器概述13-34
- 2.1 搜索引擎相關(guān)技術(shù)概述13-15
- 2.1.1 搜索引擎歷史13-14
- 2.1.2 搜索引擎組成及分類14
- 2.1.3 搜索引擎的工作原理14-15
- 2.2 通用網(wǎng)絡(luò)爬行器概述15-20
- 2.2.1 網(wǎng)絡(luò)爬行器體系結(jié)構(gòu)16-19
- 2.2.2 通用網(wǎng)絡(luò)爬行器的爬行策略19-20
- 2.3 特定主題網(wǎng)絡(luò)爬行器關(guān)鍵技術(shù)20-28
- 2.3.1 基于 Web 的特定主題網(wǎng)絡(luò)爬行器技術(shù)及分析22-27
- 2.3.2 特定主題的描述與分詞的定義27-28
- 2.4 HTML 文檔結(jié)構(gòu)分析28-31
- 2.4.1 HTML 文檔格式及特點(diǎn)28-29
- 2.4.2 HTML 文檔的 Tag 樹29-30
- 2.4.3 HTML 文檔結(jié)構(gòu)分析30-31
- 2.5 微博數(shù)據(jù)獲取相關(guān)技術(shù)分析及研究31-34
- 2.5.1 微博數(shù)據(jù)獲取方式31-32
- 2.5.2 微博數(shù)據(jù)慮重方法32-33
- 2.5.3 微博數(shù)據(jù)分析33-34
- 第3章 特定主題網(wǎng)絡(luò)爬行器的設(shè)計(jì)34-48
- 3.1 系統(tǒng)平臺(tái)和系統(tǒng)運(yùn)行環(huán)境34
- 3.2 網(wǎng)絡(luò)信息挖掘系統(tǒng)介紹34-38
- 3.2.1 系統(tǒng)設(shè)計(jì)原則36-37
- 3.2.2 系統(tǒng)架構(gòu)介紹37-38
- 3.3 系統(tǒng)主要模塊介紹38-45
- 3.3.1 確立主題和主題站點(diǎn)管理模塊38-42
- 3.3.2 數(shù)據(jù)采集模塊42-43
- 3.3.3 URL 管理模塊43-45
- 3.4 數(shù)據(jù)處理模塊45-46
- 3.5 數(shù)據(jù)庫與基礎(chǔ)運(yùn)行庫46
- 3.6 本章小結(jié)46-48
- 第4章 微博主題人物節(jié)點(diǎn)爬行器的設(shè)計(jì)48-52
- 4.1 微博爬行器關(guān)鍵技術(shù)48-49
- 4.2 微博主題人物節(jié)點(diǎn)爬行器設(shè)計(jì)49-50
- 4.3 微博主題人物爬行器模塊框架50-51
- 4.4 微博數(shù)據(jù)分析51-52
- 第5章 結(jié)論與展望52-53
- 參考文獻(xiàn)53-56
- 作者簡介及在學(xué)期間所取得的科研成果56-57
- 致謝57
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬費(fèi)成;望俊成;吳克文;邱璇;;國外搜索引擎檢索效能研究述評[J];中國圖書館學(xué)報(bào);2009年04期
2 袁浩;黃煙波;;網(wǎng)頁標(biāo)題分析對主題爬蟲的改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年06期
3 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
4 黃旭;朱艷琴;羅喜召;;基于內(nèi)容評價(jià)的爬蟲搜索策略研究[J];微電子學(xué)與計(jì)算機(jī);2008年11期
5 李麗;朱國同;陳秀娟;井西利;;模擬退火算法的改進(jìn)及在靜校正中的應(yīng)用[J];大慶石油地質(zhì)與開發(fā);2008年05期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
7 費(fèi)洪曉;胡海苗;鞏燕玲;;基于Hash結(jié)構(gòu)的機(jī)械統(tǒng)計(jì)分詞系統(tǒng)研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年05期
8 赫楓齡,左萬利;利用超鏈接信息改進(jìn)網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
9 宋暉,鄭子穎,張嶺,馬范援;分布式信息搜集系統(tǒng)中URL存儲(chǔ)檢索的設(shè)計(jì)與分析[J];上海交通大學(xué)學(xué)報(bào);2003年03期
10 潘春華 ,常敏 ,武港山;面向Web的信息收集工具的設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)應(yīng)用研究;2002年06期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 何慧;WEB文本挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2009年
本文關(guān)鍵詞:面向特定主題及其傳播人群的網(wǎng)絡(luò)爬行器設(shè)計(jì),由筆耕文化傳播整理發(fā)布。
,本文編號:300337
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/300337.html