基于社交網(wǎng)絡信息爬蟲的設計與實現(xiàn)
本文選題:社交網(wǎng)絡 + 網(wǎng)絡爬蟲 ; 參考:《復旦大學》2014年碩士論文
【摘要】:社交網(wǎng)絡作為Web2.0時代的標志,提供了以互聯(lián)網(wǎng)用戶為中心的交流模式和平臺。通過社交網(wǎng)絡平臺,用戶可以進行發(fā)表消息,分享內容,添加好友以及關注自己感興趣的人物等操作。社交網(wǎng)絡平臺中的用戶一般是以億為單位,用戶與用戶之間通過相互關注和好友關系連成了一張巨大的社會網(wǎng)絡,消息能夠迅速的在這種網(wǎng)絡上進行傳播。大多數(shù)的社交網(wǎng)絡平臺都提供開放的API供用戶和開發(fā)者獲取平臺相關的數(shù)據(jù),但是對AP1的調用次數(shù)通常有限制,這使得需要獲取大量數(shù)據(jù)的需求顯得極為不方便。因此,對社交網(wǎng)絡信息爬蟲的相關研究有非常重要的意義。本文以社交網(wǎng)絡平臺為研究對象,研究了網(wǎng)絡爬蟲的相關技術。目前社交網(wǎng)絡平臺大多采用AJAX技術,以便提供豐富的功能以及良好的用戶體驗,對社交網(wǎng)絡平臺進行爬取的過程也是AJAX頁面解析的一個過程。社交網(wǎng)絡平臺產(chǎn)生的數(shù)據(jù)量巨大,數(shù)據(jù)通常是一些稀疏的非結構化的格式,因此使用傳統(tǒng)的關系型數(shù)據(jù)庫進行存儲顯得不方便。本文使用非關系型數(shù)據(jù)庫MongoDB進行數(shù)據(jù)的存儲;之后在MongoDB存儲的基礎上進行信息的檢索,以便獲取用戶感興趣的信息。本文所作的主要工作如下:1、分析了當前社交網(wǎng)絡信息在進行爬取時存在的問題,從而引出爬蟲設計需要實現(xiàn)的目標;2、構造了一個適合爬取社交網(wǎng)絡信息的網(wǎng)絡爬蟲,使用廣度優(yōu)先的策略對社交網(wǎng)絡數(shù)據(jù)進行爬;3、使用BeautifulSoup作為做AJAX的解析器,進行網(wǎng)頁數(shù)據(jù)的爬取,從而解決社交網(wǎng)絡平臺自身提供的開放API對數(shù)據(jù)的獲取有次數(shù)限制的缺陷;4、爬取的信息包括用戶信息、用戶關系信息、網(wǎng)絡內容信息以及內容評論信息;5、使用非關系型數(shù)據(jù)庫MongoDB進行數(shù)據(jù)存儲,從而解決社交網(wǎng)絡數(shù)據(jù)不斷膨脹的問題。
[Abstract]:As a symbol of Web2.0 era, social network provides a communication mode and platform centered on Internet users. Social networking platforms allow users to post messages, share content, add friends and focus on people they are interested in. The users in the social network platform are usually in billions of units. The users and users through mutual concern and friends into a huge social network, information can be quickly spread on this network. Most social network platforms provide open API for users and developers to access platform-related data, but the number of calls to AP1 is usually limited, which makes the need to obtain a large amount of data extremely inconvenient. Therefore, the research on social network information crawler is of great significance. In this paper, we take the social network platform as the research object, and study the related technology of the web crawler. At present, most of the social network platforms use AJAX technology to provide rich functions and good user experience. The process of crawling the social network platform is also a process of AJAX page parsing. Because of the huge amount of data generated by the social network platform, the data is usually in some sparse unstructured format, so it is not convenient to use the traditional relational database to store the data. In this paper, the non-relational database MongoDB is used to store the data, and then the information is retrieved on the basis of the MongoDB storage in order to obtain the information of interest to the user. The main work of this paper is as follows: 1. This paper analyzes the problems existing in the crawling of the current social network information, which leads to the goal of crawler design and constructs a web crawler suitable for crawling social network information. Using the strategy of breadth first to crawl the social network data, using BeautifulSoup as the parser of the AJAX, crawling the web page data, In order to solve the social network platform provided by the open API has limited access to the number of data defects, crawling information including user information, user relationship information, Web content information and content review information 5, using non-relational database MongoDB for data storage, so as to solve the social network data expansion problem.
【學位授予單位】:復旦大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.09
【相似文獻】
相關期刊論文 前10條
1 李林容;;社交網(wǎng)絡的特性及其發(fā)展趨勢[J];新聞界;2010年05期
2 陳琛;沙昊;;社交網(wǎng)絡的開放融合圖譜[J];通信世界;2010年48期
3 楊宇良;;網(wǎng)絡讓我們更遠還是更近[J];互聯(lián)網(wǎng)天地;2011年01期
4 陳昱;;社交網(wǎng)絡革命與國家安全關系[J];情報雜志;2011年S2期
5 勞倫·考克斯;;請在工作時更新你的狀態(tài)[J];科技創(chuàng)業(yè);2011年05期
6 斯蒂芬·卡斯;;在線社區(qū)能否解決隱私問題[J];科技創(chuàng)業(yè);2011年08期
7 陳云鵬;;電子商務引領社交網(wǎng)絡走進2.0時代[J];上海信息化;2012年01期
8 馬文剛;;智慧的物聯(lián)社交網(wǎng)絡[J];上海信息化;2012年03期
9 朱乾龍;張倩;杜娟;;我國社交網(wǎng)絡繁榮背后面臨深層次問題困擾[J];世界電信;2012年06期
10 劉華;;社交網(wǎng)絡的融合之路[J];軟件工程師;2012年07期
相關會議論文 前10條
1 趙云龍;李艷兵;;社交網(wǎng)絡用戶的人格預測與關系強度研究[A];第七屆(2012)中國管理學年會商務智能分會場論文集(選編)[C];2012年
2 宮廣宇;李開軍;;對社交網(wǎng)絡中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學科研究生學術論壇獲獎論文[C];2010年
3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡與大學生焦慮緩解[A];心理學與創(chuàng)新能力提升——第十六屆全國心理學學術會議論文集[C];2013年
4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡解析[A];第九屆全國體育科學大會論文摘要匯編(4)[C];2011年
5 杜p,
本文編號:1953977
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1953977.html