天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博的數(shù)據(jù)采集和分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-11-21 18:50
  隨著社交網(wǎng)絡(luò)的興起,微博已成為了人們相互交流最重要的場(chǎng)所之一。在微博中,人人都可以發(fā)出自己的聲音,也可以聽(tīng)到別人的聲音,因此形成了巨大的信息量和信息碎片化的特點(diǎn)。本文針對(duì)微博的這些特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了面向微博的數(shù)據(jù)采集和分析系統(tǒng)。主要工作是在獲取微博數(shù)據(jù)的基礎(chǔ)上,仿真并分析微博的網(wǎng)絡(luò)結(jié)構(gòu),確定微博用戶(hù)的權(quán)威性并完成了熱門(mén)微博和熱門(mén)詞匯的挖掘。具體而言,本文主要完成了以下工作:Ⅰ.研究了目前網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)和應(yīng)用技術(shù),在此基礎(chǔ)上,設(shè)計(jì)并實(shí)現(xiàn)了一種可根據(jù)數(shù)據(jù)種類(lèi)的不同,創(chuàng)建多種爬蟲(chóng)的數(shù)據(jù)采集系統(tǒng),研究人員可使用此系統(tǒng),按需求抓取不同種類(lèi)的微博數(shù)據(jù)用于研究。此外,在爬行過(guò)程中,一方面使用多線(xiàn)程技術(shù)大幅提高爬蟲(chóng)的效率,另一方面,創(chuàng)造了多AppKey復(fù)用機(jī)制,突破了新浪對(duì)API調(diào)用頻率的限制,保證了爬蟲(chóng)可以連續(xù)不間斷的工作。實(shí)踐表明,此系統(tǒng)連續(xù)爬取3天即可抓取300萬(wàn)個(gè)微博用戶(hù)關(guān)系;Ⅱ.深入分析了微博網(wǎng)絡(luò)中的用戶(hù)關(guān)系網(wǎng)絡(luò)的特點(diǎn),并結(jié)合傳統(tǒng)的網(wǎng)絡(luò)節(jié)點(diǎn)評(píng)價(jià)算法,提出了“相對(duì)權(quán)威度”和“用戶(hù)活力”兩個(gè)新的概念,并使用這兩個(gè)概念完成了對(duì)微博用戶(hù)的重要性評(píng)價(jià)。實(shí)驗(yàn)表明,新算法的評(píng)價(jià)效果比傳統(tǒng)算法提高了20%以... 

【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:79 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景和意義
    1.2 研究?jī)?nèi)容
    1.3 系統(tǒng)總體架構(gòu)
    1.4 組織結(jié)構(gòu)
第二章 國(guó)內(nèi)外相關(guān)技術(shù)及研究現(xiàn)狀
    2.1 網(wǎng)絡(luò)信息采集技術(shù)
        2.1.1 基于整個(gè)萬(wàn)維網(wǎng)的信息抓取
        2.1.2 基于主題的信息爬取
        2.1.3 增量式信息爬取
        2.1.4 分布式網(wǎng)絡(luò)爬蟲(chóng)
    2.2 網(wǎng)頁(yè)節(jié)點(diǎn)的評(píng)價(jià)方法
        2.2.1 PageRank算法
        2.2.2 HITS算法
        2.2.3 DistanceRank算法
        2.2.4 無(wú)用鏈接的檢測(cè)技術(shù)
    2.3 針對(duì)微博的信息挖掘研究
        2.3.1 微博短文本挖掘
        2.3.2 情感傾向性分析
        2.3.3 話(huà)題趨勢(shì)檢測(cè)
    2.4 本章小結(jié)
第三章 微博數(shù)據(jù)的分類(lèi)爬取及存儲(chǔ)
    3.1 微博應(yīng)用的創(chuàng)建
    3.2 OAuth授權(quán)機(jī)制
    3.3 爬蟲(chóng)的設(shè)計(jì)和調(diào)度
    3.4 微博數(shù)據(jù)獲取
        3.4.1 用戶(hù)信息獲取
        3.4.2 用戶(hù)標(biāo)簽獲取
        3.4.3 用戶(hù)關(guān)系獲取
        3.4.4 微博內(nèi)容獲取
        3.4.5 微博評(píng)論獲取
    3.5 數(shù)據(jù)庫(kù)設(shè)計(jì)
    3.6 本章小結(jié)
第四章 基于相對(duì)權(quán)威度和用戶(hù)活力的微博用戶(hù)權(quán)威度評(píng)價(jià)算法(UAEA)
    4.1 評(píng)價(jià)算法綜述
    4.2 基于相對(duì)權(quán)威度的UA值分配
        4.2.1 算法描述
        4.2.2 算法效率
    4.3 基于用戶(hù)活力的UA值分配
        4.3.1 算法描述
        4.3.2 算法效率
    4.4 UAEA評(píng)價(jià)算法
    4.5 算法測(cè)試
        4.5.1 基于相對(duì)權(quán)威度的評(píng)價(jià)算法測(cè)試
        4.5.2 UAEA評(píng)價(jià)算法測(cè)試
    4.6 UAEA算法的不足
    4.7 本章小結(jié)
第五章 微博熱點(diǎn)內(nèi)容發(fā)現(xiàn)
    5.1 引言
    5.2 熱門(mén)微博的發(fā)現(xiàn)
        5.2.1 單條評(píng)論的熱度評(píng)價(jià)
        5.2.2 單條微博的熱度評(píng)價(jià)
    5.3 熱門(mén)詞匯的提取
        5.3.1 去停用詞
        5.3.2 分詞
        5.3.3 熱門(mén)詞匯的提取
    5.4 本章小結(jié)
第六章 總結(jié)與展望
    6.1 主要工作及創(chuàng)新點(diǎn)
    6.2 未來(lái)研究方向
參考文獻(xiàn)
致謝
作者攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄


【參考文獻(xiàn)】:
期刊論文
[1]國(guó)內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 奉國(guó)和,鄭偉.  圖書(shū)情報(bào)工作. 2011(02)
[2]Twitter中近似重復(fù)消息的判定方法研究[J]. 曹鵬,李靜遠(yuǎn),滿(mǎn)彤,劉悅,程學(xué)旗.  中文信息學(xué)報(bào). 2011(01)
[3]話(huà)題發(fā)現(xiàn)與追蹤技術(shù)研究[J]. 張曉艷,王挺.  計(jì)算機(jī)科學(xué)與探索. 2009(04)
[4]一種基于本體的PageRank算法的改進(jìn)策略[J]. 姚文琳,劉文.  計(jì)算機(jī)工程. 2009(06)
[5]對(duì)線(xiàn)程池模式的分析及其實(shí)現(xiàn)[J]. 陳勇,申海燕,宋之毅.  現(xiàn)代電子技術(shù). 2005(16)
[6]專(zhuān)業(yè)搜索引擎的實(shí)現(xiàn)與研究——中文分詞算法[J]. 王堅(jiān),趙恒永.  電子科學(xué)技術(shù)評(píng)論. 2005(03)
[7]中文文本挖掘中最長(zhǎng)頻繁序列的發(fā)現(xiàn)算法[J]. 胥桂仙,樸泰雄,楊丹丹,徐小博,高旭.  中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2004(01)
[8]話(huà)題識(shí)別與跟蹤研究[J]. 李保利,俞士汶.  計(jì)算機(jī)工程與應(yīng)用. 2003(17)

博士論文
[1]短文本語(yǔ)言計(jì)算的關(guān)鍵技術(shù)研究[D]. 龔才春.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2008



本文編號(hào):3510046

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3510046.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)99dcd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com