【摘要】:微博已經(jīng)成為表達(dá)用戶(hù)觀點(diǎn)的主要陣地之一,同時(shí)也是新聞消息的主要產(chǎn)生和傳播途徑之一。用戶(hù)在微博平臺(tái)發(fā)布和傳播的內(nèi)容即可以及時(shí)掌握用戶(hù)的關(guān)注點(diǎn),提高用戶(hù)滿(mǎn)意度,也可以幫助有關(guān)信息監(jiān)督部門(mén)及時(shí)掌握突發(fā)事件。因此對(duì)微博熱點(diǎn)發(fā)現(xiàn)的研究具有較高的社會(huì)意義和學(xué)術(shù)價(jià)值。針對(duì)傳統(tǒng)的微博熱點(diǎn)發(fā)現(xiàn)方法中存在的語(yǔ)義理解不足和聚類(lèi)算法局限性的問(wèn)題,本文從語(yǔ)義分析角度表示文本,使用信息增益和潛在語(yǔ)義分析方法構(gòu)建詞-文檔矩陣;提出了二次聚類(lèi)算法,改進(jìn)的K-means算法及其增量聚類(lèi)算法實(shí)現(xiàn)話題發(fā)現(xiàn)與更新,相似強(qiáng)度來(lái)選取最優(yōu)話題,以解決傳統(tǒng)的先確定聚類(lèi)個(gè)數(shù)再發(fā)現(xiàn)話題的不準(zhǔn)確性問(wèn)題;最后構(gòu)建微博話題熱度評(píng)估計(jì)算模型。本文主要研究的微博熱點(diǎn)發(fā)現(xiàn),其過(guò)程劃分為三方面:(1)數(shù)據(jù)采集與清洗。經(jīng)研究分析發(fā)現(xiàn)反映微博主題的因素主要有:標(biāo)題、內(nèi)容、轉(zhuǎn)發(fā)次數(shù)、評(píng)論內(nèi)容、作者和發(fā)表時(shí)間,采集結(jié)果中相同微博內(nèi)容僅保留一個(gè),清除內(nèi)容中未處理的HTML標(biāo)簽,去除空值、廣告等噪聲,去停用詞。(2)數(shù)據(jù)處理與文檔表示。從語(yǔ)義分析角度表示文本。本文使用信息增益選取特征詞,可以較多的保留低頻詞匯的隱含信息。通過(guò)向量空間模型構(gòu)建的詞-文檔,該矩陣維度高且存在噪聲,使用潛在語(yǔ)義分析可有效解決這些問(wèn)題。(3)熱點(diǎn)發(fā)現(xiàn)。本文使用二次聚類(lèi)算法發(fā)現(xiàn)微博話題。通過(guò)相關(guān)門(mén)戶(hù)網(wǎng)站分析和人工分類(lèi)微博,確定了微博熱點(diǎn)話題的數(shù)量區(qū)間作為K-means聚類(lèi)算法的聚類(lèi)個(gè)數(shù)區(qū)間。對(duì)于新加入的數(shù)據(jù)使用增量聚類(lèi)算法,快速更新話題。聚類(lèi)結(jié)果不唯一通過(guò)相似強(qiáng)度選取最優(yōu)值,解決了傳統(tǒng)的先確定話題個(gè)數(shù)再發(fā)現(xiàn)話題內(nèi)容的不準(zhǔn)確性問(wèn)題。從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的話題發(fā)現(xiàn)方法具有較高的精確度。提出了微博話題熱度評(píng)估模型和計(jì)算公式。根據(jù)以上研究,本文還設(shè)計(jì)了博熱點(diǎn)發(fā)現(xiàn)流程,使用JAVA實(shí)現(xiàn)了流程中的關(guān)鍵步驟。通過(guò)抓取新浪微博中的相關(guān)數(shù)據(jù)及實(shí)驗(yàn),驗(yàn)證了本文提出的方法具有較好的效果。
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 錢(qián)鵬;隱喻與語(yǔ)義分析[J];情報(bào)雜志;2004年11期
2 張文秀;陳偉;朱慶華;;基于本體的語(yǔ)義分析過(guò)程與方法的研究應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2011年03期
3 戚世遠(yuǎn);英漢機(jī)器翻譯中的語(yǔ)義分析[J];計(jì)算機(jī)應(yīng)用;1991年05期
4 梁堯,楊家沅;語(yǔ)音理解中語(yǔ)法與語(yǔ)義分析的方法與實(shí)現(xiàn)[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);1992年02期
5 戚世遠(yuǎn);;英漢機(jī)器翻譯中的語(yǔ)義分析[J];計(jì)算機(jī)應(yīng)用與軟件;1993年04期
6 周皓東;劉煒;;基于隱含語(yǔ)義分析的音樂(lè)檢索[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年06期
7 王建波 ,曹福民 ,宋清秀;VAX/VMS Ada編譯語(yǔ)義剖析[J];計(jì)算機(jī)工程與設(shè)計(jì);1989年06期
8 柏建普;田芳;;基于語(yǔ)義分析的微博熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[J];內(nèi)蒙古科技大學(xué)學(xué)報(bào);2013年03期
9 李良炎,何中市,易勇;基于詞聯(lián)接的語(yǔ)義分析原理及其算法[J];重慶大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年08期
10 魏維;鄒書(shū)蓉;劉鳳玉;;基本聲音語(yǔ)義分析與提取技術(shù)研究[J];小型微型計(jì)算機(jī)系統(tǒng);2007年09期
相關(guān)會(huì)議論文 前10條
1 陳小芳;張桂平;蔡?hào)|風(fēng);葉娜;;基于統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)術(shù)語(yǔ)語(yǔ)義分析方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
2 王金龍;;文藝學(xué)中形式范疇的語(yǔ)義分析[A];中國(guó)中外文藝?yán)碚搶W(xué)會(huì)年刊(2008年卷)——理論創(chuàng)新時(shí)代:中國(guó)當(dāng)代文論與審美文化的轉(zhuǎn)型[C];2008年
3 潘新玲;;我的地盤(pán)——表總括的“都”的語(yǔ)義分析及其左鄰右舍的限制[A];2007年福建省辭書(shū)學(xué)會(huì)第18屆年會(huì)論文提要集[C];2007年
4 梁W,
本文編號(hào):2555179
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/2555179.html