基于復(fù)合詞生成的網(wǎng)絡(luò)熱點(diǎn)話題識(shí)別及描述算法
本文關(guān)鍵詞: 網(wǎng)絡(luò)熱點(diǎn)話題識(shí)別 熱詞抽取 復(fù)合詞聚類 出處:《圖書情報(bào)工作》2016年23期 論文類型:期刊論文
【摘要】:[目的/意義]在海量網(wǎng)絡(luò)新聞和微博等新媒體文本中自動(dòng)識(shí)別網(wǎng)絡(luò)熱點(diǎn)話題并抽取有意義詞串來描述熱點(diǎn)事件,對(duì)自動(dòng)識(shí)別和描述網(wǎng)絡(luò)輿情具有重要的研究意義。[方法/過程]在現(xiàn)有熱點(diǎn)描述詞抽取方法中,利用關(guān)聯(lián)規(guī)則或多元詞組合方法在抽取過程中存在噪音詞較多和特征詞語義被放大或轉(zhuǎn)移等問題。本文提出一種基于復(fù)合詞生成的描述詞抽取方法,在所提取的語義更為精確的描述詞集合上使用一趟聚類算法對(duì)新聞文本進(jìn)行聚類,自動(dòng)識(shí)別網(wǎng)絡(luò)熱點(diǎn)話題并對(duì)熱點(diǎn)話題進(jìn)行排名。[結(jié)果/結(jié)論]對(duì)騰訊新聞事件文本數(shù)據(jù)集所做的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法較傳統(tǒng)的詞特征抽取方法在聚類結(jié)果上具有更好的話題簇識(shí)別能力和簇描述能力。
[Abstract]:[Objective / meaning: to automatically identify hot topics and extract meaningful strings of words to describe hot events in new media texts such as massive online news and Weibo. It is of great significance to identify and describe the network public opinion automatically. [Methods / procedures] in the existing hot spot description word extraction methods. Using association rules or multivariate word combination method, there are many problems in the process of extraction, such as noise words are more and the meaning of feature words is enlarged or transferred. In this paper, a description word extraction method based on compound word generation is proposed. A one-trip clustering algorithm is used to cluster the news text on the extracted semantic more accurate description word set to automatically identify the hot topics on the network and rank the hot topics. [Results / conclusion] the experimental results on the text dataset of Tencent News event show that. Compared with the traditional word feature extraction method, the method proposed in this paper has better clustering ability and cluster description ability.
【作者單位】: 廣東外語外貿(mào)大學(xué)語言工程與計(jì)算重點(diǎn)實(shí)驗(yàn)室;廣東外語外貿(mào)大學(xué)信息學(xué)院;廣東外語外貿(mào)大學(xué)圖書館;
【基金】:國家自然科學(xué)基金項(xiàng)目“面向中國英語學(xué)習(xí)者的英文作文全自動(dòng)評(píng)分算法及診斷反饋技術(shù)研究”(項(xiàng)目編號(hào):61402119) 廣東省普通高?萍紕(chuàng)新項(xiàng)目“面向網(wǎng)絡(luò)英文文本的涉華輿情分析關(guān)鍵技術(shù)研究”(項(xiàng)目編號(hào):2013KJCX0071)研究成果之一
【分類號(hào)】:TP391.1
【正文快照】: 隨著微博和網(wǎng)絡(luò)新聞等新媒體的出現(xiàn),實(shí)體社會(huì)中的各種突發(fā)事件會(huì)第一時(shí)間在網(wǎng)絡(luò)媒體中呈現(xiàn),面對(duì)海量網(wǎng)絡(luò)新媒體數(shù)據(jù),如何自動(dòng)識(shí)別和挖掘網(wǎng)絡(luò)熱點(diǎn)話題和熱點(diǎn)事件是當(dāng)前的研究熱點(diǎn)[1-4]。針對(duì)熱點(diǎn)話題的自動(dòng)識(shí)別,聚類方法被廣泛使用,如于滿泉等[5]針對(duì)事件特點(diǎn)使用多層聚類對(duì)話
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;網(wǎng)絡(luò)熱點(diǎn)[J];西部廣播電視;2009年02期
2 張亮;;“圍觀”究竟能否改進(jìn)中國——主流媒體引導(dǎo)網(wǎng)絡(luò)熱點(diǎn)的思考[J];新聞實(shí)踐;2011年02期
3 曹健;;網(wǎng)絡(luò)輿論為何乏力[J];IT時(shí)代周刊;2011年18期
4 商亞美;周夏宇;;大學(xué)生網(wǎng)絡(luò)熱點(diǎn)話題參與傾向調(diào)查及分析[J];新聞世界;2013年05期
5 曾莉;王成龍;姜平;;黨報(bào)如何釋疑網(wǎng)絡(luò)熱點(diǎn)——《網(wǎng)事回應(yīng)》功能探析[J];新聞前哨;2013年06期
6 孫立軍;;介入網(wǎng)絡(luò)熱點(diǎn):不妄言,不失語[J];新聞戰(zhàn)線;2013年10期
7 雷鐘哲;;“調(diào)侃”,還是“造假”?[J];新聞戰(zhàn)線;2013年09期
8 ;不同往昔'97網(wǎng)絡(luò)熱點(diǎn)新聞在線選出[J];信息經(jīng)濟(jì)與技術(shù);1998年02期
9 ;網(wǎng)絡(luò)熱點(diǎn)[J];西部廣播電視;2009年03期
10 ;網(wǎng)絡(luò)熱點(diǎn)[J];西部廣播電視;2009年04期
相關(guān)會(huì)議論文 前1條
1 李恒訓(xùn);張華平;秦鵬;于滿泉;劉金剛;;基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 ;挖掘網(wǎng)絡(luò)熱點(diǎn)的正效應(yīng)[N];人民武警報(bào);2014年
2 特約撰稿 小童;網(wǎng)上購物面臨“成長的煩惱”[N];通信信息報(bào);2004年
3 孫國徽 中國海洋石油總公司新聞中心;理性分析網(wǎng)絡(luò)熱點(diǎn)[N];中國社會(huì)科學(xué)報(bào);2011年
4 記者 劉永新;市民政局回應(yīng)網(wǎng)絡(luò)熱點(diǎn)問題[N];深圳特區(qū)報(bào);2011年
5 戴曉蓉;網(wǎng)絡(luò)熱點(diǎn)成為政協(xié)委員提案[N];深圳特區(qū)報(bào);2007年
6 記者 韋忠南 張磊 通訊員 鄭法軒;天門架起一座網(wǎng)絡(luò)“連心橋”[N];湖北日?qǐng)?bào);2011年
7 本報(bào)記者 余飛;網(wǎng)絡(luò)與傳統(tǒng)媒體應(yīng)攜手辟謠[N];法制日?qǐng)?bào);2013年
8 慎海雄;及時(shí)坦誠回應(yīng)人民群眾的關(guān)切[N];新華每日電訊;2012年
9 田寶鋒 國家廣電總局;從網(wǎng)絡(luò)熱點(diǎn)透視網(wǎng)絡(luò)暴力[N];中國社會(huì)科學(xué)報(bào);2009年
10 嚴(yán)實(shí);網(wǎng)絡(luò)不是化外之地[N];中國社會(huì)科學(xué)報(bào);2013年
相關(guān)博士學(xué)位論文 前1條
1 彭菲菲;網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)的關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(xué)(北京);2012年
相關(guān)碩士學(xué)位論文 前9條
1 張靜;基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)模型及平臺(tái)研究[D];華中科技大學(xué);2010年
2 張帆;網(wǎng)絡(luò)熱點(diǎn)事件背景下的我國政府回應(yīng)研究[D];聊城大學(xué);2015年
3 汪s,
本文編號(hào):1459553
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1459553.html