近幾年,隨著微博問政的興起,越來越多的政府部門開設(shè)官方微博與百姓互動。例如,“北京12345”作為政務(wù)微博的正式開通,極大方便了群眾反映非緊急救助服務(wù)類訴求。由于微博平臺的大眾化、平民化,且用戶操作便捷,使得每天收到的投訴微博數(shù)量巨大。如何采用計算機技術(shù),及時抽取主要的投訴事件,改變現(xiàn)有的人工校對過程,讓事件的提取自動化,從而在最短時間內(nèi)發(fā)現(xiàn)熱點問題、熱點地區(qū),上報有關(guān)部門及時處理,對百姓民生、城市發(fā)展有著重要的推進作用。因此,基于微博的城市投訴文本的挖掘與分析研究有著重要的研究價值和現(xiàn)實意義。城市投訴信息中地理位置對于投訴事件有著重要的意義,沒有具體位置的投訴信息是無效的。然而目前網(wǎng)絡(luò)上的投訴信息,由于投訴者在表達上存在差異,導(dǎo)致投訴信息無法形成統(tǒng)一的書寫規(guī)范,尤其是微博上的投訴信息,具有表達方式口語化、新詞匯多、錯別字多等特點,投訴信息中涉及的地理位置一般比較具體,并與投訴內(nèi)容混雜在一起,使得地理位置的提取、區(qū)域的自動劃歸存在較大的難度。本課題主要針對微博城市投訴信息領(lǐng)域進行文本挖掘與分析,以北京12345政務(wù)微博投訴數(shù)據(jù)為基礎(chǔ),利用信息抽取技術(shù),自動抽取投訴事件,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),著重研究該領(lǐng)域的地理位置實體識別、地理位置實體完整性表示以及投訴分析平臺中的應(yīng)用。目的幫助城市管理部門相關(guān)工作人員更有效、更便捷的分析城市投訴微博。本文的主要研究內(nèi)容包括:(1)設(shè)計并實現(xiàn)了一種自動采集城市投訴微博的網(wǎng)絡(luò)爬蟲。通過分析已有的新浪微博爬蟲的現(xiàn)狀,從性能、可操作性兩個角度考慮,設(shè)計了基于新浪微博頁面解析的微博網(wǎng)絡(luò)爬蟲,該爬蟲能夠通過主題詞對城市投訴微博進行采集,并且不受使用新浪微博API的限制,從而實現(xiàn)頁面的自動爬取。(2)提出微博城市投訴文本中的地理位置實體識別方法。首先,引用搜狗詞庫中與北京地理位置相關(guān)的詞庫,以及詞性、尾詞、尾字進行特征標(biāo)注,利用CRF識別出地理位置實體;接下來,根據(jù)微博和地理位置實體的特點,對CRF識別后的數(shù)據(jù)進行二次標(biāo)注;最后,利用微博規(guī)則庫對識別結(jié)果進行補召修正地理位置實體,最終實現(xiàn)地理位置實體的識別。(3)提出基于互動問答社區(qū)——百度知道的地理位置實體完整性表示方法。首先,對缺陷地理位置實體轉(zhuǎn)化為所屬區(qū)域問題,并通過百度知道進行檢索;其次,根據(jù)檢索的結(jié)果提取特征,計算該地理位置實體屬于各個區(qū)域的得分,并構(gòu)建出缺陷地理位置實體的所屬區(qū)域特征向量;最后,利用規(guī)則對缺陷地理位置實體進行完整化處理,實現(xiàn)地理位置實體完整性表示。(4)設(shè)計并實現(xiàn)了一個微博城市投訴分析平臺。平臺主要將基于主題詞的微博獲取、地理位置實體識別以及缺陷地理位置實體完整性表示三大功能模塊進行整合。通過JAVA設(shè)計的客戶端程序為用戶提供數(shù)據(jù)配置及數(shù)據(jù)處理展示的界面,使平臺能夠完成自動采集城市投訴微博,并對微博進行過濾,識別出地理位置實體,通過互動問答社區(qū)——百度知道對缺陷地理位置實體進行完整化等一系列操作。
【學(xué)位單位】:北京信息科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2015
【中圖分類】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 李雪偉;呂學(xué)強;董志安;劉克會;;利用URL-Key進行查詢分類[J];北京大學(xué)學(xué)報(自然科學(xué)版);2015年02期
2 梁士金;;基于聚焦爬蟲的編目數(shù)據(jù)搜集模型構(gòu)建[J];圖書館學(xué)研究;2013年13期
3 邱泉清;苗奪謙;張志飛;;中文微博命名實體識別[J];計算機科學(xué);2013年06期
4 高燕;張維維;張艷紅;謝燕萍;蘇凝;;最大熵模型在最長地點實體識別中的應(yīng)用[J];廣東石油化工學(xué)院學(xué)報;2012年04期
5 劉寧雯;;中國政務(wù)微博研究文獻綜述[J];電子政務(wù);2012年06期
6 潘正高;;基于規(guī)則和統(tǒng)計相結(jié)合的中文命名實體識別研究[J];情報科學(xué);2012年05期
7 黃河;劉琳琳;;試析政府微博的內(nèi)容主題與發(fā)布方式——基于“廣東省公安廳”與“平安北京”微博的內(nèi)容分析[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報);2012年03期
8 李麗雙;黨延忠;廖文平;黃德根;張穎;;CRF與規(guī)則相結(jié)合的中文地名識別[J];大連理工大學(xué)學(xué)報;2012年02期
9 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期
10 鄧凱元;姜磊;;正則表達式匹配引擎性能分析[J];計算機與現(xiàn)代化;2011年07期
本文編號:
2818046
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2818046.html