面向社交網(wǎng)絡的文本可視化技術研究與實現(xiàn)
發(fā)布時間:2019-11-09 09:27
【摘要】:隨著互聯(lián)網(wǎng)技術的發(fā)展,社交網(wǎng)絡在人們的日常生活中扮演著越來越重要的角色。與傳統(tǒng)網(wǎng)絡應用如論壇、貼吧、博客等相比,社交網(wǎng)絡中的用戶數(shù)量更多,用戶間交流更頻繁,信息傳播速度更快。社交網(wǎng)絡數(shù)據(jù)具有用戶數(shù)量龐大,信息類型豐富多樣且冗雜的特點,使得人們很難直接從海量的數(shù)據(jù)中得到有價值的信息。而可視化技術能夠生動直觀地向用戶展示信息,且其可交互的特點使得用戶能夠在觀察可視化展示后根據(jù)自己的理解進一步地獲取信息。然而目前基于社交網(wǎng)絡數(shù)據(jù)的可視化分析工具多是面向情感分析、水軍識別、傳播分析、文本分類為主,缺乏為用戶提供以主題為主線的社交網(wǎng)絡數(shù)據(jù)的可視化工具,用戶難以根據(jù)感興趣的領域獲得社交網(wǎng)絡中的相關信息,以主題為線索的社交網(wǎng)絡數(shù)據(jù)可視化成為當前研究熱點之一;谝陨媳尘,本文對社交網(wǎng)絡數(shù)據(jù)的文本可視化技術進行研究,并在以下幾個方面展開了工作:1.深入研究了網(wǎng)絡數(shù)據(jù)爬取技術,分析了目標社交網(wǎng)站的網(wǎng)頁元素,針對數(shù)據(jù)采集過程中遇到的問題,設計網(wǎng)絡爬取方案,采用Requests技術、Selenium-Driver技術與Python多線程技術threading相結合的方式,實現(xiàn)對動態(tài)網(wǎng)頁與靜態(tài)網(wǎng)頁的高效爬取。根據(jù)數(shù)據(jù)特征設計表結構,將爬蟲得到的數(shù)據(jù)實時存入MySQL數(shù)據(jù)庫。2.提出了一種交互式的主題河流可視化方法。首先對主題河流進行基于離散系數(shù)的初始排序優(yōu)化,提出了歧義點的概念,對容易產(chǎn)生歧義的點進行計算與可視化設計,并提供了交互功能,使用戶能夠在局部根據(jù)歧義點標識對主題河流進行重排序,達到消除歧義的效果。實驗結果表明交互式的主題河流能有效展現(xiàn)時序文本數(shù)據(jù),并能有效解決傳統(tǒng)主題河流的局部展現(xiàn)歧義問題。3.提出了一種分組排序數(shù)據(jù)的可視化方法,實現(xiàn)了具有分組與組內(nèi)排序特征的數(shù)據(jù)的可視化設計。其思路是采用基于扇形圖的分區(qū)方法對實體的分組信息進行展示,采用分層的布局方法對實體組內(nèi)信息進行展示,同時結合實體的顏色、大小、形狀等設計。實驗驗證了該可視化方法能有效地對分組排序數(shù)據(jù)進行直觀展示,而且能夠?qū)崿F(xiàn)對空間的充分利用。4.針對取得的社交網(wǎng)絡文本數(shù)據(jù)進行分析與預處理,設計并實現(xiàn)了社交網(wǎng)絡文本數(shù)據(jù)可視化工具,共包括六個功能模塊:話題結構模塊、主題河流模塊、詞云模塊、用戶可視化模塊、問題展示模塊,回答展示模塊。并對各模塊之間進行交互設計,實現(xiàn)了以主題為線索的文本可視化展現(xiàn)。
【圖文】:
邐西南交通大學碩士研究生學位論文邐第3頁逡逑(2)基于邏輯的文本可視化方法逡逑基于邏輯的文本可視化的目的在于展現(xiàn)文本中上下文之間的邏輯關系,提取出文逡逑本的發(fā)展線索,使用戶能夠快速地理解文本內(nèi)容;谶壿嫷目梢暬暗姆衷~工作逡逑與基于內(nèi)容的文本可視化之前的分詞工作有所不同,非實體詞匯往往在上下文的邏輯逡逑中起著關鍵作用。逡逑Wattenberg和ViSgas提出/邋Word邋Tree文本可視化方法Word邋Tree是對傳統(tǒng)文逡逑本關鍵詞的一種圖形化展示,能夠?qū)崿F(xiàn)文本梗概的快速查找和探索。后綴樹的結構展逡逑示文本中上下文的層次關系,可讀性極強。如圖1-1所示的實例是對馬丁路德金的演講逡逑文本可視化的效果圖,用戶輸入關鍵詞“Ihaveadream”,從圖中可以看出樹圖的層次逡逑結構能夠直觀、清晰地展現(xiàn)文本的上下文邏輯。逡逑
圖1-4邋OpiniatiFlow用戶觀點傳播展示圖丨2°J逡逑眾所周知,農(nóng)村的社群結構與城市的社群結構有很大不同,在如今的社交網(wǎng)絡時逡逑代,人們對農(nóng)村社群使用社交網(wǎng)絡的情況知之甚少。Gilbert等研宄了農(nóng)村與城市使用逡逑社交網(wǎng)絡的差異情況[22L對超過3000的城市與農(nóng)村社交網(wǎng)絡用戶數(shù)據(jù)進行可視化,結逡逑果如圖1-5所示。結果發(fā)現(xiàn)相較于城市用戶,農(nóng)村用戶的線上好友更少,并且其好友也逡逑大多與其距離很近,,同時發(fā)現(xiàn)不同性別的社交網(wǎng)絡用戶對隱私具有不同需求。逡逑上述社交網(wǎng)絡數(shù)據(jù)可視化工作的研究重點是情感分析、傳播分析與地理信息分析逡逑等,目前缺乏以主題為線索的社交網(wǎng)絡數(shù)據(jù)可視化分析工具,普通用戶難以根據(jù)感興逡逑趣的主題對社交網(wǎng)絡數(shù)據(jù)進行瀏覽與分析。本文研宄面向社交網(wǎng)絡的文本可視化技術,逡逑設計并實現(xiàn)一個以主題為線索的社交網(wǎng)絡可視化工具。逡逑
【學位授予單位】:西南交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.09;TP391.1
本文編號:2558375
【圖文】:
邐西南交通大學碩士研究生學位論文邐第3頁逡逑(2)基于邏輯的文本可視化方法逡逑基于邏輯的文本可視化的目的在于展現(xiàn)文本中上下文之間的邏輯關系,提取出文逡逑本的發(fā)展線索,使用戶能夠快速地理解文本內(nèi)容;谶壿嫷目梢暬暗姆衷~工作逡逑與基于內(nèi)容的文本可視化之前的分詞工作有所不同,非實體詞匯往往在上下文的邏輯逡逑中起著關鍵作用。逡逑Wattenberg和ViSgas提出/邋Word邋Tree文本可視化方法Word邋Tree是對傳統(tǒng)文逡逑本關鍵詞的一種圖形化展示,能夠?qū)崿F(xiàn)文本梗概的快速查找和探索。后綴樹的結構展逡逑示文本中上下文的層次關系,可讀性極強。如圖1-1所示的實例是對馬丁路德金的演講逡逑文本可視化的效果圖,用戶輸入關鍵詞“Ihaveadream”,從圖中可以看出樹圖的層次逡逑結構能夠直觀、清晰地展現(xiàn)文本的上下文邏輯。逡逑
圖1-4邋OpiniatiFlow用戶觀點傳播展示圖丨2°J逡逑眾所周知,農(nóng)村的社群結構與城市的社群結構有很大不同,在如今的社交網(wǎng)絡時逡逑代,人們對農(nóng)村社群使用社交網(wǎng)絡的情況知之甚少。Gilbert等研宄了農(nóng)村與城市使用逡逑社交網(wǎng)絡的差異情況[22L對超過3000的城市與農(nóng)村社交網(wǎng)絡用戶數(shù)據(jù)進行可視化,結逡逑果如圖1-5所示。結果發(fā)現(xiàn)相較于城市用戶,農(nóng)村用戶的線上好友更少,并且其好友也逡逑大多與其距離很近,,同時發(fā)現(xiàn)不同性別的社交網(wǎng)絡用戶對隱私具有不同需求。逡逑上述社交網(wǎng)絡數(shù)據(jù)可視化工作的研究重點是情感分析、傳播分析與地理信息分析逡逑等,目前缺乏以主題為線索的社交網(wǎng)絡數(shù)據(jù)可視化分析工具,普通用戶難以根據(jù)感興逡逑趣的主題對社交網(wǎng)絡數(shù)據(jù)進行瀏覽與分析。本文研宄面向社交網(wǎng)絡的文本可視化技術,逡逑設計并實現(xiàn)一個以主題為線索的社交網(wǎng)絡可視化工具。逡逑
【學位授予單位】:西南交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.09;TP391.1
【參考文獻】
相關期刊論文 前3條
1 任磊;杜一;馬帥;張小龍;戴國忠;;大數(shù)據(jù)可視分析綜述[J];軟件學報;2014年09期
2 Hong Zhou;Panpan Xu;Xiaoru Yuan;Huamin Qu;;Edge Bundling in Information Visualization[J];Tsinghua Science and Technology;2013年02期
3 唐家渝;劉知遠;孫茂松;;文本可視化研究綜述[J];計算機輔助設計與圖形學學報;2013年03期
相關博士學位論文 前2條
1 廉捷;基于用戶特征的社交網(wǎng)絡數(shù)據(jù)挖掘研究[D];北京交通大學;2014年
2 劉芳;信息可視化技術及應用研究[D];浙江大學;2013年
本文編號:2558375
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2558375.html
最近更新
教材專著