天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

微博用戶年齡范圍的自動識別與實證分析

發(fā)布時間:2017-10-03 04:01

  本文關(guān)鍵詞:微博用戶年齡范圍的自動識別與實證分析


  更多相關(guān)文章: 微博 用戶年齡 年齡識別 機器學(xué)習(xí)


【摘要】:微博作為當前最流行的網(wǎng)絡(luò)社交媒體之一,已經(jīng)成為人們實時分享、交流、獲取和傳播信息的重要平臺,每天有上億用戶在微博平臺上進行社交活動。通過了解用戶的年齡信息,能夠更詳細地分析微博上不同人群的特點,更深入地挖掘微博內(nèi)容,從而獲得用戶產(chǎn)生的海量數(shù)據(jù)背后所蘊含的巨大價值。然而,絕大部分微博用戶并沒有年齡信息,不僅如此,隨著微博API平臺的關(guān)閉,微博數(shù)據(jù)的獲取越來越困難,這就給以往通過微博用戶的全部資料分析用戶年齡信息的研究帶來了極大的挑戰(zhàn)。本文研究的目的在于在僅依賴微博文本的情況下,構(gòu)建用戶年齡范圍的自動識別模型,并將模型應(yīng)用于微博用戶年齡范圍的識別,以此分析微博平臺上不同年齡段用戶群體的特性。本文從新浪微博上人工標注了5466個用戶作為模型的訓(xùn)練樣本、選擇了95萬用戶作為微博用戶群體的后期分析樣本,采用機器學(xué)習(xí)中的方法對數(shù)據(jù)進行試驗和分析。本文的研究內(nèi)容主要包括以下兩個方面:第一,基于用戶的微博文本,構(gòu)建用戶年齡范圍自動識別模型。本文以人工標注的方式選取了5466個有年齡信息的用戶,獲取了他們的微博信息。以微博中詞語的使用、表情符號、標點符號等為屬性特征,采用四種機器學(xué)習(xí)的方法對用戶的年齡段進行自動識別,比較各分類模型的結(jié)果,最終得出以邏輯回歸算法得到的識別模型效果最佳。第二,分析微博上不同年齡段用戶群體的特點。本文從新浪微博上選取了95萬個用戶并獲取了他們的微博文本,利用之前得到的年齡段自動識別模型對這些用戶所處的年齡階段進行識別。然后,根據(jù)用戶的年齡信息,從用戶的年齡分布情況、活躍時間、“社交圈”規(guī)模以及微博中討論的話題這四個方面,分析比較了不同年齡范圍用戶群體的特點。本文構(gòu)建的微博用戶年齡范圍自動識別模型,具有較強的可移植性,能夠平移到其他社交網(wǎng)絡(luò)平臺的用戶年齡研究。此外,對微博上不同年齡范圍用戶的特性分析在政治、經(jīng)濟和法律方面都很多價值,也能夠為其他基于微博的研究提供用戶的年齡信息。
【關(guān)鍵詞】:微博 用戶年齡 年齡識別 機器學(xué)習(xí)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:G206;F224
【目錄】:
  • 摘要4-5
  • ABSTRACT5-8
  • 第1章 緒論8-17
  • 1.1 課題研究背景8-10
  • 1.2 研究意義10-11
  • 1.3 國內(nèi)外研究現(xiàn)狀11-14
  • 1.3.1 國外研究現(xiàn)狀11-12
  • 1.3.2 國內(nèi)研究現(xiàn)狀12-13
  • 1.3.3 研究現(xiàn)狀綜述13-14
  • 1.4 研究內(nèi)容與方法14-15
  • 1.4.1 研究內(nèi)容14-15
  • 1.4.2 研究方法15
  • 1.5 論文結(jié)構(gòu)框架15-17
  • 第2章 相關(guān)概念與理論基礎(chǔ)17-29
  • 2.1 研究問題分析17
  • 2.2 微博相關(guān)概念簡述17-18
  • 2.2.1 微博的界定17
  • 2.2.2 微博的功能17-18
  • 2.2.3 微博的特點18
  • 2.2.4 微博平臺上的數(shù)據(jù)類型18
  • 2.3 微博用戶年齡的劃分及其依據(jù)18-20
  • 2.4 機器學(xué)習(xí)的理論20-28
  • 2.4.1 特征處理的相關(guān)算法21-22
  • 2.4.2 相關(guān)分類算法模型22-28
  • 2.5 本章小結(jié)28-29
  • 第3章 微博用戶年齡段自動識別模型的構(gòu)建29-49
  • 3.1 模型設(shè)計思路29
  • 3.2 樣本數(shù)據(jù)的獲取與預(yù)處理29-35
  • 3.2.1 樣本數(shù)據(jù)的獲取29-33
  • 3.2.2 樣本數(shù)據(jù)的預(yù)處理33-35
  • 3.3 樣本數(shù)據(jù)中用戶年齡特征的提取35-41
  • 3.3.1 用戶年齡的特征抽取35-39
  • 3.3.2 用戶年齡特征空間的構(gòu)建39-41
  • 3.4 微博用戶年齡段自動識別分類器的構(gòu)建41-48
  • 3.4.1 選擇分類模型41
  • 3.4.2 四種分類模型的特點分析和實施過程41-43
  • 3.4.3 用戶年齡段自動識別的流程43-45
  • 3.4.4 四種年齡模型分類結(jié)果的對比分析45-48
  • 3.5 本章小結(jié)48-49
  • 第4章 微博用戶年齡段自動識別的實證研究49-57
  • 4.1 微博用戶的年齡范圍識別49-50
  • 4.1.1 微博用戶的數(shù)據(jù)獲取與預(yù)處理49
  • 4.1.2 微博用戶的特征值統(tǒng)計49-50
  • 4.1.3 利用邏輯回歸模型對用戶分類50
  • 4.2 微博用戶的實證分析50-56
  • 4.2.1 微博用戶的年齡分布狀況50-51
  • 4.2.2 微博用戶的活躍情況51-52
  • 4.2.3 微博用戶的社交規(guī)模52-54
  • 4.2.4 微博用戶的發(fā)博偏好情況54-56
  • 4.3 本章小結(jié)56-57
  • 結(jié)論57-58
  • 參考文獻58-62
  • 附錄1 樣本數(shù)據(jù)中的常用的表情符號62-65
  • 附錄2 文中使用的主要程序代碼65-72
  • 致謝72
,

本文編號:963007

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/xinwenchuanbolunwen/963007.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dbeff***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com