天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 廣告藝術論文 >

基于人物角色事件的傳記生成方法研究

發(fā)布時間:2017-05-13 01:10

  本文關鍵詞:基于人物角色事件的傳記生成方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:日常生活中,人物信息是人們最為關注的信息類型之一,有著重要的社會價值。傳統(tǒng)的人物傳記雖然提供了豐富的人物信息,但受材料和人力的制約已無法跟上信息時代大數(shù)據(jù)流的腳步。網(wǎng)絡正逐步取代傳統(tǒng)媒介,成為人們獲取人物信息的主要渠道。借助搜索引擎可以實現(xiàn)網(wǎng)絡中海量信息的篩選與定位,但返回的人物信息大多是分散且不完整的,同時夾雜著廣告推送和重復網(wǎng)頁等干擾信息,人們?nèi)孕韬馁M時間和精力去分析整理。因此,將信息過濾,將無結構的網(wǎng)絡信息結構化,構建基于網(wǎng)絡信息的人物傳記有著十分重要的意義。針對這一問題,本文構建了人物信息的離線語料庫,并以此展開后續(xù)的研究工作。本文的主要研究工作如下:(1)研究分析了人物傳記自動生成方法,借鑒傳統(tǒng)人物傳記的模式中板塊式和雙線復調(diào)式的思想,給出了一種基于人物角色事件的傳記模型。在眾多的人物事件中,根據(jù)人物角色的不同,可以將人物事件分成不同的類別,每類事件分別作為描述時的一條主線,可以清晰地展示出人物的特點,并使人物事件的條理性更強。(2)分析人物傳記構建所需材料,從網(wǎng)絡中爬取并整理出相關的初始語料信息。針對語料信息中新聞報道精煉、結構簡單的特點,設計了一種基于詞語指紋的網(wǎng)頁去重方法實現(xiàn)語料信息的凈化。利用滑動窗對文本中的高頻詞匯切割分組,對得到的各詞語片段進行哈希映射,獲得的哈希碼集合作為網(wǎng)頁文本的詞語指紋,根據(jù)詞語指紋的匹配情況實現(xiàn)網(wǎng)頁文本的去重,文中實驗驗證了該方法的可行性。(3)提出了一種基于事件描述特征的人物事件提取方法,根據(jù)描述同一類型事件常常使用相同詞語的特點,將這部分詞語賦予更高的權重并構造權重矩陣,獲得事件描述特征,結合自適應鄰域的聚類方法完成不同角色事件的凝練,最后對不同類型的角色事件進行時序摘要提取。本文實驗中,利用事件描述詞特征的事件凝練效果明顯,查準率、查全率和F-score可分別達到93%,89%和89%。(4)借助可視化工具對獲得的人物角色事件時序摘要進行可視化展示,選擇適合描述事件時序摘要和事件描述詞關系的隸屬網(wǎng)絡模型,構造二者間的關聯(lián)矩陣,實現(xiàn)不同時間段、人物分飾不同角色時事件的可視化,借助中心度評測方法分析了其中事件描述詞的參與情況及其對人物角色特點的意義。
【關鍵詞】:人物傳記 網(wǎng)頁去重 事件凝練 時序摘要 可視化
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 1 緒論9-21
  • 1.1 研究背景與意義9-10
  • 1.2 人物傳記發(fā)展歷程10-19
  • 1.2.1 人物傳記典型模式概述10-11
  • 1.2.2 人物傳記摘要流程概述11-13
  • 1.2.3 人物傳記生成技術概述13-19
  • 1.3 本文主要工作和內(nèi)容組織19-21
  • 2 人物傳記語料庫的構建21-29
  • 2.1 網(wǎng)絡爬蟲22-23
  • 2.1.1 網(wǎng)絡爬蟲技術概述22
  • 2.1.2 Scrapy爬取原理22-23
  • 2.2 百度百科人物爬取23-24
  • 2.3 媒體新聞報道爬取24-28
  • 2.3.1 百度新聞高級搜索功能介紹24-25
  • 2.3.2 文本數(shù)據(jù)的爬取與解析25-28
  • 2.4 本章小結28-29
  • 3 人物傳記語料庫的凈化29-36
  • 3.1 網(wǎng)頁去重相關概念29-31
  • 3.2 基于詞語指紋的網(wǎng)頁去重算法31-35
  • 3.2.1 原始特征串提取31-32
  • 3.2.2 詞語指紋的生成32-33
  • 3.2.3 網(wǎng)頁詞語指紋的匹配33
  • 3.2.4 實驗結果與分析33-35
  • 3.3 本章小結35-36
  • 4 人物傳記的自動生成36-52
  • 4.1 人物傳記自動生成技術36
  • 4.2 人物屬性信息的提取36-39
  • 4.2.1 半結構化信息提取38
  • 4.2.2 非結構化信息提取38-39
  • 4.3 人物事件的提取39-48
  • 4.3.1 人物事件描述特征的提取40-44
  • 4.3.2 不同角色事件的自動凝練44-48
  • 4.3.3 人物事件的時序摘要生成48
  • 4.4 實驗結果與分析48-51
  • 4.4.1 參數(shù)設定對聚類效果的影響50
  • 4.4.2 與K-means算法的對比實驗50-51
  • 4.5 本章小結51-52
  • 5 人物傳記可視化方法52-62
  • 5.1 人物角色事件分析方法52-53
  • 5.1.1 社會網(wǎng)絡模型52-53
  • 5.1.2 隸屬網(wǎng)絡模型53
  • 5.2 人物事件時序摘要與事件描述詞矩陣53-55
  • 5.2.1 事件描述詞元素提取53-54
  • 5.2.2 事件時序摘要元素提取54
  • 5.2.3 事件描述詞與時序摘要矩陣的構建54-55
  • 5.3 人物角色事件的可視化分析55-61
  • 5.4 本章小結61-62
  • 結論62-64
  • 參考文獻64-67
  • 攻讀碩士學位期間發(fā)表學術論文情況67-68
  • 致謝68-69

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前1條

1 周小平;黃家裕;劉連芳;梁一平;申文明;;基于網(wǎng)頁正文主題和摘要的網(wǎng)頁去重算法[J];廣西科學院學報;2009年04期


  本文關鍵詞:基于人物角色事件的傳記生成方法研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:361264

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/361264.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶807b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com