面向Web文本的滑坡災害信息提取技術研究
本文關鍵詞:面向Web文本的滑坡災害信息提取技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:面對滑坡災害的威脅,如何獲取充足、準確、及時的滑坡災害信息,對于研究滑坡災害及減少風險具有重要意義。互聯(lián)網(wǎng)作為一個擁有海量數(shù)據(jù)與信息的數(shù)據(jù)倉庫,運用Web文本提取技術來實現(xiàn)滑坡災害數(shù)據(jù)的提取,可以有效的提高信息提取的簡易程度及時效性。本文針對滑坡災害信息在網(wǎng)絡文本中的特點,通過研究地名識別、時間和屬性提取技術,較為系統(tǒng)地探索了Web文本中滑坡災害信息提取方法,并開發(fā)了相應的原型系統(tǒng),進行了實驗驗證分析。本文主要研究內容和結論包括以下三個方面:(1)滑坡災害信息Web文本抽取:設計了利用搜索引擎及新聞頁面進行滑坡災害信息檢索的方法,實現(xiàn)了滑坡災害主題頁面信息的有效提。煌ㄟ^分析滑坡災害主題信息的結構性特點以及互聯(lián)網(wǎng)中信息出現(xiàn)規(guī)律設計了滑坡災害信息主題去重方法;最終運用正則表達式與TMLParse方法相結合的方式對滑坡信息頁面中災害正文信息進行有效提取。(2)滑坡災害信息分類提。簩⒒聻暮π畔⑻崛☆愋头譃榱藭r間信息、地名信息、屬性信息三種類型;先運用文本分塊與分詞技術將文本信息進行結構化分割,然后針對不同信息類型的信息研究了其信息提取方法,并最終形成了一套有效的滑坡災害信息提取技術。(3)滑坡災害提取系統(tǒng)實現(xiàn)和實驗驗證:在以上技術研究的基礎上,利用.Net開發(fā)平臺與Html技術設計了滑坡災害信息提取系統(tǒng),主要實現(xiàn)了滑坡災害信息提取、信息提取規(guī)則庫管理、滑坡信息地圖展示等功能,并以四川地區(qū)為樣例,進行了實驗驗證與結果分析。通過本文研究表明,利用互聯(lián)網(wǎng)中的文本數(shù)據(jù)可以有效的提取滑坡災害信息數(shù)據(jù),能成為一種有效的滑坡災害信息發(fā)現(xiàn)的輔助手段。由于災害信息文本內容的豐富性,運用人工整理的規(guī)則與統(tǒng)計的方式進行災害信息提取存在一定的局限性。此外,網(wǎng)絡中災害信息的描述并不直接,具有模糊性與不確定性,需要結合其他滑坡災害信息提取方式進行進一步數(shù)據(jù)整合。
【關鍵詞】:滑坡 災害 Web文本 信息提取 規(guī)則
【學位授予單位】:西南交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;P642.22
【目錄】:
- 摘要6-7
- ABSTRACT7-11
- 第1章 緒論11-20
- 1.1 研究背景及意義11-12
- 1.2 研究現(xiàn)狀及進展12-16
- 1.2.1 災害信息提取技術研究進展12-13
- 1.2.2 災害信息提取應用現(xiàn)狀13-16
- 1.3 研究目標及內容16-17
- 1.3.1 研究目標16
- 1.3.2 研究內容16-17
- 1.4 技術路線17-18
- 1.5 論文組織與結構18-20
- 第2章 滑坡災害信息的web文本抽取20-35
- 2.1 滑坡信息檢索方法21-26
- 2.1.1 滑坡信息的主題特征歸納21-23
- 2.1.2 基于百度新聞搜索的滑坡網(wǎng)頁獲取23-26
- 2.2 網(wǎng)頁主題信息過濾與去重26-30
- 2.2.1 圖像視頻信息頁面過濾27-28
- 2.2.2 文本主題信息去重28-30
- 2.3 網(wǎng)頁正文提取方法30-34
- 2.3.1 基于正則表達式的信息解析31-33
- 2.3.2 使用HTMLParse技術提取網(wǎng)頁正文33-34
- 2.4 小結34-35
- 第3章 Web文本中滑坡災害相關信息提取35-53
- 3.1 文本信息結構化處理35-38
- 3.1.1 文本分塊處理35-36
- 3.1.2 文本分詞處理36-38
- 3.2 滑坡災害發(fā)生時間信息抽取38-41
- 3.2.1 時間表達式提取與轉換38-40
- 3.2.2 災害時間信息有效性篩選40-41
- 3.3 地理位置信息提取41-49
- 3.3.1 地名提取42-44
- 3.3.2 災害發(fā)生地名組合與篩選44-45
- 3.3.3 地名與地理位置匹配45-49
- 3.4 災害屬性信息提取49-52
- 3.4.1 滑坡災害屬性采集規(guī)則庫49-50
- 3.4.2 屬性信息抽取50-52
- 3.5 小結52-53
- 第4章 滑坡災害信息提取系統(tǒng)實現(xiàn)及實驗驗證53-65
- 4.1 系統(tǒng)設計及框架結構53-55
- 4.1.1 系統(tǒng)設計53-54
- 4.1.2 系統(tǒng)框架結構54-55
- 4.2 系統(tǒng)主要功能55-62
- 4.2.1 系統(tǒng)登錄55-56
- 4.2.2 系統(tǒng)管理模塊56-57
- 4.2.3 信息提取模塊57-61
- 4.2.4 規(guī)則庫管理61
- 4.2.5 地圖展示61-62
- 4.3 實驗驗證及分析62-64
- 4.4 小結64-65
- 總結與展望65-67
- 總結65
- 展望65-67
- 致謝67-68
- 參考文獻68-72
- 攻讀碩士學位期間發(fā)表的論文72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉元鳳;周榮福;李鳳玲;;基于文本的地理空間數(shù)據(jù)挖掘與可視化[J];測繪科學;2010年04期
2 閆會杰;趙巍;;服務于基礎地理信息數(shù)據(jù)動態(tài)更新的網(wǎng)絡蜘蛛[J];測繪技術裝備;2012年02期
3 余麗;陸鋒;張恒才;;網(wǎng)絡文本蘊涵地理信息抽取:研究進展與展望[J];地球信息科學學報;2015年02期
4 黃德根,岳廣玲,楊元生;基于統(tǒng)計的中文地名識別[J];中文信息學報;2003年02期
5 鄒濤,戚廣智,蔡麗娟,張福炎;網(wǎng)絡信息挖掘系統(tǒng)IDGS的實現(xiàn)[J];南京大學學報(自然科學版);2000年02期
6 劉磊;李壯;張鑫;呂帥;;中文網(wǎng)絡文本的語義信息處理研究綜述[J];計算機應用研究;2015年01期
7 唐旭日;陳小荷;張雪英;;中文文本的地名解析方法研究[J];武漢大學學報(信息科學版);2010年08期
8 胡國晴;李建華;;一種基于可信度分析的Web頁面新屬性發(fā)現(xiàn)方法[J];計算機技術與發(fā)展;2009年01期
9 周合明;奚建清;;基于模板的Web信息提取系統(tǒng)的設計與實現(xiàn)[J];計算機技術與發(fā)展;2011年11期
10 李麗雙,黃德根,陳春榮,楊元生;用支持向量機進行中文地名識別的研究[J];小型微型計算機系統(tǒng);2005年08期
本文關鍵詞:面向Web文本的滑坡災害信息提取技術研究,,由筆耕文化傳播整理發(fā)布。
本文編號:267109
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/267109.html