天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

預訓練深度學習架構下的語義地址匹配與語義空間融合模型研究

發(fā)布時間:2021-10-07 13:21
  隨著我國數(shù)字城市與智慧城市建設的不斷開展,地址信息作為戰(zhàn)略性的基礎地理信息及空間數(shù)據資源,在人們日常生活中的作用愈發(fā)重要,而且在國家的經濟建設、文化發(fā)展和社會管理等多方面也起到相當關鍵的作用。在各行各業(yè)的基于位置服務的大數(shù)據應用需求驅動下,我國各相關部門采集和積累了海量異構的地址數(shù)據。然而由于我國地址規(guī)范標準不統(tǒng)一以及人工采集與管理秩序的混亂,導致地址信息的解析和理解成為一大難題,也極大地限制了其在各個領域內的應用。因此,有必要從認知地址文本信息和理解地址語義知識的角度出發(fā)以形成地址語義模型,讓其深入挖掘地址信息的語義特征內涵并適用于計算機的高性能運算。此外,地址特有的尋址屬性使得理解和融合其語義與空間信息具有重要的理論價值和實踐意義,也是當前的學術熱點。針對現(xiàn)有的地址模型研究中所存在的語義信息表達不完善、信息智能化應用不充分以及相關任務場景泛化性弱的困境,本文利用了深度神經網絡中的注意力機制及“預訓練-微調”模式,將地址語義理解、語義地址匹配和空間語義融合等關聯(lián)度較大的任務轉為可計算的深度神經網絡模型的搭建和優(yōu)化問題。針對地址文本語料的特性,采用自監(jiān)督學習構建深度學習架構以形成地址語... 

【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:165 頁

【學位級別】:博士

【部分圖文】:

預訓練深度學習架構下的語義地址匹配與語義空間融合模型研究


地名匹配的神經網絡架構(Santosetal.,2018)

解碼器,模型結構,示例,地址


浙江大學博士學位論文緒論13平臺下構建了融合多距離信息的貝葉斯推理網絡,提出了基于多準則評判的中文地址匹配方法(許普樂等,2017)。該研究顯著提高了單句中文地址的匹配效率。上述中文地址匹配方法雖然啟用了人工智能領域的方法,但其總體流程中仍少不了針對地址的語義特性進行復雜解析的過程。而在最近一兩年內,很多國內研究者也使用了深層句子表征技術將每個地址映射為同一向量空間中具有固定大小長度的向量,因此省去了對地址元素做復雜的解析。此后受流行的句子表征模型的啟發(fā),有學者提出了一種基于深度語義地址表征的地址匹配方法(Shanetal.,2019)。該研究首先通過在網絡上檢索訓練集中的每個地址的相關最新新聞,然后將這些新聞視為語料庫來豐富地址的語義信息,并使用Word2Vec方法來訓練單詞向量。之后使用帶有兩個LSTM(Longshort-termmemory,長短時記憶網絡)網絡的編碼解碼器體系結構來學習地址字符串的語義矢量表征并對編碼器-解碼器模型中的地址進行上采樣和子采樣以提高魯棒性。此外,該研究還在模型中應用了注意力機制,以在其語義表征中突出顯示地址的重要特征。其地址編碼器-解碼器模型結構如圖1.2所示:圖1.2地址編碼器-解碼器模型結構示例(Shanetal.,2019)該研究者在兩個真實中文地名地址數(shù)據集上進行了實驗,實驗結果表明,該模型在精度(高出5%)和召回率(高出8%)兩個指標上都比之前最先進的方法更好。

流程圖,推理模型,順序,流程


浙江大學博士學位論文緒論14Linetal.(2019)則將地址匹配問題理解并轉化成NLP中的一項任務,借鑒了深度文本匹配的先進模型進行語義地址匹配任務。該研究也分為兩階段進行,其中第一階段也類似Shan研究中所用的方式,將Word2Vec模型應用于訓練和獲取地址元素的單詞向量,并將輸入的地址記錄轉換為其相應的向量表示形式。第二步則采用了深度文本匹配模型之一的增強順序推理模型(ESIM)(Chenetal.,2016),在比較的地址記錄(矢量格式)之間進行本地和全局推理,并確定是否他們匹配。ESIM的整體流程結構概況如圖1.3所示。該研究通過將NLP中的深度學習架構引入地址匹配中,開發(fā)了一種有效且準確的語義地址匹配方法來填補之前研究所沒有的空白。其不僅考慮地址記錄之間的字面相似性,還強調基于地址“理解”的語義鏈接:無論所比較的地址記錄是相似的,還是僅具有很少的文字重疊,該方法都能夠獲得較高的預測精度。圖1.3增強順序推理模型(ESIM)的整體流程結構(Linetal.,2019)總的來說,將NLP中先進的模型及方法應用到地址匹配正變得越來越流行。但是基本上目前所有相關的研究都還停留在提取語義特征加后續(xù)任務型模型的模式階段。一來該模式使得地址的語義信息仍未得到充分的挖掘利用,二來任務型模型的設計相對獨立;同時,上述的研究仍需要對地址要素進行解析,雖然該步驟已經越來越簡化。

【參考文獻】:
期刊論文
[1]基于BiLSTM-CRF的中文層級地址分詞[J]. 程博,李衛(wèi)紅,童昊昕.  地球信息科學學報. 2019(08)
[2]智慧城市時空大數(shù)據云平臺建設技術大綱研究[J]. 郝利娟,劉冬枝.  地理空間信息. 2019(06)
[3]基于條件隨機場的非規(guī)范化中文地址解析方法[J]. 許也,申柏希,徐翔,李軍.  地理與地理信息科學. 2019(02)
[4]城市地址模型概念框架的關鍵問題[J]. 張志軍,邱俊武,亢孟軍,毛海辰.  測繪通報. 2018(09)
[5]面向專業(yè)領域的中文分詞方法[J]. 成于思,施云濤.  計算機工程與應用. 2018(17)
[6]基于空間語義的地理編碼在智慧城市信息系統(tǒng)中的應用[J]. 康昆,李明峰,周醉,蔡煒珩.  現(xiàn)代測繪. 2018(03)
[7]大數(shù)據環(huán)境下基于貝葉斯推理的中文地名地址匹配方法[J]. 許普樂,王楊,黃亞坤,黃少芬,趙傳信,陳付龍.  計算機科學. 2017(09)
[8]大數(shù)據驅動的地名信息獲取與應用[J]. 張雪英,閭國年,杜咪,葉鵬.  現(xiàn)代測繪. 2017(02)
[9]基于條件隨機場的中文地名識別方法[J]. 鄔倫,劉磊,李浩然,高勇.  武漢大學學報(信息科學版). 2017(02)
[10]文本蘊含關系識別與知識獲取研究進展及展望[J]. 郭茂盛,張宇,劉挺.  計算機學報. 2017(04)

博士論文
[1]深度神經網絡下的規(guī)范化地址建設與語義空間模型研究[D]. 毛瑞琛.浙江大學 2019
[2]文本語義相似度計算方法研究[D]. 劉宏哲.北京交通大學 2012

碩士論文
[1]基于空間場景相似性的投訴地址推薦[D]. 萬海翔.武漢大學 2017
[2]基于條件隨機場和空間推理的地理編碼方法[D]. 周海.解放軍信息工程大學 2015
[3]城市地址編碼的技術及應用[D]. 葉海波.中國石油大學 2009



本文編號:3422128

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3422128.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶5f8e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com