國際資訊中的中國元素提取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-08-01 17:06
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,各類信息巨增,在互聯(lián)網(wǎng)上每天都有海量信息在生成、傳播和存儲,人類面臨前所未有的信息膨脹。越來越多的人喜歡看一些英文國際資訊,但是讀者往往希望看一些關(guān)于中國的報(bào)道。面對如此龐大的信息網(wǎng)絡(luò),人們往往無法在英文資訊中快速定位到有關(guān)中國元素的信息。如何設(shè)計(jì)一個(gè)系統(tǒng),能夠科學(xué)有效的提取出國際資訊中的中國元素信息,以節(jié)省用戶的閱讀時(shí)間,是當(dāng)下研究者比較關(guān)注的問題。本論文首先根據(jù)實(shí)際需求明確中國元素提取的需求,對系統(tǒng)架構(gòu)和功能模塊進(jìn)行了詳細(xì)設(shè)計(jì)。其次深入研究了中國元素提取的技術(shù)方案,提出了中國元素提取回溯策略,采用基于中國元素詞典庫的匹配方法對條件隨機(jī)場模型的提取結(jié)果進(jìn)行二次提取操作。最后實(shí)現(xiàn)了一個(gè)中國元素提取系統(tǒng)。本系統(tǒng)使用了網(wǎng)頁信息采集、命名實(shí)體識別、文本檢索等相關(guān)技術(shù)。根據(jù)用戶輸入的網(wǎng)址,系統(tǒng)自動(dòng)采集網(wǎng)頁信息,通過訓(xùn)練好的模型對原始文本進(jìn)行中國元素提取,最終以web形式展示給用戶。用戶可以使用本系統(tǒng)方便快捷的查看英文國際資訊中的中國人名、地名、美食、文化、機(jī)構(gòu)等信息。另外為了方便一些信息咨詢公司的人員進(jìn)行批量提取操作,本系統(tǒng)還提供了提取本地英文文本的中國元素的服務(wù);...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1系統(tǒng)整體架構(gòu)圖??3.2.1系統(tǒng)數(shù)據(jù)層功能??數(shù)據(jù)層提供數(shù)據(jù)采集和數(shù)據(jù)存儲服務(wù)
本系統(tǒng)基于MySql設(shè)計(jì)了數(shù)據(jù)庫的整體結(jié)構(gòu),主要有9張表,分別存儲采??集模塊采集的信息、中國元素提取結(jié)果匯總、中國人名、地名、美食、機(jī)構(gòu)、文??化以及系統(tǒng)的用戶表。數(shù)據(jù)庫的實(shí)體關(guān)系如圖3-4所示。??name?!?'?.??content??咖':?urt_?:??二:—????V?J?1?J-.'?id?:;??^??__采??1?嚴(yán)?—e??:ajm?-le^?!???id?-?P|ace?se ̄- ̄??crg?;丨?丄?〇rg??<?utle?^?^?food?1??-vv*?food?.??Uf,?訕咖??.le??k^?Url?丨.‘?ur|??titl-e?^?^??doc_user?.?.?^???^___?1?^??place?:廠.id????title?^?name?.??url?passed??n?y?email?.,.'卜灰滿二;??sex??cjime??\?y??圖3-7數(shù)據(jù)庫實(shí)體關(guān)系示意圖??26??
4.1數(shù)據(jù)層模塊??由第三章中對存儲層模塊的設(shè)計(jì)可知,系統(tǒng)的數(shù)據(jù)層包含數(shù)據(jù)采集模塊和數(shù)??據(jù)存儲模塊。本層的主要模塊為數(shù)據(jù)采集模塊,對數(shù)據(jù)采集模塊的實(shí)現(xiàn)分為兩部??分:??(1)分析常見國際資訊網(wǎng)站的網(wǎng)頁結(jié)構(gòu)(這里以環(huán)球時(shí)報(bào)為例)。??(2)部署爬蟲程序。??4.1.1網(wǎng)頁結(jié)構(gòu)分析??第一步是分析環(huán)球時(shí)報(bào)的網(wǎng)頁結(jié)構(gòu),獲得所需信息所在的標(biāo)簽。打開環(huán)球時(shí)??報(bào)選擇dements查看器,可以看到如圖4-1所示的,所有的類別文章的URL都??是以網(wǎng)站URL+文章所屬類別構(gòu)成,所以可以設(shè)定兩個(gè)正則匹配器。??patteml?=?'http://www\.globaltimes\.cnV[a-zO-9V\.]*¥';??pattem2?=?'http://ww\v\.globaltimes\.cnVunameV[0-9]*\.shtml¥'o??uname為一個(gè)變量名,然后利用深度優(yōu)先搜索(dfs)即可遍歷環(huán)球時(shí)報(bào)網(wǎng)下所??有文章的URL。??GI?tieir-eits?CoRsct???euf?s?Vewcry?Audits??r?s'v'sss-nsvsar-svsrsf??
【參考文獻(xiàn)】:
期刊論文
[1]一種基于語料的詞匯語義相似度認(rèn)知算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(02)
[2]面向事件的中文指代語料庫的構(gòu)建[J]. 張亞軍,劉宗田,李強(qiáng),周文. 上海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[3]結(jié)合有監(jiān)督廣度優(yōu)先搜索策略的通用垂直爬蟲方法[J]. 高峰,劉震,高輝. 計(jì)算機(jī)工程. 2018(11)
[4]基于詞典匹配的蒙古文命名實(shí)體識別研究[J]. 包敏娜,斯·勞格勞. 中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 2017(03)
[5]基于條件隨機(jī)場的中文領(lǐng)域分詞研究[J]. 朱艷輝,劉璟,徐葉強(qiáng),田海龍,馬進(jìn). 計(jì)算機(jī)工程與應(yīng)用. 2016(15)
[6]基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J]. 李戴維,李寧. 計(jì)算機(jī)與現(xiàn)代化. 2012(11)
[7]基于局部特征和隱條件隨機(jī)場的場景分類方法[J]. 李玲玲,金泰松,李翠華. 北京理工大學(xué)學(xué)報(bào). 2012(07)
[8]從客戶評論中識別命名實(shí)體——基于最大熵模型的實(shí)現(xiàn)[J]. 余傳明,黃建秋,郭飛. 現(xiàn)代圖書情報(bào)技術(shù). 2011(05)
[9]藏語命名實(shí)體識別研究[J]. 金明,楊歡歡,單廣榮. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(03)
[10]論自然語言處理的發(fā)展趨勢[J]. 殷杰,董佳蓉. 自然辯證法研究. 2008(03)
博士論文
[1]面向圖像標(biāo)記的條件隨機(jī)場模型研究[D]. 徐麗.長安大學(xué) 2013
[2]基于本體的自適應(yīng)Web信息抽取方法研究[D]. 李傳席.中國科學(xué)技術(shù)大學(xué) 2012
[3]非遍歷馬爾科夫過程大偏差及相關(guān)問題[D]. 鄧曉雪.清華大學(xué) 2011
[4]最大熵方法及其在自然語言處理中的應(yīng)用[D]. 周雅倩.復(fù)旦大學(xué) 2005
碩士論文
[1]科技信息分類聚合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳冬凱.北京郵電大學(xué) 2018
[2]基于規(guī)則和條件隨機(jī)場的中文命名實(shí)體識別方法研究[D]. 程志剛.華中師范大學(xué) 2015
[3]越南語新聞事件元素抽取方法研究[D]. 潘清清.昆明理工大學(xué) 2014
[4]基于條件隨機(jī)場的命名實(shí)體識別[D]. 祁日秀.北京郵電大學(xué) 2013
[5]網(wǎng)頁抓取策略研究[D]. 翁巖青.哈爾濱工程大學(xué) 2010
本文編號:3315909
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1系統(tǒng)整體架構(gòu)圖??3.2.1系統(tǒng)數(shù)據(jù)層功能??數(shù)據(jù)層提供數(shù)據(jù)采集和數(shù)據(jù)存儲服務(wù)
本系統(tǒng)基于MySql設(shè)計(jì)了數(shù)據(jù)庫的整體結(jié)構(gòu),主要有9張表,分別存儲采??集模塊采集的信息、中國元素提取結(jié)果匯總、中國人名、地名、美食、機(jī)構(gòu)、文??化以及系統(tǒng)的用戶表。數(shù)據(jù)庫的實(shí)體關(guān)系如圖3-4所示。??name?!?'?.??content??咖':?urt_?:??二:—????V?J?1?J-.'?id?:;??^??__采??1?嚴(yán)?—e??:ajm?-le^?!???id?-?P|ace?se ̄- ̄??crg?;丨?丄?〇rg??<?utle?^?^?food?1??-vv*?food?.??Uf,?訕咖??.le??k^?Url?丨.‘?ur|??titl-e?^?^??doc_user?.?.?^???^___?1?^??place?:廠.id????title?^?name?.??url?passed??n?y?email?.,.'卜灰滿二;??sex??cjime??\?y??圖3-7數(shù)據(jù)庫實(shí)體關(guān)系示意圖??26??
4.1數(shù)據(jù)層模塊??由第三章中對存儲層模塊的設(shè)計(jì)可知,系統(tǒng)的數(shù)據(jù)層包含數(shù)據(jù)采集模塊和數(shù)??據(jù)存儲模塊。本層的主要模塊為數(shù)據(jù)采集模塊,對數(shù)據(jù)采集模塊的實(shí)現(xiàn)分為兩部??分:??(1)分析常見國際資訊網(wǎng)站的網(wǎng)頁結(jié)構(gòu)(這里以環(huán)球時(shí)報(bào)為例)。??(2)部署爬蟲程序。??4.1.1網(wǎng)頁結(jié)構(gòu)分析??第一步是分析環(huán)球時(shí)報(bào)的網(wǎng)頁結(jié)構(gòu),獲得所需信息所在的標(biāo)簽。打開環(huán)球時(shí)??報(bào)選擇dements查看器,可以看到如圖4-1所示的,所有的類別文章的URL都??是以網(wǎng)站URL+文章所屬類別構(gòu)成,所以可以設(shè)定兩個(gè)正則匹配器。??patteml?=?'http://www\.globaltimes\.cnV[a-zO-9V\.]*¥';??pattem2?=?'http://ww\v\.globaltimes\.cnVunameV[0-9]*\.shtml¥'o??uname為一個(gè)變量名,然后利用深度優(yōu)先搜索(dfs)即可遍歷環(huán)球時(shí)報(bào)網(wǎng)下所??有文章的URL。??GI?tieir-eits?CoRsct???euf?s?Vewcry?Audits??r?s'v'sss-nsvsar-svsrsf??
【參考文獻(xiàn)】:
期刊論文
[1]一種基于語料的詞匯語義相似度認(rèn)知算法[J]. 吳華,羅順,孫偉晉. 計(jì)算機(jī)與數(shù)字工程. 2019(02)
[2]面向事件的中文指代語料庫的構(gòu)建[J]. 張亞軍,劉宗田,李強(qiáng),周文. 上海大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(06)
[3]結(jié)合有監(jiān)督廣度優(yōu)先搜索策略的通用垂直爬蟲方法[J]. 高峰,劉震,高輝. 計(jì)算機(jī)工程. 2018(11)
[4]基于詞典匹配的蒙古文命名實(shí)體識別研究[J]. 包敏娜,斯·勞格勞. 中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 2017(03)
[5]基于條件隨機(jī)場的中文領(lǐng)域分詞研究[J]. 朱艷輝,劉璟,徐葉強(qiáng),田海龍,馬進(jìn). 計(jì)算機(jī)工程與應(yīng)用. 2016(15)
[6]基于Solr的分布式全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[J]. 李戴維,李寧. 計(jì)算機(jī)與現(xiàn)代化. 2012(11)
[7]基于局部特征和隱條件隨機(jī)場的場景分類方法[J]. 李玲玲,金泰松,李翠華. 北京理工大學(xué)學(xué)報(bào). 2012(07)
[8]從客戶評論中識別命名實(shí)體——基于最大熵模型的實(shí)現(xiàn)[J]. 余傳明,黃建秋,郭飛. 現(xiàn)代圖書情報(bào)技術(shù). 2011(05)
[9]藏語命名實(shí)體識別研究[J]. 金明,楊歡歡,單廣榮. 西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(03)
[10]論自然語言處理的發(fā)展趨勢[J]. 殷杰,董佳蓉. 自然辯證法研究. 2008(03)
博士論文
[1]面向圖像標(biāo)記的條件隨機(jī)場模型研究[D]. 徐麗.長安大學(xué) 2013
[2]基于本體的自適應(yīng)Web信息抽取方法研究[D]. 李傳席.中國科學(xué)技術(shù)大學(xué) 2012
[3]非遍歷馬爾科夫過程大偏差及相關(guān)問題[D]. 鄧曉雪.清華大學(xué) 2011
[4]最大熵方法及其在自然語言處理中的應(yīng)用[D]. 周雅倩.復(fù)旦大學(xué) 2005
碩士論文
[1]科技信息分類聚合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 陳冬凱.北京郵電大學(xué) 2018
[2]基于規(guī)則和條件隨機(jī)場的中文命名實(shí)體識別方法研究[D]. 程志剛.華中師范大學(xué) 2015
[3]越南語新聞事件元素抽取方法研究[D]. 潘清清.昆明理工大學(xué) 2014
[4]基于條件隨機(jī)場的命名實(shí)體識別[D]. 祁日秀.北京郵電大學(xué) 2013
[5]網(wǎng)頁抓取策略研究[D]. 翁巖青.哈爾濱工程大學(xué) 2010
本文編號:3315909
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3315909.html
最近更新
教材專著