天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)絡(luò)爬蟲的地名數(shù)據(jù)庫維護方法

發(fā)布時間:2019-07-01 18:20
【摘要】:目前,我國地名數(shù)據(jù)庫建設(shè)存在大、中顆粒度地名集中,小顆粒度地名較為缺乏,地名資料陳舊、時效性較低,簡稱、別名等非標(biāo)準(zhǔn)地名信息和地名的相對位置信息缺失等問題。而地名數(shù)據(jù)庫的更新維護工作主要通過人工測繪手段完成,存在周期長、成本高、效率低等缺點。針對這一問題,本文以現(xiàn)有地名數(shù)據(jù)庫和空間關(guān)系詞匯為基礎(chǔ),基于Google搜索引擎服務(wù),提出一種以網(wǎng)頁資源為數(shù)據(jù)源,利用網(wǎng)絡(luò)爬蟲技術(shù)和地名識別技術(shù),進行地名數(shù)據(jù)庫更新維護的方法。首先,設(shè)計以地名為主題的網(wǎng)絡(luò)爬蟲,實現(xiàn)非結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)中海量空間敏感網(wǎng)頁文本的主動獲取;然后,采用HTML DOM技術(shù)解析空間敏感網(wǎng)頁并應(yīng)用CRF地名識別模型自動識別網(wǎng)頁文本中地名;最后,設(shè)計相關(guān)算法進行網(wǎng)頁文本中地名信息的自動解析,實現(xiàn)新地名和地名空間位置信息的獲取,進行地名數(shù)據(jù)庫的更新維護。以"南京師范大學(xué)仙林賓館+西北"為空間檢索實例,驗證了此方法的可行性。
[Abstract]:At present, there are some problems in the construction of toponymic database in China, such as large, concentrated medium granularity toponymic names, lack of small granularity toponymic names, outdated toponymic data, low timeliness, abbreviated, alias and other non-standard toponymic information and the lack of relative position information of toponymic names. However, the updating and maintenance of toponymic database is mainly completed by means of manual surveying and mapping, which has many shortcomings, such as long cycle, high cost, low efficiency and so on. In order to solve this problem, based on the existing toponymic database and spatial relational vocabulary, based on Google search engine service, this paper proposes a method to update and maintain the toponymic database by using web crawler technology and toponymic recognition technology. Firstly, the web crawler with place name as the theme is designed to realize the active acquisition of massive spatial sensitive web page text in unstructured web page data. Then, HTML DOM technology is used to analyze the spatial sensitive web page and CRF toponymic recognition model is used to automatically identify the place names in the web page text. Finally, the related algorithms are designed to automatically analyze the toponymic information in the web page text, to realize the acquisition of new toponymic and toponymic spatial position information, and to update and maintain the toponymic database. Taking Northwestern Xianlin Hotel of Nanjing normal University as an example, the feasibility of this method is verified.
【作者單位】: 南京師范大學(xué)虛擬地理環(huán)境教育部重點實驗室;
【基金】:國家自然科學(xué)基金項目(40971231)
【分類號】:TP311.13

【參考文獻】

相關(guān)期刊論文 前10條

1 狄琳,歐陽宏斌;全國1∶25萬地名數(shù)據(jù)庫的設(shè)計與建立[J];測繪通報;2001年10期

2 陳春華;;1∶5萬地名數(shù)據(jù)庫到1∶1萬地名數(shù)據(jù)庫轉(zhuǎn)換的研究與開發(fā)[J];測繪通報;2006年05期

3 李金良;張雪英;樊曉春;;漢語地名時空信息的一體化表達[J];地理與地理信息科學(xué);2010年06期

4 陳鉆,萬慶,吳杰;基于XML的無線位置服務(wù)地理信息服務(wù)器的實現(xiàn)[J];地球信息科學(xué);2004年04期

5 張雪英;張春菊;閭國年;;地理命名實體分類體系的設(shè)計與應(yīng)用分析[J];地球信息科學(xué)學(xué)報;2010年02期

6 張保鋼;楊伯鋼;孔俊元;;北京市地名數(shù)據(jù)庫的維護更新[J];北京測繪;2010年03期

7 周俊生;戴新宇;尹存燕;陳家駿;;自然語言信息抽取中的機器學(xué)習(xí)方法研究[J];計算機科學(xué);2005年03期

8 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機工程與科學(xué);2008年03期

9 張小衡,王玲玲;中文機構(gòu)名稱的識別與分析[J];中文信息學(xué)報;1997年04期

10 陳財森;王韜;鄭偉;陳建泗;;基于搜索引擎調(diào)用的主題搜索設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2008年21期

相關(guān)會議論文 前1條

1 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹解析的網(wǎng)頁正文抽取方法[A];黑龍江省計算機學(xué)會2007年學(xué)術(shù)交流年會論文集[C];2007年

相關(guān)碩士學(xué)位論文 前2條

1 王志強;基于條件隨機域的中文命名實體識別研究[D];南京理工大學(xué);2006年

2 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年

【共引文獻】

相關(guān)期刊論文 前10條

1 李玉森;張雪英;袁正午;;面向GIS的地理命名實體識別研究[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2008年06期

2 商瑤玲,王東華,李莉;全國1:25萬數(shù)據(jù)庫的建立與更新[J];測繪科學(xué);2004年S1期

3 鄭浩;張蔚;劉繼東;;基于SQL Server數(shù)據(jù)庫的遙感影像數(shù)據(jù)存儲的策略與方法[J];測繪技術(shù)裝備;2006年01期

4 商瑤玲,王東華,李莉;論全國1:250000數(shù)據(jù)庫的建立與更新[J];地理信息世界;2003年02期

5 廖一蘭;王勁峰;馬家奇;戚曉鵬;;基于BPM-BM算法的地名數(shù)據(jù)匹配[J];測繪通報;2008年06期

6 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

7 李金良;張雪英;樊曉春;;漢語地名時空信息的一體化表達[J];地理與地理信息科學(xué);2010年06期

8 黃德根;李澤中;萬如;;基于SVM和CRF的雙層模型中文機構(gòu)名識別[J];大連理工大學(xué)學(xué)報;2010年05期

9 張輝,徐健;中國組織機構(gòu)名自動識別系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2002年01期

10 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識與技術(shù);2008年S2期

相關(guān)會議論文 前10條

1 陳曉;;中文文本自動分詞研究述要[A];第四屆全國語言文字應(yīng)用學(xué)術(shù)研討會論文集[C];2005年

2 何燕;;基于單字詞轉(zhuǎn)移概率的未登錄詞識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年

3 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計和規(guī)則相結(jié)合的中文機構(gòu)名稱識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年

4 郭志立;;使用互信息輔助在篇章范圍內(nèi)識別命名實體[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 李斌;;中文單字國名簡稱的自動識別[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年

6 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結(jié)合的案件名稱識別[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

7 余軍;陳曉鷗;;命名實體識別:One-at-a-time or All-at-once?Word-based or Character-based?[A];中國計算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集[C];2007年

8 馮元勇;孫樂;張大鯤;李文波;;基于單字提示特征的中文命名實體識別快速算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

9 雷靜;張舵;馮霞;;基于構(gòu)成模式的漢語機構(gòu)名識別[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 姚文琳;漢語依存句法分析方法的研究與實現(xiàn)[D];中國海洋大學(xué);2009年

2 劉忠;性質(zhì)語意理論的提出與自然語言理解及其實現(xiàn)的研究[D];華東師范大學(xué);2004年

3 鄭逢斌;關(guān)于計算機理解自然查詢語言的研究[D];西南交通大學(xué);2004年

4 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年

5 李曉光;XML非完全結(jié)構(gòu)查詢處理中若干關(guān)鍵技術(shù)的研究[D];東北大學(xué);2006年

6 姜韶華;科研項目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年

7 高紅;基于統(tǒng)計語言模型的漢語淺層分析研究[D];大連理工大學(xué);2007年

8 史樹敏;基于領(lǐng)域本體的漢語共指消解及相關(guān)技術(shù)研究[D];南京理工大學(xué);2008年

9 茹昭;企業(yè)信息檢索中的對象檢索方法研究[D];北京郵電大學(xué);2008年

10 熊英;中文自然語言理解中基于條件隨機場理論的詞法分析研究[D];上海交通大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 王東亮;基于條件隨機場模型的中文人名識別的研究[D];大連理工大學(xué);2010年

2 安波;基于蛋白質(zhì)關(guān)系網(wǎng)絡(luò)的蛋白質(zhì)絡(luò)合物抽取研究[D];大連理工大學(xué);2010年

3 紅霞;基于層疊條件隨機場的中文機構(gòu)名識別的研究[D];大連理工大學(xué);2010年

4 王玉丹;基于SVM的漢語依存句法分析研究[D];中國海洋大學(xué);2010年

5 鐘鴻鵬;基于時態(tài)信息的網(wǎng)頁排序系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2010年

6 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年

7 楊曉東;中文命名實體識別及若干相關(guān)問題的研究[D];江蘇大學(xué);2010年

8 高峰;基于興趣分類的用戶行為分析系統(tǒng)的研究[D];山東大學(xué);2010年

9 劉莎莎;大規(guī)模中文機構(gòu)名稱與機構(gòu)地址自動翻譯研究[D];哈爾濱工業(yè)大學(xué);2010年

10 何燕;任意類型的未登錄詞的識別研究[D];北京語言文化大學(xué);2000年

【二級參考文獻】

相關(guān)期刊論文 前10條

1 廖楚江,杜清運;GIS空間關(guān)系描述模型研究綜述[J];測繪科學(xué);2004年04期

2 狄琳,歐陽宏斌;全國1∶25萬地名數(shù)據(jù)庫的設(shè)計與建立[J];測繪通報;2001年10期

3 石若明,陳秀忠;城市大比例尺地名地理信息數(shù)據(jù)庫建設(shè)的探索[J];測繪通報;2004年01期

4 陳常松;面向數(shù)據(jù)共享的GIS語義表達理論的初步研究[J];測繪學(xué)報;2000年01期

5 陳軍,趙仁亮;GIS空間關(guān)系的基本問題與研究進展[J];測繪學(xué)報;1999年02期

6 劉瑜;張毅;田原;薛露露;;廣義地名及其本體研究[J];地理與地理信息科學(xué);2007年06期

7 陳凱晨;林星;袁一泓;李潤強;劉瑜;;數(shù)字地名詞典中的類型表達和管理[J];地理與地理信息科學(xué);2009年05期

8 吳信才;地理信息系統(tǒng)的基本技術(shù)與發(fā)展動態(tài)[J];地球科學(xué);1998年04期

9 吳杰,陸鋒,湯井田,程昌秀,袁正午;基于OCCI的空間數(shù)據(jù)庫幾何對象實現(xiàn)方法[J];地球信息科學(xué);2003年04期

10 陳志泊,陸守一;TGIS中的時空數(shù)據(jù)模型的研究進展[J];河北林果研究;2003年04期

相關(guān)會議論文 前1條

1 王大禹;姚天順;;使用一種半指導(dǎo)的學(xué)習(xí)機制識別中文未分詞文本中的姓名(英文)[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

相關(guān)碩士學(xué)位論文 前2條

1 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

2 薛建春;垂直搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2007年

【相似文獻】

相關(guān)期刊論文 前10條

1 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期

2 張安妮;姜華;郝相蓮;;面向主題的快速搜索引擎的設(shè)計與研究[J];淮陰工學(xué)院學(xué)報;2011年03期

3 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期

4 張睿涵;林振榮;李建民;衷灣;;基于主題定制的專利網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];計算機與現(xiàn)代化;2011年07期

5 鐘遠軍;李照;林澍哲;黎慧斌;;基于PostGIS的地名數(shù)據(jù)庫設(shè)計與應(yīng)用研究[J];測繪與空間地理信息;2011年03期

6 商瑤玲;張元杰;張義;王立新;王孺;;國家基礎(chǔ)地理信息地名數(shù)據(jù)更新軟件系統(tǒng)設(shè)計與研發(fā)[J];測繪科學(xué);2008年S2期

7 魏毅峰;;產(chǎn)品評論檢索系統(tǒng)設(shè)計[J];現(xiàn)代經(jīng)濟信息;2011年14期

8 翟菊葉;馬吳迪;;電子商務(wù)問答系統(tǒng)的研究[J];科技信息;2011年18期

9 施Oz;王恒山;肖仰華;丁衛(wèi)平;;面向主題的垂直搜索引擎系統(tǒng)的研究與實現(xiàn)[J];微電子學(xué)與計算機;2011年07期

10 金凡;顧進廣;;一種改進的T-Spider分布式爬蟲[J];微電子學(xué)與計算機;2011年08期

相關(guān)會議論文 前10條

1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年

2 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年

3 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

4 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

5 鄒利平;杜清運;;省級地名管理數(shù)據(jù)庫數(shù)據(jù)組織與更新策略探討[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協(xié)年會論文集(二)[C];2007年

6 侯丹青;李舟軍;鄒蘊珂;;一種跨站腳本漏洞檢測系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年

7 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年

8 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

9 張霄軍;;“長安”的同名地名自動識別與指代消解[A];陜西省社會科學(xué)界第二屆(2008)學(xué)術(shù)年會——青年博士論壇“陜西新起點:創(chuàng)新·發(fā)展·民生”專題獲獎?wù)撐倪x編[C];2008年

10 閆鳳林;;加強數(shù)據(jù)庫建設(shè),適應(yīng)轉(zhuǎn)型需要[A];第二十一屆海洋測繪綜合性學(xué)術(shù)研討會論文集[C];2009年

相關(guān)重要報紙文章 前10條

1 李曉軍;縉云縣 地名數(shù)據(jù)庫全面升級更新[N];中國社會報;2010年

2 潘躍;全國有了24個省級地名數(shù)據(jù)庫[N];人民日報;2008年

3 記者 陳蘭芹;1:5萬全國地名數(shù)據(jù)庫建成[N];中國測繪報;2003年

4 記者 卞晨光;聯(lián)合國將推出全球地名數(shù)據(jù)庫[N];科技日報;2007年

5 ;用數(shù)字描述神州大地[N];經(jīng)濟日報;2006年

6 何敏;青海4年內(nèi)建立三級地名數(shù)據(jù)庫[N];中國社會報;2006年

7 洮民;洮南地名數(shù)據(jù)庫配置多媒體信息[N];中國社會報;2005年

8 ;我國投資6億元更新1:5萬地形圖數(shù)據(jù)庫[N];中國交通報;2006年

9 康國萍;建設(shè)新疆地名數(shù)據(jù)庫編制縣級行政界線詳圖[N];中國測繪報;2007年

10 霍鑫;萬通創(chuàng)建網(wǎng)絡(luò)門牌國際標(biāo)準(zhǔn)[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2007年

相關(guān)博士學(xué)位論文 前3條

1 石超藝;上海市地名文化保護與地名管理研究[D];華東師范大學(xué);2007年

2 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 王美玲;地名數(shù)據(jù)庫的更新與變化分析[D];中南大學(xué);2010年

2 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年

3 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年

4 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年

5 趙艷;基于網(wǎng)絡(luò)爬蟲的跨站腳本漏洞動態(tài)檢測技術(shù)研究[D];西南交通大學(xué);2011年

6 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年

7 張媚;Ajax友好的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];暨南大學(xué);2011年

8 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年

9 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學(xué);2011年

10 宋婷;基于SVM的網(wǎng)絡(luò)爬蟲檢測研究與實現(xiàn)[D];天津大學(xué);2010年

,

本文編號:2508699

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2508699.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f2a2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com