檢索詞優(yōu)化的深網(wǎng)POI數(shù)據(jù)自適應(yīng)剖分獲取方法研究
發(fā)布時(shí)間:2021-08-13 22:53
興趣點(diǎn)(point of interest,POI)數(shù)據(jù)是一種與大眾生活密切相關(guān)的地理信息資源,并成功應(yīng)用在城市規(guī)劃、地圖導(dǎo)航等領(lǐng)域。隨著移動(dòng)網(wǎng)絡(luò)、物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展及地理信息服務(wù)的不斷深入,互聯(lián)網(wǎng)上蘊(yùn)含大量與空間位置密切相關(guān)的POI信息且大多位于深網(wǎng)網(wǎng)絡(luò)之中,并在不斷增多與變更,如何充分挖掘深網(wǎng)網(wǎng)絡(luò)中蘊(yùn)含的POI數(shù)據(jù)成為當(dāng)前空間信息領(lǐng)域的一個(gè)研究熱點(diǎn)。然而綜合國(guó)內(nèi)外相關(guān)研究可以發(fā)現(xiàn),目前通用搜索引擎和普通深網(wǎng)爬行方法難以有效獲取深網(wǎng)POI數(shù)據(jù),其主要原因在于候選檢索詞庫(kù)構(gòu)建困難、爬行檢索詞需要優(yōu)化、數(shù)據(jù)請(qǐng)求量受限制等,針對(duì)上述問(wèn)題本文提出了一種基于檢索詞優(yōu)化和空間自適應(yīng)剖分的深網(wǎng)POI信息檢索方法,并以北京市五環(huán)的外接矩形為實(shí)驗(yàn)區(qū),對(duì)深網(wǎng)POI數(shù)據(jù)服務(wù)獲取POI數(shù)據(jù)的方法進(jìn)行了驗(yàn)證。本論文的主要研究工作包括以下兩點(diǎn):(1)針對(duì)深網(wǎng)POI數(shù)據(jù)獲取過(guò)程中檢索詞庫(kù)構(gòu)建及優(yōu)化困難,提出了利用基于爬行覆蓋率排序的檢索詞優(yōu)化方法,該方法通過(guò)整理網(wǎng)站分類目錄、利用中文分詞提取分類特征詞以及同義詞補(bǔ)充初步構(gòu)建候選檢索詞,然后經(jīng)過(guò)計(jì)算訓(xùn)練區(qū)深度探測(cè)結(jié)果,得到檢索詞檢索效能指標(biāo),最后通過(guò)設(shè)置爬行覆蓋...
【文章來(lái)源】:中國(guó)測(cè)繪科學(xué)研究院北京市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
純表單模式
檢索詞優(yōu)化的深網(wǎng) POI 數(shù)據(jù)自適應(yīng)剖分獲取方法研究頁(yè)處理則能夠?qū)⒃擃愋偷臄?shù)據(jù)進(jìn)行全部展示。純鏈接模式的數(shù)據(jù)在獲取的過(guò)程中只需要通過(guò)采用瀏覽器控制+數(shù)據(jù)攔截方式來(lái)模擬用戶操作行為,便可以對(duì)它的數(shù)據(jù)進(jìn)行全量獲取。不存在純表單模式在數(shù)據(jù)獲取過(guò)程中所存在的檢索詞構(gòu)建困難等困難,但是由于其數(shù)據(jù)量有限,因此沒(méi)有作為本文的研究重點(diǎn)。
圖 2-3 純鏈接模式(3)混合模式,是上述兩種方式的混合方法,既提供預(yù)先設(shè)置的檢索鏈接,也提供相應(yīng)的查詢接口讓用戶輸入檢索詞,一般較大型的深網(wǎng)地圖服務(wù)網(wǎng)站會(huì)采用混合模式,如高德地圖、百度地圖等。如騰訊地圖所示,網(wǎng)站在總結(jié)不同用戶所關(guān)注的主題內(nèi)容的基礎(chǔ)上,為酒店、餐飲、購(gòu)物等提供了預(yù)先設(shè)置的檢索鏈接,可以利用純鏈接模式的獲取方式對(duì)數(shù)據(jù)進(jìn)行獲取。在這個(gè)基礎(chǔ)上,它還提供了利用檢索條件對(duì)數(shù)據(jù)進(jìn)行獲取的方式即純表單模式,可以將兩種方式進(jìn)行結(jié)合對(duì) POI 數(shù)據(jù)進(jìn)行獲取。
本文編號(hào):3341274
【文章來(lái)源】:中國(guó)測(cè)繪科學(xué)研究院北京市
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
純表單模式
檢索詞優(yōu)化的深網(wǎng) POI 數(shù)據(jù)自適應(yīng)剖分獲取方法研究頁(yè)處理則能夠?qū)⒃擃愋偷臄?shù)據(jù)進(jìn)行全部展示。純鏈接模式的數(shù)據(jù)在獲取的過(guò)程中只需要通過(guò)采用瀏覽器控制+數(shù)據(jù)攔截方式來(lái)模擬用戶操作行為,便可以對(duì)它的數(shù)據(jù)進(jìn)行全量獲取。不存在純表單模式在數(shù)據(jù)獲取過(guò)程中所存在的檢索詞構(gòu)建困難等困難,但是由于其數(shù)據(jù)量有限,因此沒(méi)有作為本文的研究重點(diǎn)。
圖 2-3 純鏈接模式(3)混合模式,是上述兩種方式的混合方法,既提供預(yù)先設(shè)置的檢索鏈接,也提供相應(yīng)的查詢接口讓用戶輸入檢索詞,一般較大型的深網(wǎng)地圖服務(wù)網(wǎng)站會(huì)采用混合模式,如高德地圖、百度地圖等。如騰訊地圖所示,網(wǎng)站在總結(jié)不同用戶所關(guān)注的主題內(nèi)容的基礎(chǔ)上,為酒店、餐飲、購(gòu)物等提供了預(yù)先設(shè)置的檢索鏈接,可以利用純鏈接模式的獲取方式對(duì)數(shù)據(jù)進(jìn)行獲取。在這個(gè)基礎(chǔ)上,它還提供了利用檢索條件對(duì)數(shù)據(jù)進(jìn)行獲取的方式即純表單模式,可以將兩種方式進(jìn)行結(jié)合對(duì) POI 數(shù)據(jù)進(jìn)行獲取。
本文編號(hào):3341274
本文鏈接:http://www.sikaile.net/kejilunwen/dizhicehuilunwen/3341274.html
最近更新
教材專著