天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

廣西農(nóng)業(yè)信息地理匹配引擎設(shè)計與實現(xiàn)

發(fā)布時間:2021-10-20 00:27
  【目的】研究高并發(fā)、大流量農(nóng)業(yè)信息地理匹配引擎,改進其算法,解決廣西區(qū)內(nèi)壯語地名匹配問題,實現(xiàn)農(nóng)業(yè)信息的自動匹配與空間定位,以滿足農(nóng)業(yè)大數(shù)據(jù)平臺高并發(fā)、大流量的地理匹配需求。!痉椒ā客ㄟ^改造開源的Solr全文搜索引擎,結(jié)合廣西地名中的少數(shù)民族語言特點,擴充地名詞典、設(shè)計數(shù)據(jù)組織方式與逆向分詞算法、改進TF-IDF算法。【結(jié)果】在改進方法的基礎(chǔ)上設(shè)計并實現(xiàn)了農(nóng)業(yè)地理信息地理匹配引擎。經(jīng)過第三方15484條數(shù)據(jù)測試,能夠準確切分壯語地名,引擎在500并發(fā)下仍具有良好的響應(yīng)速度,匹配準確率達98.43%。地理匹配引擎目前已應(yīng)用到糖業(yè)發(fā)展大數(shù)據(jù)平臺中,并取得了良好的效果。【建議】針對測試中出現(xiàn)的問題,建議在下一步工作中擴充并完善詞庫內(nèi)容、增強語義推理能力、研究基于空間語義的定位算法,提高廣西農(nóng)業(yè)信息的定位精度。 

【文章來源】:南方農(nóng)業(yè)學(xué)報. 2019,50(01)北大核心CSCD

【文章頁數(shù)】:7 頁

【部分圖文】:

廣西農(nóng)業(yè)信息地理匹配引擎設(shè)計與實現(xiàn)


地理匹配引擎在廣西糖業(yè)發(fā)展大數(shù)據(jù)平臺的應(yīng)用效果

地理


?加油站那/坡/農(nóng)業(yè)局改進分詞算法Improvedwordsegmentationalgorithm廣西/鳳糖/生化/股份有限公司南寧市/良慶區(qū)/那馬鎮(zhèn)/新華路/168/號廣西區(qū)/農(nóng)業(yè)機械研究院科園東六路/1/號欽州市/康熙嶺/農(nóng)機/加油站那坡/農(nóng)業(yè)局表1地名地址分詞對比樣例Table1Samplecomparisonofplacenamesandaddressmatching2.3匹配準確率分析匹配準確率包含匹配準確度和空間精度兩個方面,其中,匹配準確度是指關(guān)鍵詞與地名在文本上是否正確匹配,空間精度是指匹配后的空間定位精度是否與關(guān)鍵詞的地理位置相一致。地理匹配流程如圖6所示。匹配準確率是地理匹配引擎的重要指標,由于本測試數(shù)據(jù)來源于人工填報,在填報過程中對名址的書寫未進行標準化約束,部分信息中的地名不規(guī)范或存在錯別字。測試過程中對比了傳統(tǒng)的SQL語句匹配法、Solr默認分詞搜索方法與改進后的算法,從表2可看出,經(jīng)過改進后的匹配算法準確率最高,正確匹配15241條,匹配成功率達98.43%。243條數(shù)據(jù)無法匹配和錯誤匹配,其中,錯誤匹配87條,占比0.56%,主要是個別地名地址數(shù)據(jù)在錄入階段出現(xiàn)文字錯誤,導(dǎo)致分詞存在歧義,如“大明紙業(yè)有限公司”被錯誤記錄為“大名紙業(yè)有限公司”;無法匹配的數(shù)據(jù)156條,占比1.01%,主要是存在地名數(shù)據(jù)庫中沒有的新地名,說明在現(xiàn)有搜索匹配算法下,制約搜索準確率的主要原因是地名庫中數(shù)據(jù)的豐富程度。在空間匹配精度方面,13704條地名地址能夠?qū)崿F(xiàn)準確定位,1537條數(shù)據(jù)僅能實現(xiàn)大致定位。經(jīng)過具體分析,不能準確定位的數(shù)據(jù)主要集中在農(nóng)村地區(qū),具體原因是大多數(shù)農(nóng)村地址缺乏具體的門牌編號,地址的最小單元一般為自然村或屯,導(dǎo)致定位無法精確到具體空間位置。圖6地理匹配流程Fig.6Geographicalmatchingflowchart朱明等:廣西

【參考文獻】:
期刊論文
[1]基于改進的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 公冶小燕,林培光,任威隆,張晨,張春云.  南京大學(xué)學(xué)報(自然科學(xué)). 2017(06)
[2]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏.  中文信息學(xué)報. 2017(05)
[3]一種基于多特征因子改進的中文文本分類算法[J]. 葉敏,湯世平,牛振東.  中文信息學(xué)報. 2017(04)
[4]基于Lucene的地名管理模型設(shè)計與實現(xiàn)[J]. 徐道柱,焦洋洋,蘇雪梅.  測繪與空間地理信息. 2017(03)
[5]一種改進的Lucene算法及在空間數(shù)據(jù)融合中的應(yīng)用[J]. 陳利燕,林鴻,張新長.  測繪通報. 2016(10)
[6]大規(guī)模地名本體數(shù)據(jù)庫系統(tǒng)的建構(gòu)技術(shù)與方法[J]. 俞敬松,王惠臨,楊潔.  圖書情報工作. 2016(08)
[7]基于IKAnalyzer和Lucene的地理編碼中文搜索引擎的研究與實現(xiàn)[J]. 柴潔.  城市勘測. 2014(06)
[8]基于Lucene和PostGIS的地圖搜索研究[J]. 梁明,羅榮,胡最.  測繪通報. 2014(11)
[9]基于搜索引擎技術(shù)的地名地址定制查詢研究[J]. 鄒崇堯,朱貴方,趙雙明.  測繪通報. 2014(08)
[10]顧及通名語義的漢語地名相似度匹配算法[J]. 程鋼,盧小平.  測繪學(xué)報. 2014(04)



本文編號:3445889

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3445889.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6de4e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com