網站簡約本體垂直搜索系統(tǒng)的設計與實現(xiàn)
本文選題:本體庫 切入點:垂直搜索引擎 出處:《計算機工程與應用》2017年19期 論文類型:期刊論文
【摘要】:針對單個網站構建本體庫垂直搜索引擎的過程中,敘詞及其間邏輯關系等收集整理所耗人力成本高,導致該技術框架雖成熟,而大多網站搜索功能仍以字符匹配為主,缺乏分詞、查詢擴展及結果的相關度排序,很難準確命中相關查詢內容等問題,設計并開發(fā)了一套基于網站簡約本體庫的垂直搜索系統(tǒng)。該系統(tǒng)以中國氣象數(shù)據(jù)網(http://data.cma.cn)為例,利用protégé根據(jù)網站的導航目錄,構建了中國氣象數(shù)據(jù)網的本體庫,基于Lucene引擎構建技術框架,對本體庫中的對象及網頁內容分別進行分詞,并構建本體對象索引庫及網頁索引庫;前端對查詢內容分詞后,先在本體對象索引庫中進行擴展,利用TF-IDF相關度算法計算擴展結果的相關度并排序,該值作為各擴展本體對象的權值,并將各自的權值動態(tài)賦給利用Jena二次語義分析技術擴展的對象,最后將所有帶有權值的關鍵詞在網頁索引庫中查詢檢索,計算結果相關度并排序。實驗結果表明,該系統(tǒng)構建簡便,能為用戶擴展、推薦相關查詢內容,提高了針對網站檢索的查準率及查全率。
[Abstract]:In the process of constructing a vertical search engine of ontology database for a single website, the human cost of collecting and arranging the thesaurus and its logical relationship is high, which leads to the maturity of the technical framework, while most of the search functions of the website are still based on character matching. This paper designs and develops a vertical search system based on the simple ontology library of website, which is lack of participle, query expansion and the ranking of the correlation degree of results, and it is very difficult to hit the relevant query content accurately. The system takes http: / / / data.cma.cn. cn. as an example. The ontology database of China Meteorological data Network is constructed by using prot 茅 g 茅 according to the navigation directory of the website. Based on the technical framework of Lucene engine, the objects and web pages in the ontology database are partitioned, and the ontology object index database and the web page index library are constructed. After segmenting the query content, the first extension is carried out in the ontology object index database, and the correlation degree of the extended result is calculated and sorted by using the TF-IDF correlation algorithm, which is regarded as the weight value of each extended ontology object. The weights are dynamically assigned to the objects extended by the Jena quadratic semantic analysis technology. Finally, all the keywords with weights are searched in the index database of the web pages, and the correlation of the results is calculated and sorted. The experimental results show that, The system is easy to build, can be extended for users, recommends related query content, and improves the precision and recall rate for website retrieval.
【作者單位】: 國家氣象信息中心資料服務室;中國農業(yè)科學院植物保護研究所;列日大學生物技術學院;
【基金】:公益性行業(yè)(氣象)科研專項(重大專項)(No.GYHY(QX)20150600-7) 第五屆青年科技基金(No.NMICQJ201604)
【分類號】:TP391.3;TP393.092
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 盧敏;;垂直搜索——我專故我在[J];軟件世界;2006年23期
2 陳誠;;基于云計算的智慧城市垂直搜索技術研究[J];軟件產業(yè)與工程;2012年04期
3 白駿驕;;垂直搜索更貼近需求或引領搜索市場發(fā)展方向[J];世界電信;2013年05期
4 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期
5 劉策;;垂直搜索——電子商務領域的新秀[J];軟件導刊;2006年11期
6 吳偉忠;崔建英;;基于時效性的垂直搜索及其應用[J];暨南大學學報(自然科學版);2007年03期
7 蔡恩澤;;垂直搜索的精細化功夫[J];互聯(lián)網天地;2008年08期
8 蔡恩澤;;垂直搜索的精細化功夫[J];微電腦世界;2008年09期
9 周作濤;;垂直搜索在電子商務中的應用分析[J];陜西理工學院學報(自然科學版);2008年03期
10 章立;陳蜀宇;;一種針對商品價格進行實時垂直搜索的方法[J];重慶工學院學報(自然科學版);2008年10期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 周明;劉曉華;蔣龍;Matt Scott;;利用網絡挖掘技術建立英語學習平臺[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
2 劉源;詹舒波;;基于Solr的行業(yè)垂直搜索平臺的研究[A];2008通信理論與技術新進展——第十三屆全國青年通信學術會議論文集(上)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 殷林;“垂直搜索”將成就電子商務新天地[N];中國商報;2007年
2 本報記者 林莉君;B2B商業(yè)搜索:垂直搜索是否迎來新拐點[N];科技日報;2011年
3 本報記者 劉燕;羽量級歐朋瀏覽器8.0的克制和低調[N];科技日報;2013年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 管虎;普適環(huán)境下輕量級垂直搜索中數(shù)據(jù)挖掘理論研究[D];上海交通大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 梅良;基于特定領域對象級垂直搜索中的對象抽取問題的研究[D];電子科技大學;2015年
2 肖劍;垂直搜索中一種高效穩(wěn)定的數(shù)據(jù)抓取方法的研究與實現(xiàn)[D];南京大學;2014年
3 況雄劍;個性化時政信息搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2015年
4 費華輝;基于MongoDB的旅游垂直搜索系統(tǒng)的設計與實現(xiàn)[D];華中科技大學;2014年
5 呂昊;面向垂直搜索的聚焦爬蟲研究及應用[D];浙江大學;2008年
6 易平;生活服務行業(yè)垂直搜索的設計與實現(xiàn)[D];暨南大學;2010年
7 宋國;面向分布式數(shù)據(jù)源的語義垂直搜索系統(tǒng)研究與實現(xiàn)[D];哈爾濱工業(yè)大學;2013年
8 劉金亮;汽車行業(yè)垂直搜索系統(tǒng)原型的設計與關鍵模塊的實現(xiàn)[D];北京郵電大學;2008年
9 史磊峰;移動垂直搜索系統(tǒng)的研究[D];北京交通大學;2010年
10 雷洪;一個垂直搜索系統(tǒng)的設計與實現(xiàn)[D];中山大學;2012年
,本文編號:1589561
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1589561.html