天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究

發(fā)布時(shí)間:2017-09-21 17:07

  本文關(guān)鍵詞:農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究


  更多相關(guān)文章: 農(nóng)業(yè)垂直搜索引擎 Web信息抽取 K-means層次聚類算法 信息可視化


【摘要】:隨著我國農(nóng)業(yè)信息化進(jìn)程的快速推進(jìn),越來越多的農(nóng)業(yè)用戶希望能夠快速且有效地找到自己所需要的農(nóng)業(yè)信息。通用搜索引擎無法滿足農(nóng)業(yè)用戶在信息檢索時(shí)對查準(zhǔn)率的要求,現(xiàn)有的農(nóng)業(yè)搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵字為用戶提供檢索結(jié)果,然而由于自然語言中的詞語往往存在二義性,用戶所輸入的檢索詞概念相對模糊,導(dǎo)致搜索結(jié)果范圍相對分散,用戶需要花費(fèi)一定時(shí)間才能找到自己真正感興趣的主題。針對這些問題,本文以萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)上的農(nóng)業(yè)科技類期刊為信息源,在本實(shí)驗(yàn)室研究的旱區(qū)農(nóng)業(yè)垂直搜索引擎的基礎(chǔ)上對檢索結(jié)果進(jìn)行改進(jìn)和增強(qiáng),主要完成了以下工作:(1)農(nóng)業(yè)領(lǐng)域概念獲取方法研究。本文基于Web農(nóng)業(yè)文獻(xiàn)資源,通過數(shù)據(jù)抽取、中文分詞、數(shù)據(jù)清洗技術(shù)獲得候選領(lǐng)域概念。實(shí)驗(yàn)表明,使用基于包裝器的信息抽取方法查準(zhǔn)率保持在95%以上,信息抽取F-指標(biāo)保持在85%左右,采用失敗重試機(jī)制后,抽取成功率提高了9%;同時(shí)使用本章改進(jìn)的正向最大匹配分詞方法提高了農(nóng)業(yè)詞語的正確識(shí)別率,能夠達(dá)到87.03%。(2)農(nóng)業(yè)文本信息可視化模型研究。首先參考信息可視化模型,構(gòu)建出農(nóng)業(yè)文本信息的可視化模型,包括信息實(shí)體、信息實(shí)體間的關(guān)聯(lián)和信息實(shí)體網(wǎng)絡(luò)結(jié)構(gòu)三個(gè)主體要素;其次通過可視化數(shù)據(jù)預(yù)處理、Web數(shù)據(jù)挖掘相關(guān)技術(shù)獲取到信息實(shí)體及實(shí)體間的關(guān)聯(lián)關(guān)系;最后利用基于Java的Prefuse插件包完成信息的可視化顯示。實(shí)驗(yàn)表明,與原始的凝聚層次聚類算法相比,本文改進(jìn)的文本聚類算法提高了概念間關(guān)系聚類效果的同時(shí)降低了聚類總耗時(shí),F度量平均值由原來的0.675提升至0.751,算法平均運(yùn)行時(shí)間由原來的52.893s縮短至16.342s。(3)構(gòu)建農(nóng)業(yè)文本信息檢索可視化平臺(tái)。采用面向?qū)ο缶幊谭椒ㄔO(shè)計(jì)并實(shí)現(xiàn)了農(nóng)業(yè)文本信息檢索可視化平臺(tái),實(shí)現(xiàn)了動(dòng)態(tài)獲取農(nóng)業(yè)領(lǐng)域概念、農(nóng)業(yè)文本信息檢索及檢索結(jié)果可視化等功能,優(yōu)化檢索過程、減少用戶的檢索時(shí)間。經(jīng)過系統(tǒng)測試表明,該平臺(tái)具有良好的可用性、達(dá)到了設(shè)計(jì)的預(yù)期目標(biāo)。
【關(guān)鍵詞】:農(nóng)業(yè)垂直搜索引擎 Web信息抽取 K-means層次聚類算法 信息可視化
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第一章 緒論10-14
  • 1.1 研究目的與意義10
  • 1.2 國內(nèi)外研究現(xiàn)狀10-12
  • 1.3 研究的主要內(nèi)容12-13
  • 1.4 論文的組織結(jié)構(gòu)13-14
  • 第二章 相關(guān)理論與技術(shù)概況14-22
  • 2.1 垂直搜索引擎14-18
  • 2.1.1 垂直搜索引擎的系統(tǒng)架構(gòu)14
  • 2.1.2 垂直搜索引擎的關(guān)鍵技術(shù)14-18
  • 2.2 信息可視化技術(shù)18-21
  • 2.2.1 信息可視化的參考模型18-19
  • 2.2.2 信息可視化技術(shù)分類19-20
  • 2.2.3 信息可視化平臺(tái)與開發(fā)工具20-21
  • 2.3 本章小結(jié)21-22
  • 第三章 農(nóng)業(yè)領(lǐng)域概念動(dòng)態(tài)獲取22-31
  • 3.1 信息抽取技術(shù)22-26
  • 3.1.1 基于包裝器的信息抽取方法22-23
  • 3.1.2 基于XML文件的失敗重試機(jī)制23-26
  • 3.2 獲取領(lǐng)域概念26-29
  • 3.2.1 中文分詞26-28
  • 3.2.2 數(shù)據(jù)清洗28-29
  • 3.3 性能測試與結(jié)果分析29-30
  • 3.3.1 Web信息抽取性能測試29-30
  • 3.3.2 中文分詞性能測試30
  • 3.4 本章小結(jié)30-31
  • 第四章 農(nóng)業(yè)文本信息可視化模型31-43
  • 4.1 農(nóng)業(yè)文本信息可視化模型框架31
  • 4.2 可視化數(shù)據(jù)預(yù)處理31-35
  • 4.2.1 關(guān)聯(lián)分析技術(shù)32-33
  • 4.2.2 聚類分析技術(shù)33-35
  • 4.3 可視化實(shí)現(xiàn)35-38
  • 4.4 性能評(píng)價(jià)與結(jié)果分析38-42
  • 4.4.1 數(shù)據(jù)預(yù)處理性能測試38-40
  • 4.4.2 可視化概念檢索測試40-42
  • 4.5 本章小結(jié)42-43
  • 第五章 農(nóng)業(yè)文本信息檢索可視化平臺(tái)43-49
  • 5.1 系統(tǒng)設(shè)計(jì)43-44
  • 5.1.1 系統(tǒng)結(jié)構(gòu)43-44
  • 5.1.2 系統(tǒng)功能44
  • 5.2 系統(tǒng)測試及分析44-48
  • 5.2.1 系統(tǒng)測試44-47
  • 5.2.2 系統(tǒng)評(píng)價(jià)47-48
  • 5.3 本章小結(jié)48-49
  • 第六章 總結(jié)與展望49-51
  • 6.1 總結(jié)49
  • 6.2 展望49-51
  • 參考文獻(xiàn)51-54
  • 致謝54-55
  • 作者簡介55

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 王超;李書琴;肖紅;;基于文獻(xiàn)的農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年08期

2 王曉琴;李書琴;景旭;王蒙;;基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年06期

3 周俊;鄭中華;張煒;;基于改進(jìn)最大匹配算法的中文分詞粗分方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期

4 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期

5 王超;李書琴;肖紅;;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[J];農(nóng)機(jī)化研究;2013年08期

6 馮碩;李書琴;楊會(huì)君;;基于Web挖掘的化學(xué)物質(zhì)信息提取應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年08期

7 肖明;栗文超;夏秋菊;;基于Prefuse和層次聚類的信息檢索主題知識(shí)圖譜研究[J];現(xiàn)代圖書情報(bào)技術(shù);2012年04期

8 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期

9 趙華軍;鐘才明;李文;王睿智;苗奪謙;;網(wǎng)頁搜索結(jié)果聚類與可視化[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期

10 彭玉容;楊捧;高媛;;農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究[J];安徽農(nóng)業(yè)科學(xué);2010年20期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 吳佳鑫;Web環(huán)境下信息可視化模型研究[D];武漢大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王超;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[D];西北農(nóng)林科技大學(xué);2013年

2 肖紅;農(nóng)業(yè)科技信息服務(wù)個(gè)性化推送模型與系統(tǒng)[D];西北農(nóng)林科技大學(xué);2013年

3 馮穎;醫(yī)學(xué)本體融合與可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年

4 林冬盛;中文分詞算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2011年

5 于洪波;中文網(wǎng)頁自動(dòng)采集與分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年

6 張陽;農(nóng)業(yè)搜索可視化平臺(tái)的研究[D];中國科學(xué)技術(shù)大學(xué);2010年

7 崔金國;基于蟻群算法的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];成都理工大學(xué);2010年

8 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

9 李知穎;基于包裝器模型的信息抽取算法研究[D];東北師范大學(xué);2009年

10 陳穎;基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)[D];黑龍江大學(xué);2007年



本文編號(hào):895795

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/895795.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5b2a3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com