農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究
本文關(guān)鍵詞:農(nóng)業(yè)文本信息檢索可視化平臺(tái)研究
更多相關(guān)文章: 農(nóng)業(yè)垂直搜索引擎 Web信息抽取 K-means層次聚類算法 信息可視化
【摘要】:隨著我國農(nóng)業(yè)信息化進(jìn)程的快速推進(jìn),越來越多的農(nóng)業(yè)用戶希望能夠快速且有效地找到自己所需要的農(nóng)業(yè)信息。通用搜索引擎無法滿足農(nóng)業(yè)用戶在信息檢索時(shí)對查準(zhǔn)率的要求,現(xiàn)有的農(nóng)業(yè)搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵字為用戶提供檢索結(jié)果,然而由于自然語言中的詞語往往存在二義性,用戶所輸入的檢索詞概念相對模糊,導(dǎo)致搜索結(jié)果范圍相對分散,用戶需要花費(fèi)一定時(shí)間才能找到自己真正感興趣的主題。針對這些問題,本文以萬方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)上的農(nóng)業(yè)科技類期刊為信息源,在本實(shí)驗(yàn)室研究的旱區(qū)農(nóng)業(yè)垂直搜索引擎的基礎(chǔ)上對檢索結(jié)果進(jìn)行改進(jìn)和增強(qiáng),主要完成了以下工作:(1)農(nóng)業(yè)領(lǐng)域概念獲取方法研究。本文基于Web農(nóng)業(yè)文獻(xiàn)資源,通過數(shù)據(jù)抽取、中文分詞、數(shù)據(jù)清洗技術(shù)獲得候選領(lǐng)域概念。實(shí)驗(yàn)表明,使用基于包裝器的信息抽取方法查準(zhǔn)率保持在95%以上,信息抽取F-指標(biāo)保持在85%左右,采用失敗重試機(jī)制后,抽取成功率提高了9%;同時(shí)使用本章改進(jìn)的正向最大匹配分詞方法提高了農(nóng)業(yè)詞語的正確識(shí)別率,能夠達(dá)到87.03%。(2)農(nóng)業(yè)文本信息可視化模型研究。首先參考信息可視化模型,構(gòu)建出農(nóng)業(yè)文本信息的可視化模型,包括信息實(shí)體、信息實(shí)體間的關(guān)聯(lián)和信息實(shí)體網(wǎng)絡(luò)結(jié)構(gòu)三個(gè)主體要素;其次通過可視化數(shù)據(jù)預(yù)處理、Web數(shù)據(jù)挖掘相關(guān)技術(shù)獲取到信息實(shí)體及實(shí)體間的關(guān)聯(lián)關(guān)系;最后利用基于Java的Prefuse插件包完成信息的可視化顯示。實(shí)驗(yàn)表明,與原始的凝聚層次聚類算法相比,本文改進(jìn)的文本聚類算法提高了概念間關(guān)系聚類效果的同時(shí)降低了聚類總耗時(shí),F度量平均值由原來的0.675提升至0.751,算法平均運(yùn)行時(shí)間由原來的52.893s縮短至16.342s。(3)構(gòu)建農(nóng)業(yè)文本信息檢索可視化平臺(tái)。采用面向?qū)ο缶幊谭椒ㄔO(shè)計(jì)并實(shí)現(xiàn)了農(nóng)業(yè)文本信息檢索可視化平臺(tái),實(shí)現(xiàn)了動(dòng)態(tài)獲取農(nóng)業(yè)領(lǐng)域概念、農(nóng)業(yè)文本信息檢索及檢索結(jié)果可視化等功能,優(yōu)化檢索過程、減少用戶的檢索時(shí)間。經(jīng)過系統(tǒng)測試表明,該平臺(tái)具有良好的可用性、達(dá)到了設(shè)計(jì)的預(yù)期目標(biāo)。
【關(guān)鍵詞】:農(nóng)業(yè)垂直搜索引擎 Web信息抽取 K-means層次聚類算法 信息可視化
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-14
- 1.1 研究目的與意義10
- 1.2 國內(nèi)外研究現(xiàn)狀10-12
- 1.3 研究的主要內(nèi)容12-13
- 1.4 論文的組織結(jié)構(gòu)13-14
- 第二章 相關(guān)理論與技術(shù)概況14-22
- 2.1 垂直搜索引擎14-18
- 2.1.1 垂直搜索引擎的系統(tǒng)架構(gòu)14
- 2.1.2 垂直搜索引擎的關(guān)鍵技術(shù)14-18
- 2.2 信息可視化技術(shù)18-21
- 2.2.1 信息可視化的參考模型18-19
- 2.2.2 信息可視化技術(shù)分類19-20
- 2.2.3 信息可視化平臺(tái)與開發(fā)工具20-21
- 2.3 本章小結(jié)21-22
- 第三章 農(nóng)業(yè)領(lǐng)域概念動(dòng)態(tài)獲取22-31
- 3.1 信息抽取技術(shù)22-26
- 3.1.1 基于包裝器的信息抽取方法22-23
- 3.1.2 基于XML文件的失敗重試機(jī)制23-26
- 3.2 獲取領(lǐng)域概念26-29
- 3.2.1 中文分詞26-28
- 3.2.2 數(shù)據(jù)清洗28-29
- 3.3 性能測試與結(jié)果分析29-30
- 3.3.1 Web信息抽取性能測試29-30
- 3.3.2 中文分詞性能測試30
- 3.4 本章小結(jié)30-31
- 第四章 農(nóng)業(yè)文本信息可視化模型31-43
- 4.1 農(nóng)業(yè)文本信息可視化模型框架31
- 4.2 可視化數(shù)據(jù)預(yù)處理31-35
- 4.2.1 關(guān)聯(lián)分析技術(shù)32-33
- 4.2.2 聚類分析技術(shù)33-35
- 4.3 可視化實(shí)現(xiàn)35-38
- 4.4 性能評(píng)價(jià)與結(jié)果分析38-42
- 4.4.1 數(shù)據(jù)預(yù)處理性能測試38-40
- 4.4.2 可視化概念檢索測試40-42
- 4.5 本章小結(jié)42-43
- 第五章 農(nóng)業(yè)文本信息檢索可視化平臺(tái)43-49
- 5.1 系統(tǒng)設(shè)計(jì)43-44
- 5.1.1 系統(tǒng)結(jié)構(gòu)43-44
- 5.1.2 系統(tǒng)功能44
- 5.2 系統(tǒng)測試及分析44-48
- 5.2.1 系統(tǒng)測試44-47
- 5.2.2 系統(tǒng)評(píng)價(jià)47-48
- 5.3 本章小結(jié)48-49
- 第六章 總結(jié)與展望49-51
- 6.1 總結(jié)49
- 6.2 展望49-51
- 參考文獻(xiàn)51-54
- 致謝54-55
- 作者簡介55
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 王超;李書琴;肖紅;;基于文獻(xiàn)的農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年08期
2 王曉琴;李書琴;景旭;王蒙;;基于Nutch的農(nóng)業(yè)垂直搜索引擎研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年06期
3 周俊;鄭中華;張煒;;基于改進(jìn)最大匹配算法的中文分詞粗分方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年02期
4 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
5 王超;李書琴;肖紅;;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[J];農(nóng)機(jī)化研究;2013年08期
6 馮碩;李書琴;楊會(huì)君;;基于Web挖掘的化學(xué)物質(zhì)信息提取應(yīng)用研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年08期
7 肖明;栗文超;夏秋菊;;基于Prefuse和層次聚類的信息檢索主題知識(shí)圖譜研究[J];現(xiàn)代圖書情報(bào)技術(shù);2012年04期
8 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期
9 趙華軍;鐘才明;李文;王睿智;苗奪謙;;網(wǎng)頁搜索結(jié)果聚類與可視化[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年05期
10 彭玉容;楊捧;高媛;;農(nóng)業(yè)搜索引擎的發(fā)展現(xiàn)狀及關(guān)鍵技術(shù)研究[J];安徽農(nóng)業(yè)科學(xué);2010年20期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 吳佳鑫;Web環(huán)境下信息可視化模型研究[D];武漢大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王超;基于本體的旱區(qū)農(nóng)業(yè)垂直搜索引擎研究[D];西北農(nóng)林科技大學(xué);2013年
2 肖紅;農(nóng)業(yè)科技信息服務(wù)個(gè)性化推送模型與系統(tǒng)[D];西北農(nóng)林科技大學(xué);2013年
3 馮穎;醫(yī)學(xué)本體融合與可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2012年
4 林冬盛;中文分詞算法的研究與實(shí)現(xiàn)[D];西北大學(xué);2011年
5 于洪波;中文網(wǎng)頁自動(dòng)采集與分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
6 張陽;農(nóng)業(yè)搜索可視化平臺(tái)的研究[D];中國科學(xué)技術(shù)大學(xué);2010年
7 崔金國;基于蟻群算法的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];成都理工大學(xué);2010年
8 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
9 李知穎;基于包裝器模型的信息抽取算法研究[D];東北師范大學(xué);2009年
10 陳穎;基于摘要信息的中文信息檢索可視化系統(tǒng)研究與實(shí)現(xiàn)[D];黑龍江大學(xué);2007年
,本文編號(hào):895795
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/895795.html