天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究

發(fā)布時(shí)間:2017-05-01 01:06

  本文關(guān)鍵詞:中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。


【摘要】:為了方便從事專業(yè)農(nóng)業(yè)的相關(guān)研究人員,準(zhǔn)確及時(shí)的獲取相關(guān)信息,為其提供決策依據(jù),加快農(nóng)業(yè)信息化、智能化建設(shè)的趨勢(shì)不可逆轉(zhuǎn)。中文分詞技術(shù)是農(nóng)業(yè)垂直搜索、農(nóng)業(yè)專家系統(tǒng)、農(nóng)業(yè)知識(shí)推送、農(nóng)業(yè)信息檢索、農(nóng)業(yè)數(shù)據(jù)挖掘等方面不可或缺的一個(gè)重要環(huán)節(jié)。通過對(duì)現(xiàn)有的中文分詞方法的研究,切分的準(zhǔn)確率主要取決分詞方法和分詞詞典,因此,本文提出基于粒子群的N最短路徑方法分詞模型,并將其應(yīng)用于農(nóng)業(yè)搜索方面。全文的主要研究結(jié)果如下:(1)基于詞的n元語法模型的分詞方法,針對(duì)該方法是基于詞典的分詞,構(gòu)造出所有的分詞路徑,最后利用相關(guān)的搜索算法,從所有路徑中找到代價(jià)最小的路徑作為最后的分詞結(jié)果,本文所用的搜索算法是改進(jìn)的粒子群算法,主要的改進(jìn)有以下兩點(diǎn)。首先,針對(duì)其收斂精度不高,極易收斂于局部最優(yōu)的問題。引入了一種隨迭代次數(shù)和粒子間距離大小動(dòng)態(tài)改變的慣性權(quán)重,通過設(shè)置比例系數(shù)控制二者對(duì)慣性權(quán)重的影響力度,在此基礎(chǔ)上為了增加種群多樣性,又引入“雜交變異”算子,設(shè)計(jì)了一種基于雜交變異的動(dòng)態(tài)粒子群優(yōu)化算法,通過測(cè)試算法的測(cè)試有效的提高了算法的效率;其次,深入分析后結(jié)合粒子群算法的優(yōu)點(diǎn),利用最優(yōu)粒子和其它粒子在種群中的不同作用,給出了一種自適應(yīng)變異粒子群算法,算法中最優(yōu)粒子根據(jù)種群進(jìn)化程度,自適應(yīng)調(diào)整自身搜索鄰域大小,增強(qiáng)種群的局部搜索能力;對(duì)非最優(yōu)粒子的位置進(jìn)行小概率的隨機(jī)初始化,當(dāng)其速度為零時(shí),速度自適應(yīng)變化,以便增強(qiáng)種群多樣性和全局搜索能力。仿真實(shí)驗(yàn)結(jié)果表明,增強(qiáng)種群多樣性的同時(shí)提高了局部搜索能力。(2)將改進(jìn)的粒子群算法用于分詞算法的最短路徑尋優(yōu),創(chuàng)建基于粒子群的N最短路徑方法分詞模型,并將其用于分詞,實(shí)驗(yàn)結(jié)果表明,在同一核心詞典分詞詞庫下,粒子群N-最短路徑方法相對(duì)于其他算法句子的正確召回率更高,進(jìn)一步分析實(shí)驗(yàn)發(fā)現(xiàn)正確切分率有很大一部分取決于核心詞典。(3)利用Python編程工具,實(shí)現(xiàn)并利用網(wǎng)頁抓取技術(shù),建立了農(nóng)業(yè)專業(yè)領(lǐng)域的真實(shí)語料庫,該語料主要來源于中國知網(wǎng)農(nóng)業(yè)基礎(chǔ)科學(xué)、農(nóng)業(yè)工程、農(nóng)藝學(xué)、植物保護(hù)、農(nóng)作物、園藝、林業(yè)、畜牧與動(dòng)物醫(yī)學(xué)、蠶蜂與野生動(dòng)物保護(hù)、水產(chǎn)和漁業(yè)等專題,共包含694種期刊,近五年的全部文章的題目、關(guān)鍵字以及摘要,一共有968125條記錄;選取真實(shí)語料庫中,694中期刊2014年第一期的所有文章的摘要,共21269條記錄作為分詞標(biāo)準(zhǔn)語料庫,以此為基礎(chǔ)構(gòu)建訓(xùn)練語料庫,以及分詞詞典。(4)利用基于粒子群的N最短路徑方法分詞模型、網(wǎng)頁抓取技術(shù)以及網(wǎng)絡(luò)垂直搜索技術(shù),將中文分詞技術(shù)應(yīng)用于農(nóng)業(yè)專業(yè)領(lǐng)域搜索。設(shè)計(jì)并開發(fā)了關(guān)鍵詞主題垂直搜索的應(yīng)用工具。對(duì)可行性和需求分析之后,并對(duì)涉及到的相關(guān)技術(shù)做了技術(shù)實(shí)現(xiàn),最后成功開發(fā)了搜索工具。
【關(guān)鍵詞】:中文分詞模型 網(wǎng)頁抓取 農(nóng)業(yè)語料庫 農(nóng)業(yè)專業(yè)詞典 農(nóng)業(yè)垂直搜索
【學(xué)位授予單位】:四川農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-10
  • 1 緒論10-18
  • 1.1 立題背景及研究意義10-11
  • 1.1.1 立題背景10-11
  • 1.1.2 研究意義11
  • 1.2 國內(nèi)外研究現(xiàn)狀11-15
  • 1.2.1 中文分詞技術(shù)11-12
  • 1.2.2 中文分詞技術(shù)發(fā)展現(xiàn)狀12-13
  • 1.2.3 中文分詞方法發(fā)展現(xiàn)狀13-15
  • 1.2.4 中文分詞在農(nóng)業(yè)中的應(yīng)用現(xiàn)狀15
  • 1.3 研究內(nèi)容及結(jié)構(gòu)安排15-18
  • 1.3.1 研究內(nèi)容15-16
  • 1.3.2 論文結(jié)構(gòu)安排16-18
  • 2 中文分詞18-22
  • 2.1 中文分詞的數(shù)學(xué)描述18-20
  • 2.2 基于詞的n元語法模型的分詞方法20-21
  • 2.3 NLPIR漢語分詞系統(tǒng)21-22
  • 3 基于改進(jìn)粒子群算法優(yōu)化的中文分詞方法研究22-43
  • 3.1 標(biāo)準(zhǔn)粒子群算法22
  • 3.1.1 算法原理22
  • 3.2 雜交變異粒子群算法22-25
  • 3.2.1 數(shù)值實(shí)驗(yàn)及結(jié)果23-25
  • 3.3 自適應(yīng)變異粒子群算法25-35
  • 3.3.1 算法變異策略分析26-28
  • 3.3.2 改進(jìn)算法流程28
  • 3.3.3 數(shù)值試驗(yàn)及對(duì)比分析28-35
  • 3.4 基于粒子群算法優(yōu)化的中文分詞模型35-42
  • 3.4.1 模型分析36-37
  • 3.4.2 一元語法模型的求解與實(shí)現(xiàn)37-38
  • 3.4.3 分詞算法實(shí)驗(yàn)及結(jié)果分析38-39
  • 3.4.4 與常用方法的對(duì)比分析39-42
  • 3.5 本章小結(jié)42-43
  • 4 農(nóng)業(yè)領(lǐng)域中文分詞語料庫以及詞典的建立43-54
  • 4.1 網(wǎng)頁抓取技術(shù)43-46
  • 4.1.1 網(wǎng)頁抓取解析過程43-44
  • 4.1.2 網(wǎng)頁抓取實(shí)例44-46
  • 4.2 建立語料庫及詞典46-53
  • 4.2.1 農(nóng)業(yè)專業(yè)語料抓取46-49
  • 4.2.2 建立農(nóng)業(yè)專業(yè)語料庫及詞典49-53
  • 4.3 本章小結(jié)53-54
  • 5 中文分詞技術(shù)的農(nóng)業(yè)領(lǐng)域中的應(yīng)用54-61
  • 5.1 農(nóng)業(yè)專業(yè)領(lǐng)域網(wǎng)絡(luò)垂直檢索54-55
  • 5.1.1 可行性研究54-55
  • 5.1.2 需求分析55
  • 5.2 信息采集模塊的設(shè)計(jì)與實(shí)現(xiàn)55-60
  • 5.2.1 關(guān)鍵詞主題網(wǎng)絡(luò)檢索及抓取55-56
  • 5.2.2 基于搜索引擎的相關(guān)性分析實(shí)現(xiàn)56-58
  • 5.2.3 搜索工具的測(cè)試與分析58-60
  • 5.3 本章總結(jié)60-61
  • 6 結(jié)論與展望61-63
  • 6.1 結(jié)論61-62
  • 6.2 展望62-63
  • 參考文獻(xiàn)63-66
  • 致謝66-67
  • 攻讀學(xué)位期間取得的研究結(jié)果67

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張江;基于規(guī)則的分詞方法[J];計(jì)算機(jī)與現(xiàn)代化;2005年04期

2 楊柳;袁方;霍亮;;基于漸進(jìn)式豐富詞典的分詞方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年32期

3 彭正龍;許炎義;;一種新的詞典分詞方法[J];計(jì)算機(jī)與信息技術(shù);2009年12期

4 傅賽香,袁鼎榮,黃柏雄,鐘智;基于統(tǒng)計(jì)的無詞典分詞方法[J];廣西科學(xué)院學(xué)報(bào);2002年04期

5 張聰品;趙理莉;吳長茂;;基于字詞分類的層次分詞方法[J];計(jì)算機(jī)應(yīng)用;2010年08期

6 趙曾貽,陳天娥,朱蘭;一種基于語詞的分詞方法[J];蘇州大學(xué)學(xué)報(bào)(自然科學(xué));2002年03期

7 李斌;陳小荷;;面向中文陌生文本的人機(jī)交互式分詞方法[J];中文信息學(xué)報(bào);2007年03期

8 高軍,陳錫先;無監(jiān)督的動(dòng)態(tài)分詞方法[J];北京郵電大學(xué)學(xué)報(bào);1997年04期

9 陳平;劉曉霞;李亞軍;;基于字典和統(tǒng)計(jì)的分詞方法[J];計(jì)算機(jī)工程與應(yīng)用;2008年10期

10 王忠建;王悅;;歸納學(xué)習(xí)與規(guī)則結(jié)合的分詞方法的有效性考察[J];哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào);2010年01期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前5條

1 陳曉;靳光瑾;黃昌寧;;基于字的分詞方法的實(shí)驗(yàn)研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

2 王俞霖;孫樂;李文波;;基于單字消除和實(shí)體識(shí)別的查詢切分研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

3 張玉連;張敏;張波;;一種無詞典分詞方法的分析與研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

4 李斌;陳小荷;;面向中文陌生文本的人機(jī)交互式分詞方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

5 趙偉;路永剛;吳瓊;;一種新的基于BMM和RMM分詞方法的研究與實(shí)現(xiàn)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 游治勇;基于字的分詞方法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

2 周利軍;中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究[D];四川農(nóng)業(yè)大學(xué);2015年

3 李衛(wèi)紅;一種新的并發(fā)分詞算法的研究與實(shí)現(xiàn)[D];山東大學(xué);2005年

4 劉浩;面向情感搜索的中文語料分析及其分詞[D];北京郵電大學(xué);2014年

5 田占霄;中英文混合分詞方法及應(yīng)用研究[D];河北農(nóng)業(yè)大學(xué);2009年


  本文關(guān)鍵詞:中文分詞方法在農(nóng)業(yè)搜索中的應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):337928

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/337928.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶256e8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com