天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向特定域智能問(wèn)答系統(tǒng)的研究與應(yīng)用

發(fā)布時(shí)間:2021-10-26 21:26
  在互聯(lián)網(wǎng)時(shí)代,搜索引擎成為人們獲取信息的主要方式。人們只需要輸入想查閱的關(guān)鍵詞,搜索引擎即可返回相關(guān)的網(wǎng)頁(yè)。然而,搜索引擎也有一些不足,比如關(guān)聯(lián)頁(yè)面多、內(nèi)容繁瑣等。因此,需要一種更為簡(jiǎn)單高效的獲取信息的方式,故問(wèn)答系統(tǒng)應(yīng)運(yùn)而生。面對(duì)網(wǎng)絡(luò)的海量信息,特定域問(wèn)答系統(tǒng)因其可行性高和用途廣泛而備受關(guān)注。本文致力于面向特定域智能問(wèn)答系統(tǒng)的研究,主要研究?jī)?nèi)容分為以下三個(gè)部分。(1)針對(duì)特定域的知識(shí)庫(kù)自動(dòng)構(gòu)建方法。首先提出一種基于SVM及文本密度的網(wǎng)頁(yè)信息提取方法,通過(guò)該方法可以有效定位網(wǎng)頁(yè)正文信息并自動(dòng)爬取;其次提出了一種文本主題劃分及TextRank中心句提取的方法,該方法會(huì)自動(dòng)對(duì)文本主題的中心句進(jìn)行提取,并將中心句作為問(wèn)答信息存儲(chǔ)到知識(shí)庫(kù)中;本文提出的知識(shí)庫(kù)自動(dòng)構(gòu)建方法在實(shí)驗(yàn)和實(shí)際應(yīng)用中都取得了良好的效果。(2)基于特定域的知識(shí)庫(kù)檢索的智能問(wèn)答。采用布爾倒排序索引法從知識(shí)庫(kù)過(guò)濾出候選回復(fù)集,然后使用相似度算法對(duì)候選回復(fù)集進(jìn)行精確篩選得到最佳回復(fù)并返還給用戶(hù);本文提出了一種基于詞向量及位置編碼的Jaccard的相似度算法,實(shí)驗(yàn)結(jié)果表明,該方法不僅有較高的準(zhǔn)確率,而且對(duì)詞序有較好的辨識(shí)能力。(3)... 

【文章來(lái)源】:青島科技大學(xué)山東省

【文章頁(yè)數(shù)】:78 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向特定域智能問(wèn)答系統(tǒng)的研究與應(yīng)用


論文結(jié)構(gòu)框架

流程圖,正文,流程圖,模型


青島科技大學(xué)研究生學(xué)位論文13(1)先對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理并生成DOM樹(shù)。(2)遍歷DOM樹(shù)獲得文本塊并加入到隊(duì)列中。(3)利用特征提取器對(duì)每個(gè)文本塊進(jìn)行密度特征提齲(4)將文本塊密度特征輸入到SVM數(shù)據(jù)模型中,返回相應(yīng)結(jié)果R。(5)保存R>0的文本塊(R為結(jié)果值,R<0:噪音塊,R>0:正文塊)。根據(jù)上述方法,得到正文塊的具體步驟如圖2-1所示:圖2-1正文塊分類(lèi)模型流程圖Figure2-1Flowchartoftextblockclassificationmodel2.1.3正文塊內(nèi)降噪經(jīng)過(guò)上述步驟處理之后,就可以獲得正文塊。但正文塊中仍有一些需要去除的噪聲信息。研究分析發(fā)現(xiàn)塊內(nèi)噪音一般存在以下特點(diǎn):(1)噪音信息不會(huì)太長(zhǎng),通常只有幾個(gè)詞,而且不包含標(biāo)點(diǎn)符號(hào)信息。(2)它通常存在于正文塊的頭部或尾部,并且不會(huì)出現(xiàn)在混淆文本內(nèi)容的段落。

流程圖,正文,流程圖,中心句


青島科技大學(xué)研究生學(xué)位論文15圖2-2正文段落分類(lèi)模型流程圖Figure2-2Flowchartofbodyparagraphclassificationmodel根據(jù)上述步驟處理后得到的正文段落的純度比較高,可以很大程度上滿(mǎn)足特定域知識(shí)庫(kù)對(duì)數(shù)據(jù)純度的要求,并為開(kāi)展下一步工作提供了很大的幫助。2.2文本中心句抽取方法根據(jù)用戶(hù)調(diào)查發(fā)現(xiàn),用戶(hù)更加容易接受簡(jiǎn)短明了的信息,長(zhǎng)篇的敘述會(huì)影響用戶(hù)的體驗(yàn)度。爬取后的文本內(nèi)容因涉及主題多,信息內(nèi)容繁雜,因此無(wú)法直接作為答案返給用戶(hù)。因此本章提出一種文本主題劃分與TextRank中心句抽取的方法,先將文本段落劃分主題,然后對(duì)不同主題進(jìn)行提取中心句,中心句是當(dāng)前主題的精華所在,一定程度上代表主題思想,這樣可以精簡(jiǎn)文章內(nèi)容,從而達(dá)到簡(jiǎn)化答案,提高問(wèn)答系統(tǒng)回復(fù)質(zhì)量的效果。2.2.1詞向量模型Mikolo等人[67]在2013年提出CBOW和Skip-gram兩種模型。同時(shí)也成為

【參考文獻(xiàn)】:
期刊論文
[1]一種基于SVM及文本密度特征的網(wǎng)頁(yè)信息提取方法[J]. 周艷平,李金鵬,宋群豹.  計(jì)算機(jī)應(yīng)用與軟件. 2019(10)
[2]基于同義詞詞林的句子語(yǔ)義相似度方法及其在問(wèn)答系統(tǒng)中的應(yīng)用[J]. 周艷平,李金鵬,蔡素.  計(jì)算機(jī)應(yīng)用與軟件. 2019(08)
[3]基于深度學(xué)習(xí)的開(kāi)放領(lǐng)域?qū)υ?huà)系統(tǒng)研究綜述[J]. 陳晨,朱晴晴,嚴(yán)睿,柳軍飛.  計(jì)算機(jī)學(xué)報(bào). 2019(07)
[4]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平.  計(jì)算機(jī)科學(xué). 2018(07)
[5]基于結(jié)構(gòu)相似網(wǎng)頁(yè)聚類(lèi)的正文提取算法研究[J]. 王海涌,馮兆旭,楊海波,張津棟.  計(jì)算機(jī)工程與應(yīng)用. 2018(11)
[6]基于知識(shí)圖譜的智能客服系統(tǒng)研究[J]. 饒竹一,張?jiān)葡?  電力信息與通信技術(shù). 2017(07)
[7]基于Web的問(wèn)答系統(tǒng)綜述[J]. 李舟軍,李水華.  計(jì)算機(jī)科學(xué). 2017(06)
[8]中文短文本語(yǔ)法語(yǔ)義相似度算法[J]. 廖志芳,周?chē)?guó)恩,李俊鋒,劉飛,蔡飛.  湖南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[9]基于語(yǔ)義關(guān)聯(lián)的文本分類(lèi)研究[J]. 張浩,謝飛.  合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
[10]多主題文本摘要抽取的研究與實(shí)現(xiàn)[J]. 廖濤,劉宗田,王利.  計(jì)算機(jī)工程. 2011(06)

碩士論文
[1]限定域問(wèn)答系統(tǒng)自動(dòng)建庫(kù)及檢索研究與系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)[D]. 李倩倩.哈爾濱工業(yè)大學(xué) 2017



本文編號(hào):3460220

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3460220.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)055d8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com