【摘要】:在電腦普及、信息爆炸的現(xiàn)代社會,網(wǎng)絡(luò)已經(jīng)成為主流咨詢媒介。目前,高校大學(xué)生學(xué)習(xí)、生活、娛樂之類的咨詢主要通過現(xiàn)場、電話咨詢和網(wǎng)絡(luò)咨詢等方式,而涉及到的這些問題往往具有離散、量大、重復(fù)、時(shí)間跨度長等特點(diǎn)。因此,如何利用互聯(lián)網(wǎng)技術(shù),建立科學(xué)、合理的網(wǎng)絡(luò)問答服務(wù)體系,以此減輕老師回答重復(fù)或類似問題的工作強(qiáng)度,這具有重要的現(xiàn)實(shí)意義。這就是本文解決問題的產(chǎn)生源頭。論文的工作主要是研究面向大學(xué)生的教學(xué)秘書問答系統(tǒng),實(shí)現(xiàn)部分代替人工解答學(xué)生問題,給學(xué)生提供一種更方便、更快捷的解惑釋疑新途徑。為了提高問答準(zhǔn)確率,論文以學(xué)生日常管理問題域?yàn)槔?在相對封閉的問題域中,展開應(yīng)用研究,但這些方法是可以向相關(guān)問題域進(jìn)行擴(kuò)展的。針對論文的教學(xué)秘書問答系統(tǒng),學(xué)生可以通過普通的文本問句,向該系統(tǒng)發(fā)問,系統(tǒng)將能及時(shí)返回一個(gè)答案或明確回答可以回答的其他途徑,從而能顯著提高學(xué)生問題的求解效率。本文主要涉及的熱點(diǎn)技術(shù)有自然語言處理、知識庫的構(gòu)建,其中自然語言處理是其核心。此處自然語言處理是指如何有效地提高前期收集到的原始文檔數(shù)據(jù)的分類處理效率、如何有效地提高用戶問句與問答知識庫中語句的匹配率,這是本文的研究重點(diǎn)。論文包括以下5個(gè)部分內(nèi)容:(1)研究現(xiàn)狀綜述。介紹了問答系統(tǒng)與問答機(jī)器人的研究現(xiàn)狀,以及論文涉及的文本表示、基于《知網(wǎng)》的詞語語義相似度算法以及文本相似度算法的研究現(xiàn)狀,并分析了相關(guān)領(lǐng)域的文本數(shù)據(jù)特點(diǎn)和數(shù)據(jù)預(yù)處理方法。(2)改進(jìn)文本表示方法,以此提高前期收集到的原始文檔數(shù)據(jù)集的分類效率;谖谋鞠蛄靠臻g模型,改進(jìn)了該模型涉及到的特征詞項(xiàng)權(quán)重算法idftf-。針對其僅考慮特征詞項(xiàng)與文檔之間關(guān)系,引入特征詞項(xiàng)選擇中的卡方統(tǒng)計(jì)值和詞性因子,以此彌補(bǔ)原始算法忽略特征詞項(xiàng)區(qū)分文本類別的不足,從而獲得文本向量空間模型的改進(jìn)模型。利用收集到的原始文檔數(shù)據(jù)集進(jìn)行分類驗(yàn)證,結(jié)果證明改進(jìn)的文本表示方法是有效性的。(3)改進(jìn)詞語語義相似度算法,以此提高用戶問句與問答知識庫中語句的匹配率。系統(tǒng)選用基于《知網(wǎng)》語義詞典的方法,發(fā)現(xiàn)現(xiàn)有詞語語義相似度計(jì)算方法未考慮義原距離與義原深度的主次關(guān)系,對義原相似度的結(jié)果產(chǎn)生較大負(fù)面影響,因此,本文提出通過約束深度因素,獲得義原相似度算法的改進(jìn)方法。論文從理論和實(shí)驗(yàn)兩方面對其進(jìn)行了驗(yàn)證,結(jié)果證明該方法是有效性的。(4)進(jìn)一步改進(jìn)詞語語義相似度算法。論文提出了以詞語間第一基本義原相似度最高的概念組合為計(jì)算對象,并引入動態(tài)加權(quán)因子實(shí)現(xiàn)對詞語語義相似度算法的改進(jìn)。利用學(xué)生問題測試集和知識庫中候選問題集進(jìn)行文本相似度計(jì)算,實(shí)驗(yàn)結(jié)果證明改進(jìn)的詞語語義相似度算法提高了系統(tǒng)返回答案的準(zhǔn)確率。(5)研制基于知識庫的教學(xué)秘書問答系統(tǒng)。利用整理后的學(xué)生日常管理領(lǐng)域文本數(shù)據(jù),并基于《知網(wǎng)》建立大學(xué)生日常管理的、狹窄的領(lǐng)域知識庫,標(biāo)注實(shí)例解釋,并成功應(yīng)用于論文的教學(xué)秘書問答系統(tǒng)。
[Abstract]:......
【學(xué)位授予單位】:重慶理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張小川;于旭庭;張宜浩;;一種改進(jìn)的向量空間模型的文本表示算法[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2017年01期
2 王有華;陳笑蓉;;基于Kolmogorov復(fù)雜性的文本聚類算法改進(jìn)[J];計(jì)算機(jī)科學(xué);2016年05期
3 史朋亮;;知識管理服務(wù)的實(shí)踐和探索——以中國知網(wǎng)為例[J];科技與出版;2016年05期
4 廖志芳;周國恩;李俊鋒;劉飛;蔡飛;;中文短文本語法語義相似度算法[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年02期
5 柔特;;藏文問答系統(tǒng)中問句的分類方法研究[J];計(jì)算機(jī)工程與科學(xué);2015年07期
6 ZENG Jianqiu;YANG Mengke;;Internet Plus and Networks Convergence[J];中國通信;2015年04期
7 張滬寅;劉道波;溫春艷;;基于《知網(wǎng)》的詞語語義相似度改進(jìn)算法研究[J];計(jì)算機(jī)工程;2015年02期
8 魏楚元;湛強(qiáng);樊孝忠;毛煜;張大奎;;融合事件信息的中文問答系統(tǒng)問題語義表征[J];中文信息學(xué)報(bào);2015年01期
9 王小林;王東;楊思春;邰偉鵬;鄭嘯;;基于《知網(wǎng)》的詞語語義相似度算法[J];計(jì)算機(jī)工程;2014年12期
10 張超;孔芳;周國棟;;交互式問答系統(tǒng)中待消解項(xiàng)的識別方法研究[J];中文信息學(xué)報(bào);2014年04期
相關(guān)博士學(xué)位論文 前2條
1 平源;基于支持向量機(jī)的聚類及文本分類研究[D];北京郵電大學(xué);2012年
2 宋萬鵬;短文本相似度計(jì)算在用戶交互式問答系統(tǒng)中的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 劉英濤;短文本分類研究[D];重慶理工大學(xué);2016年
2 陳紅陽;中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
3 張倩;基于半監(jiān)督學(xué)習(xí)的中文短文本分類研究[D];西安電子科技大學(xué);2014年
4 葛麗萍;交互式問答系統(tǒng)中的待改進(jìn)問題自動識別方法[D];哈爾濱工業(yè)大學(xué);2013年
5 張科;基于《知網(wǎng)》義原空間的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];重慶大學(xué);2013年
6 強(qiáng)繼朋;FAQ問答系統(tǒng)中的問句相似度研究[D];合肥工業(yè)大學(xué);2013年
7 余龍龍;短消息文本處理關(guān)鍵技術(shù)研究[D];西南財(cái)經(jīng)大學(xué);2013年
8 馬強(qiáng);基于布爾模型和擴(kuò)展布爾模型的中文信息檢索系統(tǒng)[D];遼寧科技大學(xué);2012年
9 李國佳;漢語全文相似度計(jì)算的研究及應(yīng)用[D];電子科技大學(xué);2011年
10 楊朝玉;基于知網(wǎng)的受限域問答系統(tǒng)原型的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
,
本文編號:
2453116
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2453116.html