面向自動(dòng)問(wèn)答的中學(xué)歷史知識(shí)庫(kù)構(gòu)建
本文選題:知識(shí)庫(kù) 切入點(diǎn):word2vec 出處:《哈爾濱工業(yè)大學(xué)》2017年碩士論文
【摘要】:隨著人工智能在圍棋方面的突破,“阿爾法狗”進(jìn)入了大眾的視野并且熱度居高不下,與此同時(shí)人工智能以及深度學(xué)習(xí)越來(lái)越被大眾熟知,家喻戶曉。那么人工智能的一大目標(biāo)就是讓機(jī)器理解人的自然語(yǔ)言,也是目前的難點(diǎn)重點(diǎn)。所以對(duì)于問(wèn)答系統(tǒng)的研究是必要的,現(xiàn)在有很多種問(wèn)答系統(tǒng),比如百度知道或搜狗問(wèn)問(wèn)的社區(qū)問(wèn)答、一站到底等知識(shí)問(wèn)答及小度聊天機(jī)器人等,這些系統(tǒng)尤其是知識(shí)問(wèn)答系統(tǒng)往往都有知識(shí)庫(kù)。因而對(duì)知識(shí)庫(kù)的構(gòu)建進(jìn)行研究是必要的。對(duì)于高中歷史學(xué)科問(wèn)答系統(tǒng)來(lái)說(shuō)研究的意義在于探究人工智能的極限,之所以這么說(shuō)的原因是,讓機(jī)器理解人的自然語(yǔ)言是目前的一大難點(diǎn)。到目前為止不論是傳統(tǒng)的機(jī)器學(xué)習(xí)方法還是目前大熱的深度學(xué)習(xí),都無(wú)法真正的了解人類的自然語(yǔ)言,而高考?xì)v史的問(wèn)答恰恰是在檢測(cè)人工智能在理解人類的自然語(yǔ)言方面的進(jìn)展。本文研究的主要研究?jī)?nèi)容如下:一.對(duì)中學(xué)歷史題進(jìn)行分析,針對(duì)中學(xué)歷史題的特點(diǎn)進(jìn)行知識(shí)庫(kù)結(jié)構(gòu)的設(shè)計(jì)。二.構(gòu)建歷史分詞詞表,因?yàn)閷?duì)于歷史材料難以精準(zhǔn)分詞,經(jīng)常容易把相關(guān)事件、專業(yè)名詞等在分詞時(shí)分隔開,因而需要構(gòu)建一個(gè)分詞詞表。在構(gòu)建詞表時(shí)運(yùn)用了新詞發(fā)現(xiàn)技術(shù)。三.高中歷史知識(shí)庫(kù)的擴(kuò)充。為了能夠全面準(zhǔn)確地回答高考?xì)v史題,僅僅采用歷史課本內(nèi)容構(gòu)建知識(shí)庫(kù)是不夠的,因此必須對(duì)其進(jìn)行擴(kuò)充。待擴(kuò)充的資料為爬取的百度百科歷史相關(guān)條目。使用了word2vec、doc2vec模型訓(xùn)練語(yǔ)義向量,與LR、SVM、Random Forest、GBDT等四種統(tǒng)計(jì)分類模型結(jié)合。最終利用最優(yōu)的分類器選出在諸多條目中適合擴(kuò)充進(jìn)中學(xué)歷史知識(shí)庫(kù)的條目。四.高中歷史知識(shí)庫(kù)內(nèi)容分類標(biāo)注。通過(guò)對(duì)高考?xì)v史題的分析,每個(gè)歷史實(shí)體的屬性大致可以分為七類如影響類、背景類等。所以在歷史實(shí)體擴(kuò)充進(jìn)知識(shí)庫(kù)的時(shí)候,需要將其內(nèi)容進(jìn)行分類。使用訓(xùn)練好的詞向量作為分類模型的輸入,分類模型選擇樸素貝葉斯、LSTM、BLSTM、C-LSTM等四種模型進(jìn)行對(duì)比實(shí)驗(yàn),最終選出最優(yōu)的分類器進(jìn)行高中歷史知識(shí)庫(kù)內(nèi)容分類標(biāo)注。
[Abstract]:With the breakthrough of artificial intelligence in go, "AlphaGo" has entered the public's field of vision and high fever, at the same time, artificial intelligence and in-depth learning are becoming more and more familiar to the public, household name.So one of the major goals of artificial intelligence is to make machines understand human natural language, which is also a difficult point at present.Therefore, it is necessary to study the question and answer system. Now there are many kinds of question answering systems, such as the community question and answer system that Baidu knows or Sogou asks, the one stop waiting for knowledge question answering and small chat robot, and so on.These systems, especially the Q & A system, often have a knowledge base.Therefore, it is necessary to study the construction of knowledge base.The significance of the research is to explore the limits of artificial intelligence for senior high school history subject question and answer system. The reason for this is that it is difficult for machines to understand human natural language.So far, neither the traditional machine learning methods nor the current hot deep learning have been able to truly understand the natural language of human beings.And the history of the gaokao quiz is precisely to test artificial intelligence in understanding the natural language of human progress.The main contents of this paper are as follows: 1.This paper analyzes the history problems in middle schools and designs the knowledge base structure according to the characteristics of the history questions in middle schools.II.Because it is difficult to be precise participle for historical materials, it is often easy to separate the relevant events and specialized nouns in the segmentation time, so it is necessary to construct a word segmentation list.The new word discovery technology is used in the construction of the lexicon.III.The expansion of high school history knowledge base.In order to answer the history questions of college entrance examination comprehensively and accurately, it is not enough to construct the knowledge base by using the contents of history textbooks, so it is necessary to expand them.To expand the data for crawling Baidu encyclopedia history related items.The word2vectdoc2vec model is used to train the semantic vector, which is combined with four statistical classification models, such as LRX SVM random Forester GBDT and so on.Finally, the optimal classifier is used to select the items that are suitable to be extended to the knowledge base of history in middle school.IV.High school history knowledge base content classification annotation.Through the analysis of the history questions of the college entrance examination, the attributes of each historical entity can be divided into seven categories, such as influence class, background class and so on.Therefore, when the historical entity is expanded into the knowledge base, it is necessary to classify its contents.The trained word vector is used as the input of the classification model, and the naive Bayesian LSTM / BLSTM C-LSTM model is selected to carry out the comparative experiments. Finally, the optimal classifier is selected for the content classification and tagging of the high school history knowledge base.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 世雄;《中學(xué)歷史復(fù)習(xí)大全》即將出版[J];史學(xué)月刊;1984年04期
2 ;《中學(xué)歷史基礎(chǔ)知識(shí)》出版發(fā)行[J];貴州師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1985年03期
3 於以傳;;上海市教育委員會(huì)教學(xué)研究室專稿(四) 關(guān)于改進(jìn)中學(xué)歷史學(xué)科學(xué)業(yè)評(píng)價(jià)的建議[J];現(xiàn)代教學(xué);2010年Z1期
4 馬建生;;多媒體教學(xué)在中學(xué)歷史與社會(huì)教學(xué)中的運(yùn)用[J];時(shí)代教育;2013年12期
5 學(xué)文;中學(xué)歷史學(xué)習(xí)資源[J];電腦技術(shù);2003年02期
6 於以傳;;上海市教育委員會(huì)教學(xué)研究室專稿(四) 關(guān)于改進(jìn)中學(xué)歷史學(xué)科教學(xué)輔導(dǎo)的建議[J];現(xiàn)代教學(xué);2009年Z2期
7 閆長(zhǎng)安;;計(jì)算機(jī)多媒體與中學(xué)歷史整合的理性思考[J];網(wǎng)絡(luò)科技時(shí)代(信息技術(shù)教育);2002年02期
8 上海市中學(xué)歷史學(xué)科育人價(jià)值研究課題組;於以傳;;知真 求通 立德——中學(xué)歷史學(xué)科育人價(jià)值概述[J];現(xiàn)代教學(xué);2013年Z2期
9 朱麗媛;;中學(xué)歷史《美國(guó)內(nèi)戰(zhàn)》整合教學(xué)例談[J];網(wǎng)絡(luò)科技時(shí)代(信息技術(shù)教育);2002年02期
10 郎宇飛;;上海市敬業(yè)中學(xué):在改革中推進(jìn) 以科研促發(fā)展[J];現(xiàn)代教學(xué);2008年11期
相關(guān)會(huì)議論文 前2條
1 章年海;;中學(xué)歷史課程改革問(wèn)題再探討[A];浙江史學(xué)論叢(第一輯)[C];2004年
2 玉占賓;;淺談如何教好中學(xué)歷史[A];2014年6月現(xiàn)代教育教學(xué)探索學(xué)術(shù)交流會(huì)論文集[C];2014年
相關(guān)重要報(bào)紙文章 前10條
1 黎平縣第三中學(xué) 張賓輝;中學(xué)歷史“生活化”教學(xué)芻議[N];貴州民族報(bào);2014年
2 黃安年;國(guó)情、球情與歷史教材[N];北京日?qǐng)?bào);2000年
3 孫剛;新學(xué)期學(xué)校建設(shè)全面啟動(dòng)[N];天津日?qǐng)?bào);2008年
4 見習(xí)記者 劉佳;感恩母校 共譜華章[N];天津教育報(bào);2009年
5 茅衛(wèi)東;一個(gè)網(wǎng)絡(luò)騎士的追夢(mèng)之旅[N];中國(guó)教師報(bào);2005年
6 特約通訊員 王公球;熊化良:喜歡富有挑戰(zhàn)性的生活[N];成才導(dǎo)報(bào).教育周刊;2007年
7 遠(yuǎn) 鵬;10年探索開出教改花[N];中國(guó)教育報(bào);2003年
8 俞吾金 復(fù)旦大學(xué)教授;“學(xué)歷史”,還是“學(xué)考?xì)v史”?[N];文匯報(bào);2002年
9 欒永平;教材透腐敗 壟斷是根源[N];廠長(zhǎng)經(jīng)理日?qǐng)?bào);2000年
10 本報(bào)特派記者 周元;文化看海南[N];海南日?qǐng)?bào);2014年
相關(guān)博士學(xué)位論文 前1條
1 王智昊;面向知識(shí)庫(kù)問(wèn)答的自然語(yǔ)言語(yǔ)義特征表示研究[D];山東師范大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 李依塵;面向自動(dòng)問(wèn)答的中學(xué)歷史知識(shí)庫(kù)構(gòu)建[D];哈爾濱工業(yè)大學(xué);2017年
2 秦珍珍;基于社交網(wǎng)絡(luò)模型的智能個(gè)人知識(shí)庫(kù)構(gòu)建[D];南昌大學(xué);2017年
3 周博通;基于知識(shí)庫(kù)的自動(dòng)問(wèn)答關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年
4 徐麗;論中學(xué)歷史學(xué)科研究性學(xué)習(xí)及其教師作用[D];東北師范大學(xué);2008年
5 盧德明;中學(xué)歷史常規(guī)試題命制研究[D];山東師范大學(xué);2014年
6 王帥;中學(xué)歷史學(xué)科創(chuàng)新型教師的培養(yǎng)[D];渤海大學(xué);2015年
7 蔡紅梅;中學(xué)歷史名師培養(yǎng)的實(shí)踐探索[D];四川師范大學(xué);2015年
8 李靜;烏海市海勃灣區(qū)中學(xué)歷史教育發(fā)展?fàn)顩r研究[D];內(nèi)蒙古師范大學(xué);2015年
9 喬英;中學(xué)歷史鄉(xiāng)土課程資源的利用[D];聊城大學(xué);2015年
10 曹曉鶴;中學(xué)歷史導(dǎo)言設(shè)計(jì)的價(jià)值與路徑[D];陜西師范大學(xué);2015年
,本文編號(hào):1716269
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/1716269.html