天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

面向高考問答的地理試題文本分析和標注研究

發(fā)布時間:2018-04-15 09:40

  本文選題:問題理解 + 句子拆分 ; 參考:《南京大學》2017年碩士論文


【摘要】:人工智能技術正在飛速改變這個世界。在自然語言領域,圍繞著自動問答系統(tǒng)(Question Answering,QA)開展了越來越多的研究。高效、智能的問答系統(tǒng),致力于為用戶提供更直接更優(yōu)質(zhì)的答案,可以從大量的知識儲備中自動進行檢索、推理,從而將用戶從這些處理中解放出來。2011年,IBM的Watson問答機器人參加問答類綜藝節(jié)目"Jeopardy!",并戰(zhàn)勝了人類頂尖選手贏得冠軍,自動問答系統(tǒng)再一次吸引了世人的眼光。從某種程度上來說,高考作為中國大多數(shù)中學生最重要的考試,可以看做是一種高水平的問答過程。本文的項目背景是面向中國高考地理試題的問答系統(tǒng),并側(cè)重于對選擇題的解答。在解決高考自動問答的過程中,我們面臨很多與傳統(tǒng)問答系統(tǒng)不同的挑戰(zhàn):首先高考題的問答形式與傳統(tǒng)自動問答系統(tǒng)存在明顯區(qū)別;其次,高考題的靈活性遠高于傳統(tǒng)問答系統(tǒng)中的問題,這意味著我們很難從現(xiàn)成的文本中直接匹配、抽取得到答案。作為自動問答的第一步,問題理解的作用十分重要,這也是本文的工作重點。本文中將選擇題題面和一個選項拼接成的完整句子作為分析的對象。對文本的理解可以分為兩種:一是對句子間的篇章關系分析,二是對句子內(nèi)部的語義關系理解。因此我們從兩個方面來研究對于地理試題的理解問題:一方面是問題中子句間關系分類,另一方面是嘗試使用AMR(Abstract Meaning Representation)對試題文本進行深層語義分析。本文中的句子拆分工作,是針對地理選擇題的特點,提出了利用逗號對選擇題的選項進行可能的拆分,將較長的原句轉(zhuǎn)換成語義等價的多個簡單句,從而簡化后續(xù)處理步驟的輸入,提高后續(xù)步驟的處理能力。在這項工作中,我們使用了最大熵分類器和基于規(guī)則的啟發(fā)式方法,通過兩個步驟來實現(xiàn)句子拆分:首先識別選項中的逗號是否可以作為一個分割點,然后再識別句子的從句或并列結(jié)構(gòu)的公共前綴邊界。AMR是一種具有較為強大表達能力的新型語義表示方法,它可以將一句話的語義用單根的、有向的連通圖表示出來,更強調(diào)句子的抽象語義,而非具象的語法表達方式。但是由于圍繞AMR的研究才剛剛起步,目前已有的AMR自動分析效果還有很大待提升的空間。中文AMR的標注語料規(guī)模較小,將AMR應用到中文的研究幾乎還是空白。本文在AMR方面的工作主要是對現(xiàn)有AMR分析算法進行一些實驗分析,并首次驗證AMR標注體系及自動解析算法在中文上的性能。針對地理試題,我們標注了一個小樣本的AMR語料,并用現(xiàn)有算法來驗證AMR在特定領域文本上的處理能力。為了支撐上述兩項問題理解的研究工作,我們還構(gòu)建了一個地理試題標注工具,并通過這個工具建立一個高質(zhì)量的地理試題語料庫。除了可以標注句子分割和AMR這兩種信息,該工具同時支持標注分詞、詞性、命名實體、地理術語、試題模板表示、成分句法等各項數(shù)據(jù)。
[Abstract]:Artificial intelligence is rapidly changing the world.In the field of natural language, more and more researches have been carried out around the question answering system (question answering QA).An efficient, intelligent question-and-answer system, dedicated to providing users with more direct and high-quality answers, can be automatically retrieved and reasoned from a large body of knowledge.In 2011, IBM's Watson Q & A robot took part in the catch-and-answer variety show "Jeopardy!" and beat the top human contestants to win the championship, and the automated question answering system once again attracted the world's attention.To some extent, college entrance examination is the most important examination for most middle school students in China.The background of this paper is a question and answer system for geography questions of Chinese college entrance examination, and focuses on the solution of multiple choice questions.In the process of solving the automatic question and answer system of the college entrance examination, we are faced with many challenges different from the traditional question answering system: first, there are obvious differences between the question and answer form of the college entrance examination questions and the traditional automatic question answering system; secondly,The flexibility of college entrance examination questions is much higher than that of the traditional question answering system, which means that it is difficult for us to directly match and extract answers from ready-made texts.As the first step of automatic question answering, the function of question understanding is very important, which is also the focus of this paper.In this paper, the multiple choice questions and a complete sentence mosaic as the object of analysis.The understanding of the text can be divided into two types: one is the analysis of the text relationship between sentences, the other is the understanding of the semantic relationship within the sentence.Therefore, we study the understanding of geographical questions from two aspects: on the one hand, the classification of the relationship between clauses in the problem, and on the other hand, we try to use AMR(Abstract Meaning representation to analyze the deep semantic of the text of the test.In this paper, according to the characteristics of geographical multiple choice questions, the possible split of multiple choice questions by comma is put forward, and the long original sentence is converted into several simple sentences with semantic equivalence.Thus, the input of subsequent processing steps is simplified and the processing ability of subsequent steps is improved.In this work, we use a maximum entropy classifier and a rule-based heuristic method to split sentences in two steps: first, we identify whether the comma in the option can be used as a split point.The common prefix boundary of the clause or paratactic structure of a sentence is then recognized. AMR is a new semantic representation method with relatively strong expressive ability, which can express the semantics of a sentence with a single root, directed connected graph.More emphasis is placed on the abstract semantics of sentences than on concrete grammatical expressions.However, because the research around AMR is just beginning, there is still much room for improvement in the effect of AMR automatic analysis.The tagging corpus of Chinese AMR is small, so the research of applying AMR to Chinese is almost blank.The main work of this paper in AMR is to do some experimental analysis on existing AMR analysis algorithms, and verify the performance of AMR annotation system and automatic parsing algorithm in Chinese for the first time.For geography questions, we annotate a small sample of AMR corpus, and use existing algorithms to verify the processing ability of AMR on specific domain text.In order to support the research work of understanding the above two questions, we also construct a geographical question marking tool, and establish a high-quality geographical question corpus through this tool.In addition to tagging sentence segmentation and AMR, the tool supports tagging participle, part of speech, naming entities, geographical terms, question template representation, component syntax and other data.
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【相似文獻】

相關期刊論文 前10條

1 倪盛儉;;文本蘊涵研究現(xiàn)狀和發(fā)展趨勢[J];云南民族大學學報(哲學社會科學版);2013年04期

2 費多益;;超文本:文本的解構(gòu)與重構(gòu)[J];哲學動態(tài);2006年03期

3 李文;王煒立;;中文文本理解技術在法律案情文本分類中的應用[J];南昌大學學報(工科版);2007年01期

4 姚天f ;程希文;徐飛玉;漢思·烏思克爾特;王睿;;文本意見挖掘綜述[J];中文信息學報;2008年03期

5 麻志毅,林鴻飛,姚天順,馬佳琳;基于情境的文本中的時間信息分析[J];東北大學學報;1999年03期

6 麻志毅;姚天順;;基于情境的文本理解[J];計算機科學;1998年03期

7 熊小梅;劉永浪;;基于LSA的二次降維法在中文法律案情文本分類中的應用[J];電子測量技術;2007年10期

8 趙軍;劉康;周光有;蔡黎;;開放式文本信息抽取[J];中文信息學報;2011年06期

9 石晶;李萬龍;;三種主題分割方法的對比研究[J];計算機工程與應用;2009年18期

10 楊博;蔡東風;楊華;;開放式信息抽取研究進展[J];中文信息學報;2014年04期

相關會議論文 前3條

1 周險峰;;文本理解的張力:中國古代儒家教育智慧的解釋學視角[A];紀念《教育史研究》創(chuàng)刊二十周年論文集(2)——中國教育思想史與人物研究[C];2009年

2 易綿竹;南振興;李紹哲;薛恩奎;;文本生成與理解的語言學模擬——伊戈爾·梅里丘克《意思(?)文本》模型評介[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

3 周昭濤;卜東波;程學旗;;文本的圖表示初探[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年

相關重要報紙文章 前2條

1 如東縣馬塘鎮(zhèn)邱升中學 邱亞琴;教師研讀文本[N];學知報;2011年

2 劉玲;批判之后,還剩下什么?[N];文學報;2011年

相關博士學位論文 前2條

1 周險峰;教育文本理解論[D];華東師范大學;2006年

2 方寧;基于認知的文本語境生成和度量研究[D];上海大學;2009年

相關碩士學位論文 前10條

1 余懿;崇禎本《金瓶梅》的插圖研究[D];華中師范大學;2016年

2 劉懿;從文本到圖像[D];重慶大學;2016年

3 俞文琳;對小學語文教材的詮釋學之教育引論[D];福建師范大學;2016年

4 湯蓮瑞;面向高考問答的地理試題文本分析和標注研究[D];南京大學;2017年

5 張?zhí)煊?理解與文本[D];蘇州大學;2003年

6 李曉燕;文學文本理解中讀者的主觀性[D];福建師范大學;2004年

7 杜云階;基于應急知識模型的文本知識獲取研究[D];大連理工大學;2009年

8 馬天;俄語新聞標題文本的認知解析[D];黑龍江大學;2013年

9 趙璞;在詞匯層面上加強中國英語學習者的文化意識與文本理解的實證研究[D];貴州大學;2006年

10 王艷琴;閱讀教學中的文本理解及其內(nèi)在邏輯[D];首都師范大學;2014年



本文編號:1753595

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1753595.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a971d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com