基于條件隨機(jī)場的科研論文信息分層抽取研究

發(fā)布時(shí)間：2017-10-03 06:26

本文關(guān)鍵詞：基于條件隨機(jī)場的科研論文信息分層抽取研究

更多相關(guān)文章： 信息抽取 條件隨機(jī)場 科研論文 分層 文本行

【摘要】： 面對信息爆炸而產(chǎn)生的海量文本信息,如何更快速、準(zhǔn)確地從中獲取需要的信息,是人們普遍關(guān)注的問題。文本信息抽取的研究工作,便是在這種需求背景下產(chǎn)生的,旨在提供從海量聯(lián)機(jī)文本信息中快速、準(zhǔn)確獲取有用信息的工具和方法。通過抽取科研論文信息,不僅可以有效地組織和管理這些論文,提高用戶檢索論文的效率,而且還能夠進(jìn)行大量的統(tǒng)計(jì)工作。如論文主題分析及相關(guān)論文統(tǒng)計(jì),對期刊、科研單位、某篇論文或某個(gè)學(xué)者進(jìn)行引用分析以及發(fā)現(xiàn)研究熱點(diǎn)和研究趨勢等,所以從科研論文中自動(dòng)抽取信息有著重要的研究價(jià)值。當(dāng)前,基于統(tǒng)計(jì)學(xué)習(xí)的文本信息抽取方法,是一種相對比較新的文本信息抽取模型,取得了很好的效果,被認(rèn)為有著很好的應(yīng)用價(jià)值,其中,基于條件隨機(jī)場模型的科研論文信息抽取方法,更是受到了相當(dāng)?shù)年P(guān)注。在全面分析各種文本信息抽取方法的基礎(chǔ)上,重點(diǎn)研究了利用條件隨機(jī)場對科研論文信息進(jìn)行抽取,發(fā)現(xiàn)其中傳統(tǒng)的單純基于詞或基于塊的抽取方法存在著以下不足:①把抽取的文本對象固定為單詞,或者固定為文本塊,無法根據(jù)抽取對象的不同情況,在恰當(dāng)粒度上靈活地進(jìn)行切分和抽取;②在抽取的過程中,不能夠充分地利用文本所包含的完整的特征信息,以及文本中豐富的上下文信息。這種不足,在處理復(fù)合抽取域文本和大信息量的抽取域文本時(shí),表現(xiàn)得尤為明顯。因此,在研究國內(nèi)外相關(guān)學(xué)者的研究成果的基礎(chǔ)上,提出了一種基于條件隨機(jī)場的科研論文信息分層抽取方法。首先,根據(jù)版面格式信息,把開頭不為空格的行,與其前面的一個(gè)文本行,合并成一個(gè)大的文本行,以文本行為基本的抽取單位,從而盡量獲得最完整的特征信息;然后,根據(jù)科研論文信息分層抽取任務(wù)的需要,為條件隨機(jī)場模型制定合適的特征函數(shù);其次,利用分隔符、換行符、行首字符等格式信息,結(jié)合條件隨機(jī)場的部分判定性特征函數(shù),將輸入的文本切分成文本行、塊或單個(gè)的詞等恰當(dāng)?shù)膶哟?最后,通過訓(xùn)練獲得模型的參數(shù),并對科研論文進(jìn)行特定文本域的抽取。實(shí)驗(yàn)結(jié)果表明,該方法的抽取性能,優(yōu)于基于詞或者塊的條件隨機(jī)場模型的信息抽取方法。
【關(guān)鍵詞】：信息抽取 條件隨機(jī)場 科研論文 分層 文本行
【學(xué)位授予單位】：重慶大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2009
【分類號(hào)】：TP391.1
【目錄】：

摘要3-4
ABSTRACT4-9
1 緒論9-11
1.1 研究背景及意義9
1.2 國內(nèi)外研究現(xiàn)狀綜述9-10
1.3 論文的組織安排10-11
2 文本信息抽取11-19
2.1 文本信息抽取的含義11-12
2.2 文本信息抽取的發(fā)展12-15
2.3 文本信息抽取的對象15-16
2.4 文本信息抽取系統(tǒng)設(shè)計(jì)常用方法16
2.5 文本信息抽取的主要模型16-18
2.6 本章小結(jié)18-19
3 條件隨機(jī)場模型19-27
3.1 條件隨機(jī)場的概念19-22
3.1.1 條件隨機(jī)場的定義19-20
3.1.2 條件隨機(jī)場的數(shù)學(xué)表示20-21
3.1.3 特征函數(shù)選擇21
3.1.4 矩陣描述和計(jì)算21-22
3.2 條件隨機(jī)場的參數(shù)估計(jì)22-25
3.2.1 極大似然估計(jì)22-23
3.2.2 L-BFGS 算法23-24
3.2.3 動(dòng)態(tài)規(guī)劃24-25
3.3 條件隨機(jī)場的標(biāo)注25-26
3.4 本章小結(jié)26-27
4 基于條件隨機(jī)場模型的科研論文信息分層抽取27-35
4.1 基于條件隨機(jī)場的信息抽取方法27
4.2 傳統(tǒng)抽取方法的特點(diǎn)與不足27-30
4.2.1 基于詞抽取方法的特點(diǎn)27-28
4.2.2 基于塊抽取方法的特點(diǎn)28
4.2.3 傳統(tǒng)抽取方法的不足28-30
4.3 改進(jìn)后的基于條件隨機(jī)場的信息分層抽取方法30-33
4.4 本章小結(jié)33-35
5 實(shí)驗(yàn)與分析35-48
5.1 特征集合35-37
5.1.1 文本特征35
5.1.2 格式特征35-36
5.1.3 外部詞典特征36
5.1.4 狀態(tài)轉(zhuǎn)移特征36-37
5.2 數(shù)據(jù)集和評(píng)測標(biāo)準(zhǔn)37
5.2.1 數(shù)據(jù)集37
5.2.2 評(píng)測標(biāo)準(zhǔn)37
5.3 系統(tǒng)結(jié)構(gòu)37-45
5.3.1 CRFs 工具37-43
5.3.2 系統(tǒng)框架43-44
5.3.3 模塊說明44-45
5.4 實(shí)驗(yàn)結(jié)果及分析45-47
5.5 本章小結(jié)47-48
6 結(jié)論與展望48-50
6.1 總結(jié)48
6.2 進(jìn)一步工作48-50
致謝50-51
參考文獻(xiàn)51-55
附錄55
A. 作者在攻讀碩士學(xué)位期間發(fā)表的論文55
B. 作者在攻讀碩士學(xué)位期間所參與的科研課題55

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 于成龍;;中文網(wǎng)頁信息抽取技術(shù)及分類算法研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期

2 王全劍;李芳;;基于Wikipedia的人名簡歷信息抽取[J];計(jì)算機(jī)應(yīng)用與軟件;2011年07期

3 趙玉芹;劉琳;;條件隨機(jī)場在手勢識(shí)別中的應(yīng)用研究[J];科技傳播;2011年18期

4 魏晶晶;于然;廖祥文;;基于分隔符的中文論壇信息抽取[J];福建電腦;2011年06期

5 朱莎莎;劉宗田;付劍鋒;朱芳;;基于條件隨機(jī)場的中文時(shí)間短語識(shí)別[J];計(jì)算機(jī)工程;2011年15期

6 張春元;;基于條件隨機(jī)場的文本分類模型[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年07期

7 孫全紅;張貞貞;;基于樹結(jié)構(gòu)的Web表格信息抽取方法[J];華北水利水電學(xué)院學(xué)報(bào);2011年03期

8 于江德;谷川;葛文英;樊孝忠;;一種基于字和子串聯(lián)合標(biāo)注的漢語分詞方法[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期

9 康旭珍;李茹;李雙紅;;框架元素語義核心詞自動(dòng)識(shí)別研究[J];中文信息學(xué)報(bào);2011年04期

10 陽維;張樹恒;王蓮蕓;張素;;基于圖像塊分類器和條件隨機(jī)場的顯微圖像分割[J];計(jì)算機(jī)應(yīng)用;2011年08期

中國重要會(huì)議論文全文數(shù)據(jù)庫前10條

1 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點(diǎn)改進(jìn)[A];全國第4屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

2 徐薇;付濱;劉柳;苑春法;李文捷;;中文命名實(shí)體識(shí)別系統(tǒng)的領(lǐng)域擴(kuò)展[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

3 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年

4 吳雪軍;朱靖波;王會(huì)珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識(shí)別中的應(yīng)用[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

5 代翠;周俏麗;蔡?hào)|風(fēng);;統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語最長名詞短語自動(dòng)識(shí)別[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

6 姜吉發(fā);王樹西;;一種自舉的二元關(guān)系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

7 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集（研究報(bào)告篇）[C];2002年

8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計(jì)相結(jié)合的案件名稱識(shí)別[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

9 周國棟;孔芳;朱巧明;;指代消解：國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

10 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進(jìn)企業(yè)信息化——第十一屆中國Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2008年

中國重要報(bào)紙全文數(shù)據(jù)庫前10條

1 史小敏;前景廣闊的信息抽取技術(shù)[N];解放軍報(bào);2004年

2 彭芳;搜索也專業(yè)[N];中國計(jì)算機(jī)報(bào);2004年

3 本報(bào)記者王翌;8848:優(yōu)化EC流程[N];計(jì)算機(jī)世界;2004年

4 上海交通大學(xué)APEX數(shù)據(jù)和知識(shí)管理實(shí)驗(yàn)室王昊奮邋俞勇;語義Web推動(dòng)下一代搜索[N];計(jì)算機(jī)世界;2007年

5 司靜輝;直擊數(shù)字環(huán)境下情報(bào)技術(shù)發(fā)展動(dòng)向[N];科技日報(bào);2007年

6 董振東;到用戶中去[N];中國計(jì)算機(jī)報(bào);2003年

7 張友林甘肅省武威市涼州區(qū)中醫(yī)院;開發(fā)中醫(yī)專用軟件很有必要[N];中國中醫(yī)藥報(bào);2009年

8 任一鳴;垂直搜索:抓住細(xì)分需求[N];計(jì)算機(jī)世界;2007年

9 馬志彥;悄然而至的EIP[N];中國計(jì)算機(jī)報(bào);2002年

10 本報(bào)記者于翔;BI：電信業(yè)滲透中[N];網(wǎng)絡(luò)世界;2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 黃健斌;基于條件概率圖模型的Deep Web數(shù)據(jù)抽取與集成研究[D];西安電子科技大學(xué);2007年

2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

3 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

4 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年

5 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

6 張奇;信息抽取中實(shí)體關(guān)系識(shí)別研究[D];中國科學(xué)技術(shù)大學(xué);2010年

7 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動(dòng)問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年

8 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年

9 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年

10 張乃洲;實(shí)體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 于亮;科技文獻(xiàn)的文本特征抽取研究與應(yīng)用[D];北京郵電大學(xué);2009年

2 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年

3 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年

4 田紅;表格信息抽取引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西北師范大學(xué);2004年

5 楊文柱;基于領(lǐng)域知識(shí)和信息抽取的個(gè)性化Web查詢系統(tǒng)[D];河北大學(xué);2002年

6 張志強(qiáng);Web信息抽取技術(shù)研究與基于Web service的實(shí)現(xiàn)[D];河北大學(xué);2004年

7 莫凌琳;基于條件隨機(jī)場的科研論文信息分層抽取研究[D];重慶大學(xué);2009年

8 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年

9 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2004年

10 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年

，

本文編號(hào)：963648

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/wenshubaike/gxjt/963648.html

上一篇：2007年中國大陸科研機(jī)構(gòu)在PRL發(fā)表論文統(tǒng)計(jì)
下一篇：淺談高�？蒲姓撐馁|(zhì)量控制措施

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于條件隨機(jī)場的科研論文信息分層抽取研究