《南京大學(xué)》2011年碩士論文
本文關(guān)鍵詞:圖情檔術(shù)語(yǔ)自動(dòng)提取研究,由筆耕文化傳播整理發(fā)布。
《南京大學(xué)》 2011年
圖情檔術(shù)語(yǔ)自動(dòng)提取研究
顧鋮
【摘要】:國(guó)內(nèi)開(kāi)展的術(shù)語(yǔ)自動(dòng)提取方面的研究都未以期刊論文的摘要為語(yǔ)料,而摘要作為一篇期刊論文概要性的陳述,其中包含了大量該學(xué)科領(lǐng)域內(nèi)的術(shù)語(yǔ),應(yīng)當(dāng)作為開(kāi)展術(shù)語(yǔ)自動(dòng)提取研究的重要語(yǔ)料。因此,本文希望通過(guò)對(duì)圖書(shū)、情報(bào)和檔案學(xué)領(lǐng)域內(nèi)的期刊論文摘要,分別利用互信息和條件隨機(jī)場(chǎng)模型進(jìn)行術(shù)語(yǔ)自動(dòng)提取方面的研究。 本文首先介紹了研究的背景和意義,總結(jié)了術(shù)語(yǔ)自動(dòng)提取的研究現(xiàn)狀,明確了研究的基礎(chǔ),并給出了全文的框架結(jié)構(gòu)。在第二章的部分介紹了術(shù)語(yǔ)的相關(guān)概念,以及術(shù)語(yǔ)的特征,包括領(lǐng)域特征和結(jié)構(gòu)特征等等。 然后本文對(duì)術(shù)語(yǔ)的表現(xiàn)特征、同義術(shù)語(yǔ)以及術(shù)語(yǔ)前后界進(jìn)行統(tǒng)計(jì)分析。術(shù)語(yǔ)的表現(xiàn)特征中包括術(shù)語(yǔ)詞頻、術(shù)語(yǔ)詞性序列以及術(shù)語(yǔ)詞性詞頻;同義術(shù)語(yǔ)是通過(guò)利用編輯距離的方法統(tǒng)計(jì)得出;術(shù)語(yǔ)的前后界是通過(guò)統(tǒng)計(jì)出現(xiàn)在術(shù)語(yǔ)之前或者之后的詞而得到。這些對(duì)術(shù)語(yǔ)特征的考察一方面為從語(yǔ)言學(xué)角度量化的研究術(shù)語(yǔ)內(nèi)部提供了數(shù)據(jù),另一方面也為之后的實(shí)驗(yàn)提供了語(yǔ)言學(xué)的知識(shí)。 接著開(kāi)展了基于互信息的術(shù)語(yǔ)自動(dòng)提取方面的研究,介紹了互信息理論以及預(yù)處理的過(guò)程,實(shí)驗(yàn)主要是以二元詞和三元詞為考察對(duì)象,依據(jù)互信息計(jì)算公式,計(jì)算詞語(yǔ)內(nèi)部的關(guān)聯(lián)程度,并設(shè)定不同的閾值,對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)。在首次實(shí)驗(yàn)結(jié)果不理想的情況下,對(duì)語(yǔ)料作進(jìn)一步處理,第二次實(shí)驗(yàn)中準(zhǔn)確率有了大幅度的提升,二元詞和三元詞的最高值分別達(dá)到了58.555%和58.814%。雖然在改進(jìn)后,提取效果有所提高,但仍然不夠理想,造成這種情況的原因在于基于統(tǒng)計(jì)的方法本身的局限性。 最后開(kāi)展了基于條件隨機(jī)場(chǎng)的術(shù)語(yǔ)自動(dòng)提取方面的研究,介紹了條件隨機(jī)場(chǎng)模型、預(yù)處理的過(guò)程以及特征和特征模板的確定,分別用原子特征模板、增加了詞性特征的特征模板以及增加了語(yǔ)言學(xué)特征的特征模板對(duì)基于字的和基于詞的語(yǔ)料進(jìn)行了實(shí)驗(yàn),4輪實(shí)驗(yàn)的平均F值分別為91.927%、90.311%、90.681%和90.6818%。這說(shuō)明基于條件隨機(jī)場(chǎng)的術(shù)語(yǔ)自動(dòng)提取效果要優(yōu)于基于互信息的方法。
【關(guān)鍵詞】:
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:G250
【目錄】:
下載全文 更多同類(lèi)文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買(mǎi)知網(wǎng)充值卡、在線(xiàn)充值、在線(xiàn)咨詢(xún))
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 鄧志鴻,唐世渭,張銘,楊冬青,陳捷;Ontology研究綜述[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年05期
2 張鋒;樊孝忠;許云;;Chinese Term Extraction Based on PAT Tree[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
3 黃德根,馬玉霞,楊元生;基于互信息的中文姓名識(shí)別方法[J];大連理工大學(xué)學(xué)報(bào);2004年05期
4 蘇意玲;;基于機(jī)器學(xué)習(xí)的本體匹配的研究[J];福建電腦;2009年08期
5 索紅光;楊濤;;基于互信息的Web文檔聚類(lèi)方法[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
6 張文靜;梁穎紅;;術(shù)語(yǔ)抽取技術(shù)研究[J];信息技術(shù);2008年03期
7 于江德;樊孝忠;尹繼豪;;基于條件隨機(jī)場(chǎng)的中文科研論文信息抽取[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年09期
8 金春霞;周海巖;;基于機(jī)器學(xué)習(xí)的Web文本分類(lèi)技術(shù)及算法[J];長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期
9 趙正文;康耀紅;;統(tǒng)計(jì)語(yǔ)言模型在信息檢索中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2006年36期
10 賈美英;楊炳儒;鄭德權(quán);楊靖;;采用CRF技術(shù)的軍事情報(bào)術(shù)語(yǔ)自動(dòng)抽取研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年32期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條
1 劉建舟;術(shù)語(yǔ)自動(dòng)抽取系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年
2 張勇;中文術(shù)語(yǔ)自動(dòng)抽取相關(guān)方法研究[D];華中師范大學(xué);2006年
3 王東波;有標(biāo)記聯(lián)合結(jié)構(gòu)的自動(dòng)識(shí)別[D];南京師范大學(xué);2008年
4 羅準(zhǔn)辰;關(guān)鍵詞抽取的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
5 張二艷;術(shù)語(yǔ)自動(dòng)抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
6 馬志斌;特定領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法的研究[D];哈爾濱工業(yè)大學(xué);2009年
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 梁峰;金瑩;;基于Agent技術(shù)的語(yǔ)義網(wǎng)服務(wù)模型[J];安徽廣播電視大學(xué)學(xué)報(bào);2008年01期
2 陶皖,李平,廖述梅;當(dāng)前基于本體的語(yǔ)義標(biāo)注工具的分析[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年02期
3 趙秀芳;;基于本體的農(nóng)業(yè)信息檢索[J];安徽農(nóng)業(yè)科學(xué);2006年10期
4 蔡曈;徐惠;吳群;;土壤質(zhì)量聚類(lèi)分析——以封丘縣為例[J];安徽農(nóng)業(yè)科學(xué);2008年25期
5 周瓊;黃河;;基于百度百科的農(nóng)業(yè)專(zhuān)業(yè)詞匯自動(dòng)獲取方法研究[J];安徽農(nóng)業(yè)科學(xué);2009年14期
6 薛薈;譚三清;;林業(yè)應(yīng)用系統(tǒng)本體知識(shí)模型的構(gòu)建方法研究[J];現(xiàn)代農(nóng)業(yè)科技;2011年07期
7 谷川;田喜平;;基于條件隨機(jī)場(chǎng)的漢語(yǔ)詞性標(biāo)注方法研究[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2010年05期
8 葛文英;呂靖;;基于條件隨機(jī)場(chǎng)的中文人名識(shí)別[J];安陽(yáng)師范學(xué)院學(xué)報(bào);2010年05期
9 李善飛;魯延京;楊克巍;譚躍進(jìn);;武器裝備體系能力形式化描述研究[J];兵工自動(dòng)化;2010年02期
10 黃洪;劉增良;余達(dá)太;周紹華;;一種具有免疫特征的智能數(shù)據(jù)分類(lèi)分級(jí)模型[J];兵工學(xué)報(bào);2010年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 李貴;張兆鑫;李征宇;韓子洋;;WEB環(huán)境下基于領(lǐng)域本體的語(yǔ)義匹配技術(shù)研究[A];科學(xué)發(fā)展與社會(huì)責(zé)任(A卷)——第五屆沈陽(yáng)科學(xué)學(xué)術(shù)年會(huì)文集[C];2008年
2 于江德;王希杰;樊孝忠;;漢語(yǔ)詞法分析中上文和下文孰重孰輕[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
3 李偉剛;張克亮;王慧蘭;;基于航空領(lǐng)域本體知識(shí)庫(kù)的語(yǔ)義檢索研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 王建州;李廉;汪映海;;面向Ontology的電力信息系統(tǒng)的研究[A];2005年信息與通信領(lǐng)域博士后學(xué)術(shù)會(huì)議論文集[C];2005年
5 劉建毅;王菁華;王樅;;領(lǐng)域語(yǔ)義語(yǔ)法的統(tǒng)計(jì)生成[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
6 鄭笈;李思昆;陸筱霞;;大規(guī)模場(chǎng)景繪制的存儲(chǔ)數(shù)據(jù)調(diào)度組織研究[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國(guó)科協(xié)年會(huì)論文集(一)[C];2007年
7 楊昆;王軍;彭雙云;;基于Ontology的空間信息互操作初步研究[A];中國(guó)地理信息系統(tǒng)協(xié)會(huì)第八屆年會(huì)論文集[C];2004年
8 史東娜;王樅;李衛(wèi);;車(chē)牌識(shí)別領(lǐng)域的中文術(shù)語(yǔ)自動(dòng)抽取[A];中國(guó)電子學(xué)會(huì)第十五屆信息論學(xué)術(shù)年會(huì)暨第一屆全國(guó)網(wǎng)絡(luò)編碼學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2008年
9 范志煜;肖兵;沈薇薇;;基于概率本體的態(tài)勢(shì)估計(jì)應(yīng)用研究[A];中國(guó)自動(dòng)化學(xué)會(huì)中南六。▍^(qū))2010年第28屆年會(huì)·論文集[C];2010年
10 賈凌燕;陸一平;;淺談ontology方法及其發(fā)展[A];全國(guó)先進(jìn)制造技術(shù)高層論壇暨制造業(yè)自動(dòng)化、信息化技術(shù)研討會(huì)論文集[C];2005年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 卜志國(guó);海洋生態(tài)環(huán)境監(jiān)測(cè)系統(tǒng)數(shù)據(jù)集成與應(yīng)用研究[D];中國(guó)海洋大學(xué);2010年
2 熊晶;海洋生態(tài)本體的建模方法研究及應(yīng)用[D];中國(guó)海洋大學(xué);2010年
3 張俐;面向概念設(shè)計(jì)方案選擇的協(xié)同決策方法研究[D];華中科技大學(xué);2010年
4 韓赟;高技術(shù)虛擬企業(yè)(HTVE)知識(shí)管理模式研究[D];哈爾濱理工大學(xué);2009年
5 王亞萍;需求驅(qū)動(dòng)的個(gè)性化產(chǎn)品配置設(shè)計(jì)方法研究[D];哈爾濱理工大學(xué);2010年
6 游穎;客車(chē)信息集成控制系統(tǒng)配置設(shè)計(jì)中的分解技術(shù)研究[D];武漢理工大學(xué);2010年
7 連莉;本體中非分類(lèi)關(guān)系的理論體系研究[D];山東大學(xué);2010年
8 魏巍;定制產(chǎn)品智能重組設(shè)計(jì)關(guān)鍵技術(shù)與方法研究及其應(yīng)用[D];浙江大學(xué);2010年
9 陳曦;基于子串的文本分割與主題標(biāo)注研究[D];武漢大學(xué);2009年
10 王德鑫;四路攝像頭協(xié)同多重觸控技術(shù)研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 厲穎;基于本體的服裝領(lǐng)域知識(shí)表示的建模研究[D];山東科技大學(xué);2010年
2 呂媛媛;基于本體的物流信息集成系統(tǒng)的研究[D];山東科技大學(xué);2010年
3 呂晨;搜索競(jìng)價(jià)廣告關(guān)鍵詞優(yōu)化問(wèn)題研究[D];山東科技大學(xué);2010年
4 許坤;基于本體的應(yīng)急信息管理系統(tǒng)的研究與設(shè)計(jì)[D];鄭州大學(xué);2010年
5 張軍琿;基于統(tǒng)計(jì)的常用漢語(yǔ)副詞用法自動(dòng)識(shí)別研究[D];鄭州大學(xué);2010年
6 王洋;基于潛在語(yǔ)義分析的智能搜索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
7 劉洋;基于本體的醫(yī)保審計(jì)知識(shí)庫(kù)構(gòu)建研究[D];哈爾濱工程大學(xué);2010年
8 劉海嬌;基于魔力平臺(tái)的需求分析系統(tǒng)的研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
9 杜娟;基于語(yǔ)義網(wǎng)格的知識(shí)地圖資源組織研究與應(yīng)用[D];哈爾濱工程大學(xué);2010年
10 耿倩;基于文本相似度計(jì)算的文本聚類(lèi)算法研究與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 許勇;宋柔;;基于半CRF模型的百科全書(shū)文本段落劃分[J];北京工業(yè)大學(xué)學(xué)報(bào);2008年02期
2 朱靖波,張玫杰,姚天順;一種基于NA假設(shè)的訓(xùn)練數(shù)據(jù)自動(dòng)構(gòu)造方法[J];東北大學(xué)學(xué)報(bào);1999年04期
3 孫宏林,俞士汶;淺層句法分析方法概述[J];當(dāng)代語(yǔ)言學(xué);2000年02期
4 吳云芳;;并列成分中心語(yǔ)語(yǔ)義相似性考察[J];當(dāng)代語(yǔ)言學(xué);2005年04期
5 馬穎華,王永成,蘇貴洋;一種在漢語(yǔ)文本中抽取重復(fù)字串的快速算法[J];電子學(xué)報(bào);2002年S1期
6 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報(bào);2005年02期
7 周俊生;戴新宇;尹存燕;陳家駿;;基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J];電子學(xué)報(bào);2006年05期
8 劉桃;劉秉權(quán);徐志明;王曉龍;;領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取及其在文本分類(lèi)中的應(yīng)用[J];電子學(xué)報(bào);2007年02期
9 劉遠(yuǎn)超;王曉龍;徐志明;劉秉權(quán);;基于粗集理論的中文關(guān)鍵詞短語(yǔ)構(gòu)成規(guī)則挖掘[J];電子學(xué)報(bào);2007年02期
10 張仰森,徐波,曹元大;自然語(yǔ)言處理中的語(yǔ)言模型及其比較研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 張普;;流通度在IT術(shù)語(yǔ)識(shí)別中的應(yīng)用分析——關(guān)于術(shù)語(yǔ)、術(shù)語(yǔ)學(xué)、術(shù)語(yǔ)數(shù)據(jù)庫(kù)的研究[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
2 李蕓;王強(qiáng)軍;張普;;信息技術(shù)領(lǐng)域術(shù)語(yǔ)自動(dòng)提取和動(dòng)態(tài)更新研究[A];輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 馬清華;并列結(jié)構(gòu)的自組織研究[D];華東師范大學(xué);2004年
2 鄧云華;漢語(yǔ)聯(lián)合短語(yǔ)的類(lèi)型和共性研究[D];湖南師范大學(xué);2004年
3 徐艷華;現(xiàn)代漢語(yǔ)實(shí)詞語(yǔ)法功能考察及詞類(lèi)體系重構(gòu)[D];南京師范大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 高建忠;漢語(yǔ)動(dòng)賓搭配的自動(dòng)識(shí)別研究[D];北京語(yǔ)言文化大學(xué);2000年
2 劉建舟;術(shù)語(yǔ)自動(dòng)抽取系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2004年
3 陳晴;基于條件隨機(jī)場(chǎng)的自動(dòng)分詞技術(shù)的研究[D];東北大學(xué);2005年
4 于浚濤;基于最大熵的漢語(yǔ)介詞短語(yǔ)自動(dòng)識(shí)別[D];大連理工大學(xué);2006年
5 向曉雯;基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別[D];廈門(mén)大學(xué);2006年
6 錢(qián)小飛;含“的”最長(zhǎng)名詞短語(yǔ)的自動(dòng)識(shí)別[D];南京師范大學(xué);2007年
7 王香港;中文文本自動(dòng)分類(lèi)算法研究[D];上海交通大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 祁躍林;;關(guān)于圖情事業(yè)轉(zhuǎn)變發(fā)展方式的思考(上)——以云南省文獻(xiàn)信息資源建設(shè)與發(fā)展為例[J];農(nóng)村實(shí)用技術(shù);2010年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 袁麗文;劉偉;;國(guó)防科技圖書(shū)館學(xué)科館員隊(duì)伍建設(shè)的思考[A];中國(guó)圖書(shū)館學(xué)會(huì)專(zhuān)業(yè)圖書(shū)館分會(huì)2009年學(xué)術(shù)年會(huì)論文集[C];2009年
2 何瑋;;開(kāi)展和深化學(xué)科化信息服務(wù)之我見(jiàn)[A];中國(guó)圖書(shū)館學(xué)會(huì)專(zhuān)業(yè)圖書(shū)館分會(huì)2009年學(xué)術(shù)年會(huì)論文集[C];2009年
3 吳寶亮;冉克梅;;以館藏為核心的高校圖書(shū)館管理[A];全國(guó)高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前5條
1 本報(bào)記者 馬子雷;[N];中國(guó)文化報(bào);2011年
2 記者 殷燕召;[N];光明日?qǐng)?bào);2010年
3 記者 馬子雷;[N];中國(guó)文化報(bào);2010年
4 本報(bào)記者 舒琳;[N];中國(guó)文化報(bào);2010年
5 黃善蓉 記者 張莉琴;[N];瀘州日?qǐng)?bào);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 林晶靚;基于領(lǐng)域本體的圖情博客語(yǔ)義搜索系統(tǒng)研究[D];南京農(nóng)業(yè)大學(xué);2010年
2 李品;我國(guó)國(guó)情研究國(guó)際化發(fā)展評(píng)價(jià)指標(biāo)與策略研究[D];江蘇大學(xué);2010年
3 陳必坤;基于Nutch的圖情博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];鄭州大學(xué);2011年
4 李亞芳;學(xué)術(shù)型開(kāi)放存取期刊的質(zhì)量評(píng)估[D];山西大學(xué);2012年
5 王紅;我國(guó)圖書(shū)情報(bào)學(xué)科研究熱點(diǎn)分析(1998-2007)[D];河南科技大學(xué);2009年
6 陳曙光;我國(guó)圖書(shū)館職業(yè)資格認(rèn)證制度研究[D];黑龍江大學(xué);2009年
7 胡群;高校圖書(shū)館信息共享空間模型設(shè)計(jì)及實(shí)例分析[D];山東理工大學(xué);2010年
8 張芳;中學(xué)圖書(shū)館員職業(yè)承諾與心理健康的狀況及其關(guān)系研究[D];福建師范大學(xué);2009年
9 周瑩;云南省臨滄市開(kāi)展情報(bào)服務(wù)及研究工作的現(xiàn)狀分析[D];云南大學(xué);2013年
本文關(guān)鍵詞:圖情檔術(shù)語(yǔ)自動(dòng)提取研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):58846
本文鏈接:http://www.sikaile.net/tushudanganlunwen/58846.html