天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

文本特征和復(fù)合統(tǒng)計(jì)量的領(lǐng)域術(shù)語(yǔ)抽取方法

發(fā)布時(shí)間:2019-02-09 12:30
【摘要】:中文領(lǐng)域術(shù)語(yǔ)的抽取,是文本知識(shí)挖掘的重要內(nèi)容。傳統(tǒng)的中文領(lǐng)域術(shù)語(yǔ)抽取方法以人工方法為主,顯然這種方法費(fèi)時(shí)費(fèi)力。目前,處于研究階段的中文領(lǐng)域術(shù)語(yǔ)自動(dòng)化抽取方法主要有:基于字典的方法、基于規(guī)則的方法以及基于統(tǒng)計(jì)的方法。但由于中文自然語(yǔ)言的復(fù)雜性,這些自動(dòng)化抽取方法都存在一定的局限性,比如對(duì)特定領(lǐng)域的用戶字典及規(guī)則存在更新速度慢、文本特征考慮不足等,從而導(dǎo)致抽取的效果不佳。針對(duì)這一問(wèn)題,提出了一種基于文本特征和復(fù)合統(tǒng)計(jì)量的中文領(lǐng)域術(shù)語(yǔ)抽取方法,該方法在對(duì)中文文檔中的詞語(yǔ)進(jìn)行粗粒度篩選后,再綜合考慮候選術(shù)語(yǔ)的詞性、長(zhǎng)度、邊界詞語(yǔ)等文本特征,構(gòu)造出信息熵和TFIDF等統(tǒng)計(jì)量,計(jì)算其綜合權(quán)值,并將綜合權(quán)值大于設(shè)定閾值的候選術(shù)語(yǔ)抽取出來(lái),作為最終的領(lǐng)域術(shù)語(yǔ)。實(shí)驗(yàn)結(jié)果表明,該方法在測(cè)試語(yǔ)料下,獲得了較好的正確率、召回率和F值。
[Abstract]:The extraction of terms in Chinese domain is an important part of text knowledge mining. The traditional Chinese domain term extraction method is mainly manual, obviously this method is time-consuming and laborious. At present, the automatic extraction methods of Chinese terminology are mainly based on dictionaries, rules and statistics. However, due to the complexity of Chinese natural language, these automatic extraction methods have some limitations, such as slow updating of user dictionaries and rules in specific fields, insufficient consideration of text features, etc. As a result, the effect of extraction is not good. In order to solve this problem, this paper proposes a method of extracting terms in Chinese domain based on text features and compound statistics. After coarse-grained selection of the words in Chinese documents, the method synthetically considers the part of speech and length of candidate terms. Based on the text features such as boundary words, information entropy and TFIDF statistics are constructed, the synthetic weights are calculated, and the candidate terms whose weights are greater than the threshold are extracted as the final domain terms. The experimental results show that the proposed method has good accuracy, recall and F value under the test data.
【作者單位】: 西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:陜西省自然科學(xué)基金(2015JM6290)資助
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張文靜;梁穎紅;;術(shù)語(yǔ)抽取技術(shù)研究[J];信息技術(shù);2008年03期

2 程斌;張水茂;;基于統(tǒng)計(jì)與規(guī)則的術(shù)語(yǔ)抽取[J];科技廣場(chǎng);2009年09期

3 杜波,田懷鳳,王立,陸汝占;基于多策略的專業(yè)領(lǐng)域術(shù)語(yǔ)抽取器的設(shè)計(jì)[J];計(jì)算機(jī)工程;2005年14期

4 胡文敏;何婷婷;張勇;;基于卡方檢驗(yàn)的漢語(yǔ)術(shù)語(yǔ)抽取[J];計(jì)算機(jī)應(yīng)用;2007年12期

5 周浪;馮沖;黃河燕;;一種面向術(shù)語(yǔ)抽取的短語(yǔ)過(guò)濾技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2009年19期

6 康小麗;章成志;王惠臨;;基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取研究述評(píng)[J];現(xiàn)代圖書情報(bào)技術(shù);2009年10期

7 許德山;張智雄;王峰;邢美鳳;;上下文分析與統(tǒng)計(jì)特征相結(jié)合的英文術(shù)語(yǔ)抽取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2010年12期

8 劉里;劉小明;;基于分隔符和上下文術(shù)語(yǔ)的領(lǐng)域現(xiàn)象術(shù)語(yǔ)抽取[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年07期

9 唐濤;周俏麗;張桂平;;統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語(yǔ)抽取[J];沈陽(yáng)航空航天大學(xué)學(xué)報(bào);2011年05期

10 鐘玉峰;;基于平行語(yǔ)料庫(kù)的文獻(xiàn)術(shù)語(yǔ)抽取研究[J];黑龍江工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期

相關(guān)會(huì)議論文 前2條

1 章成志;王惠臨;;基于專業(yè)領(lǐng)域平行語(yǔ)料的雙語(yǔ)核心術(shù)語(yǔ)抽取研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

2 寧海燕;劉秉權(quán);張德園;劉遠(yuǎn)超;王曉龍;;基于統(tǒng)計(jì)的中文領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法的比較研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

相關(guān)博士學(xué)位論文 前2條

1 周浪;中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D];南京理工大學(xué);2010年

2 肖奕;地質(zhì)數(shù)據(jù)信息服務(wù)參考模型及關(guān)鍵技術(shù)研究[D];中國(guó)地質(zhì)大學(xué)(北京);2013年

相關(guān)碩士學(xué)位論文 前9條

1 何福江;基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[D];北京理工大學(xué);2015年

2 李丹;特定領(lǐng)域中文術(shù)語(yǔ)抽取[D];大連理工大學(xué);2011年

3 田俊瑋;軍事領(lǐng)域中文術(shù)語(yǔ)抽取的研究[D];大連理工大學(xué);2013年

4 趙欣;基于最大熵的中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

5 段國(guó)成;基于CCD的術(shù)語(yǔ)抽取研究[D];鄭州大學(xué);2007年

6 唐濤;面向特定領(lǐng)域的中文分詞技術(shù)的研究[D];沈陽(yáng)航空航天大學(xué);2012年

7 譚龍;領(lǐng)域文本術(shù)語(yǔ)抽取與語(yǔ)義概念圖構(gòu)建模型研究[D];華東交通大學(xué);2014年

8 姚賢明;領(lǐng)域概念自動(dòng)抽取研究[D];昆明理工大學(xué);2010年

9 劉颯;專業(yè)領(lǐng)域可比語(yǔ)料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年

,

本文編號(hào):2418961

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2418961.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶570f1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com