基于術(shù)語(yǔ)長(zhǎng)度和語(yǔ)法特征的統(tǒng)計(jì)領(lǐng)域術(shù)語(yǔ)抽取
本文選題:自然語(yǔ)言處理 切入點(diǎn):術(shù)語(yǔ)抽取 出處:《哈爾濱工程大學(xué)學(xué)報(bào)》2017年09期 論文類型:期刊論文
【摘要】:針對(duì)領(lǐng)域術(shù)語(yǔ)抽取中含字長(zhǎng)度較大的術(shù)語(yǔ)被錯(cuò)誤切分的問題,本文提出一種基于術(shù)語(yǔ)長(zhǎng)度和語(yǔ)法特征的統(tǒng)計(jì)領(lǐng)域術(shù)語(yǔ)抽取方法。本方法在利用機(jī)器學(xué)習(xí)抽取候選術(shù)語(yǔ)時(shí),加入基于術(shù)語(yǔ)長(zhǎng)度和語(yǔ)法特征的約束規(guī)則;在使用統(tǒng)計(jì)方法確定候選術(shù)語(yǔ)的領(lǐng)域性時(shí),充分考慮詞長(zhǎng)比這一概念的重要性,將其作為判斷術(shù)語(yǔ)領(lǐng)域性的重要權(quán)值。實(shí)驗(yàn)表明,提出的方法能夠正確抽取含字長(zhǎng)度較大的領(lǐng)域術(shù)語(yǔ),抽取結(jié)果的準(zhǔn)確率和召回率相比以往的方法有所提高。
[Abstract]:In this paper, a statistical domain term extraction method based on term length and grammatical features is proposed to solve the problem of incorrect segmentation of large word length terms in domain term extraction, in which candidate terms are extracted by machine learning. A constraint rule based on term length and grammatical features is added. The importance of the concept of word length ratio is taken into account in determining the domain of candidate terms by using statistical methods. The proposed method can correctly extract the domain terms with large word length, and the accuracy and recall rate of the extraction results are improved compared with the previous methods.
【作者單位】: 天津理工大學(xué)計(jì)算機(jī)視覺與系統(tǒng)省部共建教育部重點(diǎn)實(shí)驗(yàn)室;天津理工大學(xué)天津市智能計(jì)算及軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(71501141,61301140) 天津市科技特派員項(xiàng)目(15JCTPJC63800)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張文靜;梁穎紅;;術(shù)語(yǔ)抽取技術(shù)研究[J];信息技術(shù);2008年03期
2 程斌;張水茂;;基于統(tǒng)計(jì)與規(guī)則的術(shù)語(yǔ)抽取[J];科技廣場(chǎng);2009年09期
3 杜波,田懷鳳,王立,陸汝占;基于多策略的專業(yè)領(lǐng)域術(shù)語(yǔ)抽取器的設(shè)計(jì)[J];計(jì)算機(jī)工程;2005年14期
4 胡文敏;何婷婷;張勇;;基于卡方檢驗(yàn)的漢語(yǔ)術(shù)語(yǔ)抽取[J];計(jì)算機(jī)應(yīng)用;2007年12期
5 周浪;馮沖;黃河燕;;一種面向術(shù)語(yǔ)抽取的短語(yǔ)過濾技術(shù)[J];計(jì)算機(jī)工程與應(yīng)用;2009年19期
6 康小麗;章成志;王惠臨;;基于可比語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取研究述評(píng)[J];現(xiàn)代圖書情報(bào)技術(shù);2009年10期
7 許德山;張智雄;王峰;邢美鳳;;上下文分析與統(tǒng)計(jì)特征相結(jié)合的英文術(shù)語(yǔ)抽取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2010年12期
8 劉里;劉小明;;基于分隔符和上下文術(shù)語(yǔ)的領(lǐng)域現(xiàn)象術(shù)語(yǔ)抽取[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年07期
9 唐濤;周俏麗;張桂平;;統(tǒng)計(jì)與規(guī)則相結(jié)合的術(shù)語(yǔ)抽取[J];沈陽(yáng)航空航天大學(xué)學(xué)報(bào);2011年05期
10 鐘玉峰;;基于平行語(yǔ)料庫(kù)的文獻(xiàn)術(shù)語(yǔ)抽取研究[J];黑龍江工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年04期
相關(guān)會(huì)議論文 前2條
1 章成志;王惠臨;;基于專業(yè)領(lǐng)域平行語(yǔ)料的雙語(yǔ)核心術(shù)語(yǔ)抽取研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 寧海燕;劉秉權(quán);張德園;劉遠(yuǎn)超;王曉龍;;基于統(tǒng)計(jì)的中文領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取方法的比較研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
相關(guān)博士學(xué)位論文 前2條
1 周浪;中文術(shù)語(yǔ)抽取若干問題研究[D];南京理工大學(xué);2010年
2 肖奕;地質(zhì)數(shù)據(jù)信息服務(wù)參考模型及關(guān)鍵技術(shù)研究[D];中國(guó)地質(zhì)大學(xué)(北京);2013年
相關(guān)碩士學(xué)位論文 前9條
1 何福江;基于平行語(yǔ)料庫(kù)的雙語(yǔ)術(shù)語(yǔ)抽取[D];北京理工大學(xué);2015年
2 李丹;特定領(lǐng)域中文術(shù)語(yǔ)抽取[D];大連理工大學(xué);2011年
3 田俊瑋;軍事領(lǐng)域中文術(shù)語(yǔ)抽取的研究[D];大連理工大學(xué);2013年
4 趙欣;基于最大熵的中文術(shù)語(yǔ)抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年
5 段國(guó)成;基于CCD的術(shù)語(yǔ)抽取研究[D];鄭州大學(xué);2007年
6 唐濤;面向特定領(lǐng)域的中文分詞技術(shù)的研究[D];沈陽(yáng)航空航天大學(xué);2012年
7 譚龍;領(lǐng)域文本術(shù)語(yǔ)抽取與語(yǔ)義概念圖構(gòu)建模型研究[D];華東交通大學(xué);2014年
8 姚賢明;領(lǐng)域概念自動(dòng)抽取研究[D];昆明理工大學(xué);2010年
9 劉颯;專業(yè)領(lǐng)域可比語(yǔ)料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年
,本文編號(hào):1618029
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1618029.html