天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學(xué)習(xí)的專業(yè)領(lǐng)域術(shù)語識別系統(tǒng)設(shè)計與實現(xiàn)

發(fā)布時間:2022-07-07 08:36
  隨著移動互聯(lián)網(wǎng)技術(shù)與信息技術(shù)的高速發(fā)展,傳統(tǒng)的紙質(zhì)文獻(xiàn)正在逐步被電子文獻(xiàn)取代,這種進(jìn)步在極大程度上減少了科研人員在獲取文獻(xiàn)資料時需要投入的時間與精力。專業(yè)領(lǐng)域術(shù)語識別是一項從特定專業(yè)領(lǐng)域的文本語料庫中發(fā)現(xiàn)該領(lǐng)域?qū)I(yè)詞匯的任務(wù),對電子文獻(xiàn)的語義分析以及文本語料庫的快速檢索都具有重要意義。當(dāng)前主流的專業(yè)領(lǐng)域術(shù)語識別過程主要依靠統(tǒng)計學(xué)和語言學(xué)的結(jié)合來完成術(shù)語的提取與識別過程,好的識別方法往往來源于幾種簡單的術(shù)語識別算法的結(jié)合。目前的術(shù)語識別技術(shù)主要依賴于傳統(tǒng)的統(tǒng)計學(xué)方法,一些研究人員已經(jīng)開始探究深度神經(jīng)網(wǎng)絡(luò)在術(shù)語識別過程中的應(yīng)用,但尚未形成完整的可操作系統(tǒng)。因此,本文基于深度學(xué)習(xí)技術(shù),設(shè)計并實現(xiàn)了一個可擴(kuò)展、可靈活實施的專業(yè)領(lǐng)域術(shù)語識別系統(tǒng)。本文主要包括以下幾方面工作:(1)基于N-gram模型對原始文本進(jìn)行預(yù)處理,將完整的文章用特殊標(biāo)識切分成細(xì)小的文字片段。(2)提出了一種基于注意力機(jī)制的雙向長短期記憶神經(jīng)網(wǎng)絡(luò)模型提取文字片段中的術(shù)語,并引入條件隨機(jī)場模型提升網(wǎng)絡(luò)對長單詞的識別準(zhǔn)確率。(3)基于信息熵提出了一種術(shù)語可信度計算方法,提升系統(tǒng)對當(dāng)前專業(yè)領(lǐng)域術(shù)語的識別準(zhǔn)確率。(4)引入字向量模型... 

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 項目背景
    1.2 研究現(xiàn)狀
    1.3 主要工作
        1.3.1 研究目標(biāo)
        1.3.2 研究內(nèi)容
    1.4 研究創(chuàng)新點與關(guān)鍵技術(shù)
    1.5 論文結(jié)構(gòu)
第二章 相關(guān)技術(shù)介紹
    2.1 算法介紹
        2.1.1 N-Gram模型介紹
        2.1.2 信息熵與互信息
        2.1.3 SVM分類算法介紹
    2.2 相關(guān)神經(jīng)網(wǎng)絡(luò)模型
        2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)
        2.2.2 條件隨機(jī)場模型
        2.2.3 注意力模型
    2.3 詞向量技術(shù)介紹
        2.3.1 One-hot技術(shù)
        2.3.2 Word2vec技術(shù)
    2.4 中文專業(yè)領(lǐng)域術(shù)語特性
    2.5 本章小結(jié)
第三章 專業(yè)領(lǐng)域術(shù)語識別系統(tǒng)總體設(shè)計
    3.1 研究概況
        3.1.1 應(yīng)用場景
        3.1.2 問題描述及原因分析
    3.2 整體系統(tǒng)設(shè)計
        3.2.1 文本初步切分模塊
        3.2.2 術(shù)語提取模塊
        3.2.3 術(shù)語可信度驗證模塊
        3.2.4 術(shù)語分類模塊
    3.3 本章小結(jié)
第四章 專業(yè)領(lǐng)域術(shù)語識別系統(tǒng)的詳細(xì)設(shè)計與實現(xiàn)
    4.1 基于N-Gram模型的文本切分
        4.1.1 基于N-Gram模型的文本切分方法
        4.1.2 N-Gram模型的數(shù)據(jù)平滑
    4.2 基于神經(jīng)網(wǎng)絡(luò)模型的術(shù)語提取
        4.2.1 BLSTM模型
        4.2.2 BLSTM-CRF
        4.2.3 基于注意力的BLSTM-CRF模型
        4.2.4 Att-BLSTM-CRF模型訓(xùn)練
    4.3 基于互信息的術(shù)語可信度驗證
        4.3.1 術(shù)語可信度
        4.3.2 術(shù)語可信度驗證流程
    4.4 基于字向量與SVM的術(shù)語分類
        4.4.1 字向量訓(xùn)練模塊
        4.4.2 基于SVM的術(shù)語分類
        4.4.3 術(shù)語特征抽取
    4.5 本章小結(jié)
第五章 測試結(jié)果及分析
    5.1 實驗平臺介紹
    5.2 測試環(huán)境搭建
    5.3 測試對比對象介紹
    5.4 實驗評價指標(biāo)
    5.5 測試結(jié)果及分析
    5.6 本章小結(jié)
第六章 結(jié)束語
    6.1 論文總結(jié)
    6.2 下一步研究工作
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄


【參考文獻(xiàn)】:
期刊論文
[1]利用URL-Key領(lǐng)域術(shù)語識別方法[J]. 呂書寧,董志安.  北京大學(xué)學(xué)報(自然科學(xué)版). 2018(02)
[2]改進(jìn)最小二乘支持向量機(jī)電量預(yù)測算法[J]. 楊柳,吳延琳,張超,劉超,蔣勃,張鵬.  電網(wǎng)與清潔能源. 2017(03)
[3]科技項目查重系統(tǒng)構(gòu)建研究[J]. 張新民,張愛霞,鄭彥寧.  情報學(xué)報. 2016 (09)
[4]基于支持向量機(jī)的遙感圖像分類研究綜述[J]. 王振武,孫佳駿,于忠義,卜異亞.  計算機(jī)科學(xué). 2016(09)
[5]基于支持向量機(jī)的分類辨識方法及應(yīng)用[J]. 馬相東,盧占慶,譚永彥,王秀英.  控制工程. 2016(05)
[6]基于粒子群算法的決策樹SVM多分類方法研究[J]. 王道明,魯昌華,蔣薇薇,肖明霞,李必然.  電子測量與儀器學(xué)報. 2015(04)
[7]SNOMED CT術(shù)語分類體系設(shè)定學(xué)科背景的探討[J]. 郭玉峰,劉保延,尹愛寧.  世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化. 2007(04)
[8]領(lǐng)域術(shù)語自動抽取及其在文本分類中的應(yīng)用[J]. 劉桃,劉秉權(quán),徐志明,王曉龍.  電子學(xué)報. 2007(02)
[9]中文金融新聞中公司名的識別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷.  中文信息學(xué)報. 2002(02)



本文編號:3656094

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3656094.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6cd50***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com