天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向專利信息處理的語義分析方法研究

發(fā)布時間:2021-03-04 17:00
  近年來,中國的專利申請量極大且增速較快。報告顯示僅2017年,國內發(fā)明專利申請量就高達138.2萬件,同比增長14.2%,已審結74.4萬件,未審結的專利文獻量都很大而且不斷增長。人工進行專利信息的標引和分類需要大量有專業(yè)基礎的人,因此工作量巨大且進展緩慢,標引和分類時容易出現一致性錯誤,造成專利文獻檢索漏檢、偏檢和噪音大等問題。專利文本是一種半結構化的數據,難用現有數據結構方法加以規(guī)范。如何從具有技術和法律二維特征的專利文獻中提取所需要的技術特征,對專利文獻所描述的技術內容加以解析,是基于技術語言語義分析領域研究的重點。傳統(tǒng)基于詞頻統(tǒng)計的文本挖掘方法難以適應專利文獻的復雜結構,導致分析結果準確性不足,因此開展以專利文獻為代表的技術語言的語義分析研究,準確定位和提取專利文獻中的技術和產品特征。本文圍繞專利文本的語義分析需求,重點對專利語言特征的準確提取開展研究與實驗。通過構建專利領域本體來獲取盡可能多專利領域術語信息,提高專利文獻檢索的查全率和查準率,并減少人工標引和檢索的工作量。為此,本文主要做了如下研究工作:1、基于依存關系樹-CRF(條件隨機場)的文本術語提取;谝来骊P系樹-C... 

【文章來源】:江蘇科技大學江蘇省

【文章頁數】:75 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景及意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 研究現狀
    1.3 研究內容
        1.3.1 專利文獻的預處理
        1.3.2 術語提取及術語間關系提取
        1.3.3 構建領域本體
    1.4 本文結構
第2章 課題相關技術概述
    2.1 概述
    2.2 專利文本預處理
        2.2.1 專利文本的相關概念
        2.2.2 專利文本的獲取
        2.2.3 文本分詞
        2.2.4 詞性標注
        2.2.5 停用詞過濾
    2.3 文本特征詞提取
        2.3.1 卡方檢驗
        2.3.2 信息增益
        2.3.3 相關系數
        2.3.4 互信息(MI)
    2.4 術語提取
        2.4.1 基于語言學的術語提取
        2.4.2 基于統(tǒng)計學的術語提取
        2.4.3 基于機器學習的術語提取
        2.4.4 混合方法
    2.5 術語間關系提取
        2.5.1 K-MEANS聚類
        2.5.2 Lexico-syntactic Patterns
        2.5.3 關聯法則
    2.6 領域本體
        2.6.1 本體定義
        2.6.2 本體的表達
        2.6.3 基于文本的本體學習框架
        2.6.4 本體語言
        2.6.5 本體編輯工具
        2.6.6 本體填充
        2.6.7 本體評測
第3章 基于依存關系樹-CRF的術語提取研究
    3.1 概述
    3.2 基于條件隨機場領域術語識別
        3.2.1 條件隨機場
        3.2.2 算法過程
        3.2.3 CRF的算法分析
    3.3 基于依存關系樹-CRF的文本術語提取
        3.3.1 依存關系樹
        3.3.2 利用語義三元組挖掘技術特征詞
        3.3.3 基于依存關系樹-CRF的文本術語提取
    3.4 實驗結果與分析
        3.4.1 實驗數據
        3.4.2 實驗過程
        3.4.3 評測方法
        3.4.4 特征模版
        3.4.5 訓練參數確定
        3.4.6 實驗結果與分析
第4章 K-MEANS算法改進及其在三支決策中的應用研究
    4.1 概述
    4.2 傳統(tǒng)的K-MEANS算法的研究現狀
    4.3 三支決策聚類的相關概念
    4.4 基于傳統(tǒng)K-MEANS算法的三支聚類
    4.5 改進的K-MEANS算法
    4.6 改進的K-MEANS算法在三支決策中的應用研究
    4.7 實驗結果與分析
        4.7.1 實驗數據與說明
        4.7.2 評測方法
        4.7.3 實驗結果
        4.7.4 實驗一的結果分析
        4.7.5 實驗二的結果分析
        4.7.6 穩(wěn)定性
        4.7.7 實驗小結
第5章 基于改進K-MEANS聚類算法的術語層次關系提取
    5.1 概述
    5.2 基于語義的術語層次獲取流程
    5.3 建立概念向量空間
    5.4 計算術語語義相似度
    5.5 基于改進K-MEANS的術語聚類算法
    5.6 構建術語語義層次關系
    5.7 實驗結果與分析
        5.7.1 實驗數據
        5.7.2 術語層次劃分的算法流程
        5.7.3 實驗結果
    5.8 構建領域實體
第6章 總結與展望
    6.1 主要工作及創(chuàng)新點
    6.2 今后工作展望
參考文獻
攻讀學位期間發(fā)表的學術論文
致謝


【參考文獻】:
期刊論文
[1]Extracting Relevant Terms from Mashup Descriptions for Service Recommendation[J]. Yang Zhong,Yushun Fan.  Tsinghua Science and Technology. 2017(03)
[2]K-means算法初始聚類中心選擇的優(yōu)化[J]. 郁啟麟.  計算機系統(tǒng)應用. 2017(05)
[3]深度學習算法在藏文情感分析中的應用研究[J]. 普次仁,侯佳林,劉月,翟東海.  計算機科學與探索. 2017(07)
[4]面向中國專利文獻的零形回指消解規(guī)則研究[J]. 靳瑋,喬曉東,劉耀,齊曉亞.  圖書情報工作. 2015(09)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測[J]. 申國偉,楊武,王巍,于淼.  計算機研究與發(fā)展. 2015(02)
[6]K-means算法初始聚類中心選擇的優(yōu)化[J]. 馮波,郝文寧,陳剛,占棟輝.  計算機工程與應用. 2013(14)
[7]基于條件隨機場的領域術語識別研究[J]. 施水才,王鍇,韓艷鏵,呂學強.  計算機工程與應用. 2013(10)
[8]C-value值和unithood指標結合的中文科技術語抽取[J]. 韓紅旗,安小米.  圖書情報工作. 2012(19)
[9]基于k-means聚類算法的研究[J]. 黃韜,劉勝輝,譚艷娜.  計算機技術與發(fā)展. 2011(07)
[10]面向領域中文文本信息處理的術語語義層次獲取研究[J]. 季培培,鄢小燕,岑詠華,王凌燕.  現代圖書情報技術. 2010(09)



本文編號:3063573

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3063573.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶32ba5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com