基于多種數據源的中文知識圖譜構建方法研究
本文關鍵詞:基于多種數據源的中文知識圖譜構建方法研究
更多相關文章: 知識圖譜構建 本體學習 開放鏈接數據 實體 自監(jiān)督學習
【摘要】:自從語義網的概念提出以來,越來越多的開放鏈接數據和用戶生成內容被發(fā)布于互聯網中,互聯網逐步從僅包含網頁與網頁之間超鏈接的文檔萬維網轉變?yōu)榘罅棵枋龈鞣N實體和實體之間豐富關系的數據萬維網。在此背景下,知識圖譜首先由Google提出,其目標在于描述真實世界中存在的各種實體和概念,以及這些實體、概念之間的關聯關系。知識圖譜在實體層面對本體進行了豐富和擴充;本體中突出和強調的是概念以及概念之間的關聯關系,描述了知識圖譜的數據模式;而知識圖譜則是在本體的基礎上,增加了更加豐富的關于實體的信息。知識圖譜在語義搜索、智能問答、知識工程、數據挖掘和數字圖書館等領域有著廣泛的應用。 本文在現有知識圖譜及其本體構建研究的基礎上,研究從多種數據源中構建中文知識圖譜,在以下方面展開了研究工作: 1.充分利用互聯網中的各類結構化或半結構化的信息,包括各種開放鏈接數據、在線百科、行業(yè)網站等,這些數據在覆蓋范圍方面有較大的優(yōu)勢,更新速度也比較快。本文描述了從這些結構化或半結構化的數據源中抽取和學習知識的方法,利用這些數據在廣度上的優(yōu)勢保證所構建的知識圖譜的質量。 2.研究如何綜合使用多種數據源構建中文知識圖譜,結合各種數據源的優(yōu)勢,包括關系數據庫中數據的準確性,互聯網中的開放鏈接數據和領域公開知識庫的廣度優(yōu)勢,行業(yè)數據的深度優(yōu)勢等。提出一種基于多種數據源的知識圖譜構建方法,該方法綜合利用不同數據源的優(yōu)勢,相互輔助進行知識學習;同時利用多種數據源之間的冗余數據對知識圖譜的準確性進行有效地保證。 3.研究如何從大規(guī)模的互聯網文本中抽取知識圖譜形式的知識,提出一種基于自監(jiān)督機器學習的開放中文關系抽取方法,用于抽取實體(概念)之間的同義關系、上下位關系和屬性關系。該方法的主要優(yōu)勢在于能夠使用從結構化數據或半結構化數據中得到的知識以及一些通用的啟發(fā)式規(guī)則,自動標注語料。對于網頁中文本內容的抽取,提出了一種基于啟發(fā)式規(guī)則的網頁正文內容抽取算法,自動識別網頁中的正文內容。 4.對于行業(yè)知識圖譜的構建,研究如何利用行業(yè)內部的結構化數據,設計了一種易于使用的從關系型數據到知識圖譜語義數據的映射語言。同時研究如何自動地從互聯網中發(fā)現行業(yè)數據,包括開放的知識庫和行業(yè)網站等,提出了一種從少數行業(yè)種子關鍵詞開始自動發(fā)現互聯網中行業(yè)數據源的算法。 5.研究如何提供在線協作編輯平臺以有效地利用公眾共享知識的積極性,以“眾包”的方式編輯和完善知識圖譜。構建了一個知識圖譜在線編輯平臺,通過對學習算法進行配置以啟動自動學習過程,然后在自動學習的結果上進行知識圖譜的編輯。該平臺主要優(yōu)勢有:能夠支持大規(guī)模的用戶并發(fā)編輯;能夠與后臺的自動知識學習引擎結合。 最后,使用提出的知識圖譜構建算法成功構建了一個具備7,392,384實體和60,842,064事實的中文通用知識圖譜;與現有的知識庫和數據集進行對比表明本知識圖譜具備良好的覆蓋度;同時,評估結果表明該知識圖譜的平均準確率在95%以上。同時,本文還構建了一個魚類知識圖譜,由于構建時利用了多個現存的最完整的數據源,因此其覆蓋度非常高,包含了已知的32000余種魚類相關知識。
【關鍵詞】:知識圖譜構建 本體學習 開放鏈接數據 實體 自監(jiān)督學習
【學位授予單位】:華東理工大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.1
【目錄】:
- 摘要5-7
- Abstract7-14
- 第1章 引言14-29
- 1.1 研究背景14-16
- 1.2 研究現狀和存在的問題16-24
- 1.2.1 本體構建16-21
- 1.2.2 現有本體構建方法的不足21-22
- 1.2.3 知識圖譜構建22-23
- 1.2.4 知識圖譜相關研究存在的問題23-24
- 1.2.5 中文知識圖譜構建的特殊性24
- 1.3 研究內容及意義24-26
- 1.3.1 研究內容24-25
- 1.3.2 主要研究貢獻25-26
- 1.4 本文的組織26-29
- 第2章 知識圖譜構建過程29-35
- 2.1 知識圖譜的本體學習29-32
- 2.1.1 術語抽取29-30
- 2.1.2 同義關系抽取30
- 2.1.3 概念抽取30-31
- 2.1.4 分類學關系抽取31
- 2.1.5 非分類關系學習31-32
- 2.1.6 公理和規(guī)則學習32
- 2.2 實體層的學習32-33
- 2.2.1 實體學習32
- 2.2.2 實體數據填充32-33
- 2.2.3 實體對齊33
- 2.3 知識圖譜的數據更新33-34
- 2.3.1 數據模式層的更新33-34
- 2.3.2 數據層的更新34
- 2.4 通用知識圖譜和行業(yè)知識圖譜構建的區(qū)別34
- 2.5 本章小結34-35
- 第3章 知識圖譜構建的可用數據源分析35-54
- 3.1 數據源分析35-40
- 3.1.1 結構化數據35
- 3.1.2 機器可讀的開放本體或辭典35-36
- 3.1.3 開放鏈接數據與開放知識庫36-38
- 3.1.4 行業(yè)知識庫和行業(yè)垂直網站38
- 3.1.5 在線百科38-40
- 3.1.6 文本40
- 3.2 數據源采集40-44
- 3.2.1 開放鏈接數據采集41
- 3.2.2 百科采集41-42
- 3.2.3 文本信息采集42-44
- 3.3 數據清洗44-53
- 3.3.1 常用的網頁內容抽取方法44-45
- 3.3.2 基于啟發(fā)式規(guī)則的網頁正文內容抽取方法45-50
- 3.3.3 網頁正文內容抽取方法評估50-51
- 3.3.4 論壇內容的抽取51-53
- 3.3.5 其它類型網頁中內容的抽取53
- 3.4 本章小結53-54
- 第4章 基于多數據源的通用知識圖譜構建54-92
- 4.1 概念和實體學習54-55
- 4.1.1 從開放鏈接數據集中抽取概念和實體54
- 4.1.2 從百科中抽取概念和實體54
- 4.1.3 同名多義概念或實體54-55
- 4.1.4 概念或實體的摘要信息55
- 4.2 實體對齊(同義關系學習)55-72
- 4.2.1 從開放鏈接數據集中抽取同義關系55
- 4.2.2 基于百科結構化數據的百科實體對齊55-56
- 4.2.3 基于SVM的自監(jiān)督百科實體對齊方法56-61
- 4.2.4 開放鏈接數據集與百科間的實體對齊61
- 4.2.5 基于語言學模式的方法61
- 4.2.6 基于CRF的開放同義關系學習61-72
- 4.3 上下位關系學習72-76
- 4.3.1 從開放鏈接數據集中抽取上下位關系72-73
- 4.3.2 從百科中抽取上下位關系73-74
- 4.3.3 基于語言學模式的上下位關系抽取方法74
- 4.3.4 基于CRF的開放上下位關系學習方法74-75
- 4.3.5 分類樹整合75-76
- 4.4 屬性學習76-79
- 4.4.1 概念的屬性學習(數據模式的學習)76
- 4.4.2 從開放鏈接數據集中抽取概念屬性76
- 4.4.3 從百科中抽取實體屬性76-77
- 4.4.4 實體屬性升級成為概念屬性77-78
- 4.4.5 概念屬性的人工校驗78
- 4.4.6 實體屬性值的學習78-79
- 4.5 規(guī)則和公理學習79
- 4.6 學習過程中的沖突解決79-81
- 4.6.1 沖突發(fā)生點分析79-80
- 4.6.2 沖突檢測80
- 4.6.3 沖突解決方法80-81
- 4.7 知識圖譜的更新81-82
- 4.7.1 數據模式層的更新81
- 4.7.2 數據層的更新81-82
- 4.8 實驗與結果分析82-90
- 4.8.1 學習語料82
- 4.8.2 知識圖譜評估方法82
- 4.8.3 知識圖譜結果概覽82-83
- 4.8.4 概念評估83-84
- 4.8.5 實體評估84
- 4.8.6 實體對齊與同義關系評估84-85
- 4.8.7 基于SVM的自監(jiān)督百科實體對齊方法評估85
- 4.8.8 基于語言學模式的同義學習方法評估85-86
- 4.8.9 基于CRF的開放同義關系學習方法評估86-88
- 4.8.10 上下位關系學習結果評估88-89
- 4.8.11 屬性學習結果評估89
- 4.8.12 對比分析89-90
- 4.9 小結與討論90-92
- 4.9.1 本章小結90
- 4.9.2 知識圖譜構建討論90-92
- 第5章 基于多數據源的行業(yè)知識圖譜構建92-102
- 5.1 行業(yè)知識圖譜構建92-93
- 5.2 從結構化數據中學習知識93-94
- 5.2.1 D2R93
- 5.2.2 結構化數據映射工具93-94
- 5.2.3 結構化數據知識映射94
- 5.3 行業(yè)知識庫與行業(yè)網站的自動發(fā)現與抽取94-96
- 5.4 行業(yè)數據源解析96-98
- 5.5 從開放鏈接數據和在線百科中學習知識98
- 5.5.1 實體對齊98
- 5.5.2 實體的添加98
- 5.5.3 屬性知識的學習98
- 5.6 從文本中學習知識98-99
- 5.7 實驗與結果分析99-100
- 5.7.1 D2R分析99
- 5.7.2 行業(yè)知識庫和行業(yè)專業(yè)網站的自動發(fā)現99
- 5.7.3 行業(yè)數據源解析與抽取99-100
- 5.7.4 從百科中學習魚類知識圖譜100
- 5.7.5 從文本中學習魚類知識圖譜100
- 5.8 本章小結100-102
- 第6章 知識圖譜編輯與學習平臺102-116
- 6.1 現有的知識編輯工具102-104
- 6.2 知識圖譜協作編輯與學習平臺設計104-105
- 6.3 功能詳述105-109
- 6.3.1 知識學習配置106
- 6.3.2 數據模式定義106
- 6.3.3 基礎知識編輯106
- 6.3.4 知識圖譜的完整性和一致性106-107
- 6.3.5 并發(fā)協作編輯107
- 6.3.6 版本管理107
- 6.3.7 知識存儲107-108
- 6.3.8 數據備份108
- 6.3.9 用戶與權限管理108-109
- 6.4 編輯平臺與學習算法的銜接109
- 6.5 知識圖譜的應用109-115
- 6.5.1 語義檢索109-112
- 6.5.2 知識導航112
- 6.5.3 決策支持112-114
- 6.5.4 知識圖譜在行業(yè)中的應用114-115
- 6.6 本章小結115-116
- 第7章 總結和展望116-118
- 7.1 全文總結116
- 7.2 展望116-118
- 參考文獻118-128
- 致謝128-129
- 附錄1 攻讀學位期間發(fā)表的學術論文129-130
- 附錄2 攻讀學位期間參加的科研項目130
【共引文獻】
中國期刊全文數據庫 前10條
1 毛海燕;;基于FrameNet的英漢詞匯語義對比模式探索——以英漢情感框架詞匯語義對比研究為例[J];外語學刊;2010年04期
2 夏曉;潘和平;;基于支持向量機的人民幣兌美元匯率實證研究[J];管理學家(學術版);2010年08期
3 熊思;魯靜;;基于TW SVMs的入侵檢測方法[J];湖北第二師范學院學報;2009年02期
4 羅向陽;劉粉林;楊春芳;王道順;;基于最優(yōu)小波包分解的圖像隱寫通用檢測[J];中國科學:信息科學;2010年02期
5 陳濤;謝陽群;;基于支持向量機的外貿企業(yè)客戶分類方法應用研究[J];情報科學;2006年07期
6 肖鈉;;我國信息生態(tài)理論研究綜述[J];情報科學;2011年07期
7 秦春秀;趙捧未;劉懷亮;;詞語相似度計算研究[J];情報理論與實踐;2007年01期
8 宋倩倩;關婉湫;張淑君;張勤;羅志成;;自組織知識系統與他組織知識系統的網絡結構比較分析[J];情報理論與實踐;2010年03期
9 谷俊;嚴明;王昊;;基于改進關聯規(guī)則的本體關系獲取研究[J];情報理論與實踐;2011年12期
10 劉平蘭;數字圖書館中基于關系圖的篇章分析方法研究[J];情報雜志;2003年12期
中國重要會議論文全文數據庫 前10條
1 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中國科學院地質與地球物理研究所第11屆(2011年度)學術年會論文集(下)[C];2012年
2 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六屆中國控制會議論文集[C];2007年
3 呂蓬;柳亦兵;馬強;魏于凡;;支持向量機在齒輪智能故障診斷中的應用研究[A];第二十六屆中國控制會議論文集[C];2007年
4 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七屆中國控制會議論文集[C];2008年
5 蔣少華;桂衛(wèi)華;陽春華;唐朝暉;蔣朝輝;;基于主元分析與支持向量機的方法及其在密閉鼓風爐過程監(jiān)控診斷中的應用[A];第二十七屆中國控制會議論文集[C];2008年
6 王海豐;李壯;任洪娥;趙鵬;;基于非下采樣Contourlet變換和SVM的紋理圖像分割算法[A];第二十九屆中國控制會議論文集[C];2010年
7 ;Image Classification with Ant Colony Based Support Vector Machine[A];中國自動化學會控制理論專業(yè)委員會A卷[C];2011年
8 晉朝勃;胡剛強;史廣智;李玉陽;;一種采用支持向量機的水中目標識別方法[A];中國聲學學會水聲學分會2011年全國水聲學學術會議論文集[C];2011年
9 劉英林;劉洪鵬;g竊,
本文編號:913546
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/913546.html