基于多源異構(gòu)數(shù)據(jù)的中文旅游知識圖譜構(gòu)建方法研究
發(fā)布時間:2023-08-29 20:33
在大數(shù)據(jù)時代背景下,互聯(lián)網(wǎng)的信息數(shù)量呈現(xiàn)指數(shù)式的增長趨勢,如何從這些海量數(shù)據(jù)中高效并準(zhǔn)確地挖掘出有用的信息已經(jīng)成為了信息檢索的研究熱點(diǎn)之一。知識圖譜(Knowledge Graph)以圖結(jié)構(gòu)的形式描述存在于真實世界中的實體與實體間關(guān)系,并通過大數(shù)據(jù)提煉出知識庫,能夠?qū)?shù)據(jù)進(jìn)行智能地組織和整合,是為搜索引擎提供精準(zhǔn)答案的技術(shù)基礎(chǔ)。知識圖譜的構(gòu)建研究在海量互聯(lián)網(wǎng)知識的識抽取以及知識組織管理上體現(xiàn)了重要的應(yīng)用價值。目前存在的知識圖譜多為面向全領(lǐng)域的通用知識圖譜,強(qiáng)調(diào)知識的廣度,但是缺乏對實體知識深層次的挖掘。并且針對性較強(qiáng)的領(lǐng)域知識圖譜,尤其是旅游領(lǐng)域的知識圖譜研究很少且起步較晚,且沒有較好的構(gòu)建以及表示方法。已經(jīng)構(gòu)建好的旅游知識圖譜,大都僅基于百科知識進(jìn)行構(gòu)建,導(dǎo)致知識較單一,尚不具有擴(kuò)展性,適用性較差。針對這些問題,本文研究從多源異構(gòu)數(shù)據(jù)中構(gòu)建中文旅游領(lǐng)域知識圖譜并探索其應(yīng)用。本文研究內(nèi)容包括:旅游知識圖譜的數(shù)據(jù)來源分析,并對不同來源數(shù)據(jù)進(jìn)行知識抽取、多源異構(gòu)數(shù)據(jù)的實體對齊,以及旅游知識圖譜的應(yīng)用研究三部分,具體介紹如下:(1)為了構(gòu)建出一個高質(zhì)量的旅游知識圖譜,本文首先針對互聯(lián)網(wǎng)中的各...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 知識圖譜相關(guān)研究現(xiàn)狀
1.2.1 知識圖譜研究現(xiàn)狀
1.2.2 知識抽取研究現(xiàn)狀
1.2.3 實體對齊研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 多源異構(gòu)的中文旅游知識抽取
2.1 知識來源分析
2.2 基于百科站點(diǎn)的知識抽取
2.2.1 基于百科頁面的半結(jié)構(gòu)化知識抽取
2.2.2 基于百科頁面的非結(jié)構(gòu)化知識抽取
2.3 基于垂直網(wǎng)站知識抽取
2.4 基于CRF和候選句的屬性擴(kuò)充
2.4.1 基于infobox構(gòu)建屬性詞表
2.4.2 候選句選擇
2.4.3 基于CRF和候選句的實體屬性值抽取
2.4.4 實驗及實驗結(jié)果分析
2.5 本章小結(jié)
第3章 知識圖譜中的知識融合
3.1 知識圖譜中的實體對齊
3.2 基于神經(jīng)網(wǎng)絡(luò)的詞向量表示技術(shù)
3.2.1 Skip-gram模型和CBOW模型
3.2.2 Directional Skip-Gram(DSG)模型
3.2.3 基于BERT模型的詞向量表示技術(shù)
3.3 基于BERT的實體對齊實驗
3.4 本章小結(jié)
第4章 基于旅游領(lǐng)域知識圖譜的應(yīng)用
4.1 旅游知識圖譜的知識庫整理與存儲
4.2 基于旅游領(lǐng)域知識圖譜的搜索應(yīng)用
4.2.1 基于關(guān)鍵字模式匹配
4.2.2 關(guān)鍵詞同義詞典構(gòu)建
4.2.3 基于模式匹配和旅游知識庫的搜索
4.3 中文旅游知識圖譜的可視化系統(tǒng)
4.4 本章總結(jié)
第5章 總結(jié)和展望
5.1 全文總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間研究成果
本文編號:3844237
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 知識圖譜相關(guān)研究現(xiàn)狀
1.2.1 知識圖譜研究現(xiàn)狀
1.2.2 知識抽取研究現(xiàn)狀
1.2.3 實體對齊研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 多源異構(gòu)的中文旅游知識抽取
2.1 知識來源分析
2.2 基于百科站點(diǎn)的知識抽取
2.2.1 基于百科頁面的半結(jié)構(gòu)化知識抽取
2.2.2 基于百科頁面的非結(jié)構(gòu)化知識抽取
2.3 基于垂直網(wǎng)站知識抽取
2.4 基于CRF和候選句的屬性擴(kuò)充
2.4.1 基于infobox構(gòu)建屬性詞表
2.4.2 候選句選擇
2.4.3 基于CRF和候選句的實體屬性值抽取
2.4.4 實驗及實驗結(jié)果分析
2.5 本章小結(jié)
第3章 知識圖譜中的知識融合
3.1 知識圖譜中的實體對齊
3.2 基于神經(jīng)網(wǎng)絡(luò)的詞向量表示技術(shù)
3.2.1 Skip-gram模型和CBOW模型
3.2.2 Directional Skip-Gram(DSG)模型
3.2.3 基于BERT模型的詞向量表示技術(shù)
3.3 基于BERT的實體對齊實驗
3.4 本章小結(jié)
第4章 基于旅游領(lǐng)域知識圖譜的應(yīng)用
4.1 旅游知識圖譜的知識庫整理與存儲
4.2 基于旅游領(lǐng)域知識圖譜的搜索應(yīng)用
4.2.1 基于關(guān)鍵字模式匹配
4.2.2 關(guān)鍵詞同義詞典構(gòu)建
4.2.3 基于模式匹配和旅游知識庫的搜索
4.3 中文旅游知識圖譜的可視化系統(tǒng)
4.4 本章總結(jié)
第5章 總結(jié)和展望
5.1 全文總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間研究成果
本文編號:3844237
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3844237.html
最近更新
教材專著