基于最優(yōu)化方法的真值發(fā)現(xiàn)算法研究
發(fā)布時(shí)間:2021-12-09 17:21
隨著信息技術(shù)的飛速發(fā)展,各行各業(yè)已迎來(lái)大數(shù)據(jù)時(shí)代。分析大量數(shù)據(jù)的一大挑戰(zhàn)是數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù),甚至描述同一個(gè)對(duì)象或事件,都可以來(lái)自多種數(shù)據(jù)源,如眾包平臺(tái)上的工人和社交媒體用戶。然而,噪聲數(shù)據(jù)是不可避免的。面對(duì)令人望而生畏的數(shù)據(jù)規(guī)模,利用人工“貼標(biāo)簽”或標(biāo)注哪個(gè)數(shù)據(jù)源更可靠是不現(xiàn)實(shí)的。因此,從多個(gè)噪聲數(shù)據(jù)源中識(shí)別出正確可用的信息,即真值發(fā)現(xiàn)的任務(wù)是十分必要的。目前,面向多源數(shù)據(jù)的真值發(fā)現(xiàn)技術(shù)主要面臨兩方面的挑戰(zhàn):在結(jié)構(gòu)層面,基于多源數(shù)據(jù)的真值發(fā)現(xiàn)需考慮數(shù)據(jù)組成的不同特點(diǎn)和應(yīng)用場(chǎng)景,精細(xì)定義不同場(chǎng)合下的真值發(fā)現(xiàn)問(wèn)題。在算法層面,基于多源數(shù)據(jù)的真值發(fā)現(xiàn)需考慮不同層面的信息沖突,設(shè)計(jì)高效的算法,利用多種線索挖掘更有價(jià)值的信息,F(xiàn)有的真值發(fā)現(xiàn)方法在結(jié)構(gòu)層面和算法層面都存在缺陷,不能很好的解決多源數(shù)據(jù)真值發(fā)現(xiàn)相關(guān)問(wèn)題。本文綜合運(yùn)用數(shù)據(jù)清洗、數(shù)據(jù)挖掘、自然語(yǔ)言處理的相關(guān)理論、技術(shù)和方法,對(duì)于多源數(shù)據(jù)真值發(fā)現(xiàn)進(jìn)行了系統(tǒng)研究。本文主要面向三種數(shù)據(jù)模型:第一種為多源同構(gòu)數(shù)據(jù),其具有明確的實(shí)體-屬性-數(shù)據(jù)源的對(duì)應(yīng)結(jié)構(gòu);第二種為多源異構(gòu)數(shù)據(jù),其不同數(shù)據(jù)源描述的實(shí)體和屬性信息可能以不同形式存在;第三種為文本數(shù)據(jù)...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:144 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀及分析
1.2.1 多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.2 多源異構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.3 文本數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.4 現(xiàn)有工作的不足
1.3 本文的主要研究?jī)?nèi)容
1.4 本文章節(jié)安排
第2章 基于函數(shù)依賴的多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
2.1 引言
2.2 問(wèn)題定義
2.3 Auto Repair算法
2.3.1 框架
2.3.2 處理獨(dú)立約束集
2.3.3 處理關(guān)聯(lián)約束集
2.3.4 源間數(shù)據(jù)聚合
2.3.5 更新源可靠分?jǐn)?shù)
2.3.6 算法性能分析
2.4 實(shí)驗(yàn)結(jié)果
2.4.1 實(shí)驗(yàn)設(shè)置
2.4.2 算法在合成數(shù)據(jù)集上的實(shí)驗(yàn)
2.4.3 算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)
2.4.4 實(shí)驗(yàn)小結(jié)
2.5 本章小結(jié)
第3章 基于否定約束的多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
3.1 引言
3.2 問(wèn)題定義
3.3 CTD算法
3.3.1 否定依賴轉(zhuǎn)換
3.3.2 解決方案
3.3.3 算法性能分析
3.3.4 算法改進(jìn)策略
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 算法有效性評(píng)估
3.4.3 算法效率評(píng)估
3.5 本章小結(jié)
第4章 基于模式發(fā)現(xiàn)的多源異構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
4.1 引言
4.2 問(wèn)題定義
4.3 Pattern Finder算法
4.3.1 框架概覽
4.3.2 優(yōu)化目標(biāo)
4.3.3 迭代過(guò)程
4.3.4 算法性能分析
4.3.5 優(yōu)化分組策略
4.3.6 模式和真值生成
4.4 實(shí)驗(yàn)結(jié)果
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 算法在合成數(shù)據(jù)集上的實(shí)驗(yàn)
4.4.3 算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 基于模式評(píng)估的多源文本數(shù)據(jù)真值發(fā)現(xiàn)
5.1 引言
5.2 預(yù)備知識(shí)
5.2.1 預(yù)處理
5.2.2 問(wèn)題定義
5.3 CNN-LSTM模型
5.3.1 元組編碼
5.3.2 模式編碼
5.3.3 訓(xùn)練和推理
5.4 實(shí)驗(yàn)結(jié)果
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 模型有效性評(píng)估
5.4.3 模型效率評(píng)估
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. Bo Zhao,Jiashi Feng,Xiao Wu,Shuicheng Yan. International Journal of Automation and Computing. 2017(02)
本文編號(hào):3531004
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:144 頁(yè)
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究現(xiàn)狀及分析
1.2.1 多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.2 多源異構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.3 文本數(shù)據(jù)真值發(fā)現(xiàn)分析
1.2.4 現(xiàn)有工作的不足
1.3 本文的主要研究?jī)?nèi)容
1.4 本文章節(jié)安排
第2章 基于函數(shù)依賴的多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
2.1 引言
2.2 問(wèn)題定義
2.3 Auto Repair算法
2.3.1 框架
2.3.2 處理獨(dú)立約束集
2.3.3 處理關(guān)聯(lián)約束集
2.3.4 源間數(shù)據(jù)聚合
2.3.5 更新源可靠分?jǐn)?shù)
2.3.6 算法性能分析
2.4 實(shí)驗(yàn)結(jié)果
2.4.1 實(shí)驗(yàn)設(shè)置
2.4.2 算法在合成數(shù)據(jù)集上的實(shí)驗(yàn)
2.4.3 算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)
2.4.4 實(shí)驗(yàn)小結(jié)
2.5 本章小結(jié)
第3章 基于否定約束的多源同構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
3.1 引言
3.2 問(wèn)題定義
3.3 CTD算法
3.3.1 否定依賴轉(zhuǎn)換
3.3.2 解決方案
3.3.3 算法性能分析
3.3.4 算法改進(jìn)策略
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 算法有效性評(píng)估
3.4.3 算法效率評(píng)估
3.5 本章小結(jié)
第4章 基于模式發(fā)現(xiàn)的多源異構(gòu)數(shù)據(jù)真值發(fā)現(xiàn)
4.1 引言
4.2 問(wèn)題定義
4.3 Pattern Finder算法
4.3.1 框架概覽
4.3.2 優(yōu)化目標(biāo)
4.3.3 迭代過(guò)程
4.3.4 算法性能分析
4.3.5 優(yōu)化分組策略
4.3.6 模式和真值生成
4.4 實(shí)驗(yàn)結(jié)果
4.4.1 實(shí)驗(yàn)設(shè)置
4.4.2 算法在合成數(shù)據(jù)集上的實(shí)驗(yàn)
4.4.3 算法在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 基于模式評(píng)估的多源文本數(shù)據(jù)真值發(fā)現(xiàn)
5.1 引言
5.2 預(yù)備知識(shí)
5.2.1 預(yù)處理
5.2.2 問(wèn)題定義
5.3 CNN-LSTM模型
5.3.1 元組編碼
5.3.2 模式編碼
5.3.3 訓(xùn)練和推理
5.4 實(shí)驗(yàn)結(jié)果
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 模型有效性評(píng)估
5.4.3 模型效率評(píng)估
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀博士學(xué)位期間發(fā)表的論文及其他成果
致謝
個(gè)人簡(jiǎn)歷
【參考文獻(xiàn)】:
期刊論文
[1]A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J]. Bo Zhao,Jiashi Feng,Xiao Wu,Shuicheng Yan. International Journal of Automation and Computing. 2017(02)
本文編號(hào):3531004
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3531004.html
最近更新
教材專著