眾包系統(tǒng)偏置標注問題研究
發(fā)布時間:2022-11-09 21:08
近年來隨著諸如Amazon Mechanical Turk等眾包系統(tǒng)的出現(xiàn),很多無法通過機器智能完成的任務可以通過這種微型外包的方式交由在線用戶手工完成。機器學習和數(shù)據(jù)挖掘領域也從中受益,大量的樣本標注任務由傳統(tǒng)的耗時費力的專家標注方式轉(zhuǎn)變?yōu)楸姲鼧俗?加快了數(shù)據(jù)更新和模型迭代的速度。然而,由于眾包標注者的標注質(zhì)量無法保證,使得利用眾包標注數(shù)據(jù)進行機器學習面臨巨大挑戰(zhàn)。因此,如何利用多噪聲標簽進行機器學習具有重要的研究與應用價值。本文從廣泛存在的偏置標注問題著手,主要研究內(nèi)容如下:(1)從眾包系統(tǒng)數(shù)據(jù)質(zhì)量和模型質(zhì)量的概念以及偏置標注問題的定義出發(fā),理論上分析了偏置標注對大多數(shù)眾包系統(tǒng)中使用的多數(shù)投票策略所產(chǎn)生的影響。然后,對大量來自于眾包系統(tǒng)的實際數(shù)據(jù)進行分析,揭示出偏置標注問題的普遍性,并分析產(chǎn)生偏置標注的原因。最后,在幾個典型的偏置標注數(shù)據(jù)集上進行實驗,分析了基于期望最大化的算法的真值推理性能,從而得出偏置標注問題使得基于期望最大化算法性能退化的結(jié)論。(2)針對二分類偏置標注問題,提出一種基于自動閾值估計的正標簽頻率閾值算法PLAT。該算法只依賴于每個樣本的多噪聲標簽集中正負標簽的分...
【文章頁數(shù)】:130 頁
【學位級別】:博士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 眾包系統(tǒng)概論
1.1.1 眾包系統(tǒng)在智能計算領域的應用
1.1.2 眾包系統(tǒng)與機器學習
1.2 眾包系統(tǒng)的數(shù)據(jù)質(zhì)量和模型質(zhì)量問題
1.2.1 問題定義
1.2.2 兩類提升數(shù)據(jù)質(zhì)量的方法
1.2.3 真值推理算法
1.2.4 偏置標注問題的研究范疇
1.3 主要研究內(nèi)容與組織結(jié)構
1.3.1 課題來源
1.3.2 主要研究內(nèi)容
1.3.3 內(nèi)容組織
1.4 本章小結(jié)
第二章 多噪聲標簽的相關研究
2.1 引言
2.2 基于EM的真值推理算法
2.2.1 問題定義
2.2.2 Dawid & Skene(DS)算法
2.2.3 Raykar,Yu and et al.(RY)算法
2.2.4 GLAD算法
2.2.5 ZenCrowd算法
2.3 其它真值推理算法
2.4 學習模型構建方法
2.4.1 靜態(tài)環(huán)境下學習模型的構建方法
2.4.2 動態(tài)環(huán)境下學習模型的構建方法
2.5 本章小結(jié)
第三章 偏置標注問題實證分析
3.1 引言
3.2 相關工作
3.3 二分類偏置標注問題
3.3.1 問題定義
3.3.2 對多數(shù)投票算法的影響
3.4 實際數(shù)據(jù)集中的偏置標注現(xiàn)象
3.4.1 數(shù)據(jù)集Affective Text
3.4.2 數(shù)據(jù)集Adult Content
3.4.3 數(shù)據(jù)集Word Similarity
3.4.4 數(shù)據(jù)集Trec2010
3.4.5 其它三個二類數(shù)據(jù)集
3.4.6 討論
3.5 實驗及分析
3.5.1 實驗設置
3.5.2 實驗1:偏置數(shù)據(jù)集上的真值推理性能
3.5.3 實驗2:失效EM算法詳細分析
3.5.4 實驗3:小類召回率
3.6 本章小結(jié)
第四章 基于自動閾值估計的算法
4.1 引言
4.2 相關工作
4.3 自動閾值估計算法
4.3.1 一個案例研究
4.3.2 正標簽頻率閾值算法
4.3.3 閾值估計算法
4.4 實驗結(jié)果及分析
4.4.1 數(shù)據(jù)集及相關實驗設置
4.4.2 實驗1:mushroom數(shù)據(jù)集上性能分析
4.4.3 實驗2:不同數(shù)據(jù)集上的比較
4.4.4 實驗3:無偏置數(shù)據(jù)集性能分析
4.4.5 實驗4:真實數(shù)據(jù)集上學習模型性能
4.5 本章小結(jié)
第五章 偏置標注下的主動學習
5.1 引言
5.2 相關工作
5.3 主動學習框架
5.3.1 主動學習框架
5.3.2 標簽集成時的偏置處理
5.4 樣本選擇策略
5.4.1 樣本選擇時的偏置處理
5.4.2 基于多噪聲標簽集和偏置水平的不確定度
5.4.3 基于學習模型和偏置水平的不確定度
5.4.4 混合不確定度
5.5 實驗結(jié)果及分析
5.5.1 合成數(shù)據(jù)集及實驗設置
5.5.2 實驗1:方法的有效性
5.5.3 實驗2:樣本選擇策略之間的比較
5.5.4 實驗3:實際數(shù)據(jù)集驗證
5.6 本章小結(jié)
第六章 基于聚類的多類真值推理
6.1 引言
6.2 相關工作
6.3 基于聚類的真值推理算法
6.3.1 動機
6.3.2 原理和特征生成
6.3.3 算法GTIC
6.4 實驗結(jié)果及分析
6.4.1 數(shù)據(jù)集和實驗設置
6.4.2 實驗1:準確度指標比較
6.4.3 實驗2:M-AUC指標比較
6.4.4 實驗3:運行時間比較
6.5 本章小結(jié)
第七章 結(jié)束語
7.1 主要研究工作
7.2 下一步工作
參考文獻
攻讀博士學位期間的學術活動及成果情況
【參考文獻】:
期刊論文
[1]眾包質(zhì)量控制策略及評估算法研究[J]. 張志強,逄居升,謝曉芹,周永. 計算機學報. 2013(08)
本文編號:3704897
【文章頁數(shù)】:130 頁
【學位級別】:博士
【文章目錄】:
致謝
摘要
ABSTRACT
第一章 緒論
1.1 眾包系統(tǒng)概論
1.1.1 眾包系統(tǒng)在智能計算領域的應用
1.1.2 眾包系統(tǒng)與機器學習
1.2 眾包系統(tǒng)的數(shù)據(jù)質(zhì)量和模型質(zhì)量問題
1.2.1 問題定義
1.2.2 兩類提升數(shù)據(jù)質(zhì)量的方法
1.2.3 真值推理算法
1.2.4 偏置標注問題的研究范疇
1.3 主要研究內(nèi)容與組織結(jié)構
1.3.1 課題來源
1.3.2 主要研究內(nèi)容
1.3.3 內(nèi)容組織
1.4 本章小結(jié)
第二章 多噪聲標簽的相關研究
2.1 引言
2.2 基于EM的真值推理算法
2.2.1 問題定義
2.2.2 Dawid & Skene(DS)算法
2.2.3 Raykar,Yu and et al.(RY)算法
2.2.4 GLAD算法
2.2.5 ZenCrowd算法
2.3 其它真值推理算法
2.4 學習模型構建方法
2.4.1 靜態(tài)環(huán)境下學習模型的構建方法
2.4.2 動態(tài)環(huán)境下學習模型的構建方法
2.5 本章小結(jié)
第三章 偏置標注問題實證分析
3.1 引言
3.2 相關工作
3.3 二分類偏置標注問題
3.3.1 問題定義
3.3.2 對多數(shù)投票算法的影響
3.4 實際數(shù)據(jù)集中的偏置標注現(xiàn)象
3.4.1 數(shù)據(jù)集Affective Text
3.4.2 數(shù)據(jù)集Adult Content
3.4.3 數(shù)據(jù)集Word Similarity
3.4.4 數(shù)據(jù)集Trec2010
3.4.5 其它三個二類數(shù)據(jù)集
3.4.6 討論
3.5 實驗及分析
3.5.1 實驗設置
3.5.2 實驗1:偏置數(shù)據(jù)集上的真值推理性能
3.5.3 實驗2:失效EM算法詳細分析
3.5.4 實驗3:小類召回率
3.6 本章小結(jié)
第四章 基于自動閾值估計的算法
4.1 引言
4.2 相關工作
4.3 自動閾值估計算法
4.3.1 一個案例研究
4.3.2 正標簽頻率閾值算法
4.3.3 閾值估計算法
4.4 實驗結(jié)果及分析
4.4.1 數(shù)據(jù)集及相關實驗設置
4.4.2 實驗1:mushroom數(shù)據(jù)集上性能分析
4.4.3 實驗2:不同數(shù)據(jù)集上的比較
4.4.4 實驗3:無偏置數(shù)據(jù)集性能分析
4.4.5 實驗4:真實數(shù)據(jù)集上學習模型性能
4.5 本章小結(jié)
第五章 偏置標注下的主動學習
5.1 引言
5.2 相關工作
5.3 主動學習框架
5.3.1 主動學習框架
5.3.2 標簽集成時的偏置處理
5.4 樣本選擇策略
5.4.1 樣本選擇時的偏置處理
5.4.2 基于多噪聲標簽集和偏置水平的不確定度
5.4.3 基于學習模型和偏置水平的不確定度
5.4.4 混合不確定度
5.5 實驗結(jié)果及分析
5.5.1 合成數(shù)據(jù)集及實驗設置
5.5.2 實驗1:方法的有效性
5.5.3 實驗2:樣本選擇策略之間的比較
5.5.4 實驗3:實際數(shù)據(jù)集驗證
5.6 本章小結(jié)
第六章 基于聚類的多類真值推理
6.1 引言
6.2 相關工作
6.3 基于聚類的真值推理算法
6.3.1 動機
6.3.2 原理和特征生成
6.3.3 算法GTIC
6.4 實驗結(jié)果及分析
6.4.1 數(shù)據(jù)集和實驗設置
6.4.2 實驗1:準確度指標比較
6.4.3 實驗2:M-AUC指標比較
6.4.4 實驗3:運行時間比較
6.5 本章小結(jié)
第七章 結(jié)束語
7.1 主要研究工作
7.2 下一步工作
參考文獻
攻讀博士學位期間的學術活動及成果情況
【參考文獻】:
期刊論文
[1]眾包質(zhì)量控制策略及評估算法研究[J]. 張志強,逄居升,謝曉芹,周永. 計算機學報. 2013(08)
本文編號:3704897
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3704897.html
最近更新
教材專著