眾包技術(shù)中開(kāi)放性答案的決策算法研究
發(fā)布時(shí)間:2020-04-30 11:27
【摘要】:現(xiàn)實(shí)生活中往往存在一些計(jì)算機(jī)難以處理或者處理效果不佳的問(wèn)題,如給圖像打標(biāo)簽、判斷兩個(gè)記錄是不是同一個(gè)實(shí)體等。眾包直接將這些問(wèn)題發(fā)布到互聯(lián)網(wǎng)上,通過(guò)集合互聯(lián)網(wǎng)上的未知大眾來(lái)解決這些傳統(tǒng)計(jì)算機(jī)難以單獨(dú)處理的問(wèn)題。已有的答案決策方法存在一定的局限性:一方面,以往工人的質(zhì)量模型矩陣大小是固定的,僅適用于候選答案固定的情形。另一方面,眾包平臺(tái)上的問(wèn)題類(lèi)型有填空題、選擇題(分單選題和多選題)、選擇和填空的混合等,以往的答案決策算法主要是基于單選題提出的,不能兼容多種答案類(lèi)型,尤其無(wú)法處理包含開(kāi)放性答案的問(wèn)題。針對(duì)以上問(wèn)題,本文綜合考慮多種答案類(lèi)型,提出了一種基于貝葉斯的開(kāi)放性答案決策算法。首先,利用工人以往表現(xiàn),建立了工人質(zhì)量模型,該模型不受候選答案?jìng)(gè)數(shù)影響;其次,利用Jaro-Winkler Distance方法計(jì)算填空答案間的相似度,以此將填空內(nèi)容擴(kuò)展為候選選項(xiàng),決策時(shí)考慮到了填空答案間的相互影響,認(rèn)為相似度較大的一組答案很可能為相同的答案。此外,以往的決策中,候選答案的先驗(yàn)概率是未知的,本文根據(jù)機(jī)器算法給出的先驗(yàn)知識(shí)以及擴(kuò)展答案情況,對(duì)候選答案的先驗(yàn)概率進(jìn)行了預(yù)處理。相關(guān)實(shí)驗(yàn)表明,本文的決策算法能夠綜合處理多種答案類(lèi)型,對(duì)開(kāi)放性答案以及先驗(yàn)概率的處理,提高了算法的準(zhǔn)確性。由于多選題答案決策過(guò)程是一個(gè)NP-hard問(wèn)題,本文對(duì)多選題的答案決策算法提出了基于剪枝的優(yōu)化策略,減少了需要計(jì)算后驗(yàn)概率的候選答案?jìng)(gè)數(shù)。相關(guān)實(shí)驗(yàn)表明,本文的優(yōu)化策略,在保障決策算法準(zhǔn)確一致的情況下,降低了算法的運(yùn)行時(shí)間。
【圖文】:
答案決策相關(guān)技術(shù)概述逡逑題自動(dòng)放到同一組內(nèi)。平臺(tái)為用戶提供接口,根據(jù)用戶的問(wèn)題描述、酬勞、以及逡逑其他設(shè)置信息生成問(wèn)題,如圖2-2示例所示,為了方便工人作答,雇主也可以提供逡逑一些圖片或表格信息。AMT采用的是拉模式的推薦方式,工人可以接受任何的逡逑HIT任務(wù)。HIT任務(wù)的答案決策采用的是冗余策略,利用EM算法從多個(gè)工人的答逡逑案中決策出最優(yōu)解。逡逑SoJtby:邐first)邐Show邋扢她虹丨邋Hi你邋ail邋}0眺邐H逡逑ft微Chris邋C?}wn-Bwch邐HIT邐Expiration邋Date:邐Apr邐5,邋2023邋(2§7邋weeks邋I邋day}邐Rewarrf:邐S0.£H逡逑Tkrw!邋Allotted:邐60邐mimites逡逑|`.to邋^螅遱{逡逑Tofty邋Rivera邐Mil邋fxpJration邋Date:邐May邋20,2018邋(42邋we?4cs邋5邋days)邐¥0.04逡逑Time邋AMolt*.?d:邐60邐mimites逡逑R?q撕sten邐.>mturtc邐M。赃姡牛穑椋颍幔簦椋铮铄澹模幔簦澹哼姡常酰爝姡玻矗澹玻埃保稿澹ǎ担插澹鳎澹Js?邐Ueward:邐S0.00逡逑Time邋Allotted:邐20邐mlnutts逡逑..邋.邋.…—邐邋 ̄邋—邋——………"——————逡逑Requeister:邐v?3is邐MrT邐Cxpirslion邋Oat?:邐Aup邐3
以降低工人做任務(wù)的難度。CrowdlQ還提供質(zhì)量控制和成本控制模塊。質(zhì)量控制逡逑模塊通過(guò)本文的開(kāi)放性答案決策算法以及工人質(zhì)量模型對(duì)整個(gè)平臺(tái)質(zhì)量進(jìn)行控逡逑制,其具體架構(gòu)如圖2-3所不。通過(guò)Quality邋Inspection模塊,可以檢測(cè)網(wǎng)絡(luò)表格是逡逑否存在缺值、噪聲數(shù)據(jù)等問(wèn)題;雇主通過(guò)平臺(tái)語(yǔ)言CrowdlQL設(shè)計(jì)任務(wù),平臺(tái)自動(dòng)逡逑解析語(yǔ)言生成眾包問(wèn)題;根據(jù)任務(wù)的難度、工人的質(zhì)量等信息,在滿足平臺(tái)質(zhì)量逡逑的要求下,Recommendation模塊將任務(wù)推薦給合適的工人。逡逑邐邋Origin#!逡逑八邐|邋Table逡逑Cj邋original邐Quality邋Inspection邐^邐逡逑y邐Problems邐Additional邋Functions逡逑\_high-quality邐—邋一 邋一邋一邋_一邋一邋—邋^邐穴逡逑Tables邐邐邋邐1邐1邐g逡逑^邋Gfaphic^^.邋Conventor邐Optional邋Functions邐|邐s逡逑Operation邋邐邋i,,邐|,邐M—邐.邋.邐K邋^r-逡逑(D邐j邋kuw<,邐HtNitjprs邋I邋AMtibut*?邐(T>邋左逡逑H邋Reduction邐Recovery邋屬邋Augmentation邋|,邐邋0Q逡逑〕CrowdlQL邋—I-1邐邋| ̄ ̄Co
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O225
本文編號(hào):2645717
【圖文】:
答案決策相關(guān)技術(shù)概述逡逑題自動(dòng)放到同一組內(nèi)。平臺(tái)為用戶提供接口,根據(jù)用戶的問(wèn)題描述、酬勞、以及逡逑其他設(shè)置信息生成問(wèn)題,如圖2-2示例所示,為了方便工人作答,雇主也可以提供逡逑一些圖片或表格信息。AMT采用的是拉模式的推薦方式,工人可以接受任何的逡逑HIT任務(wù)。HIT任務(wù)的答案決策采用的是冗余策略,利用EM算法從多個(gè)工人的答逡逑案中決策出最優(yōu)解。逡逑SoJtby:邐first)邐Show邋扢她虹丨邋Hi你邋ail邋}0眺邐H逡逑ft微Chris邋C?}wn-Bwch邐HIT邐Expiration邋Date:邐Apr邐5,邋2023邋(2§7邋weeks邋I邋day}邐Rewarrf:邐S0.£H逡逑Tkrw!邋Allotted:邐60邐mimites逡逑|`.to邋^螅遱{逡逑Tofty邋Rivera邐Mil邋fxpJration邋Date:邐May邋20,2018邋(42邋we?4cs邋5邋days)邐¥0.04逡逑Time邋AMolt*.?d:邐60邐mimites逡逑R?q撕sten邐.>mturtc邐M。赃姡牛穑椋颍幔簦椋铮铄澹模幔簦澹哼姡常酰爝姡玻矗澹玻埃保稿澹ǎ担插澹鳎澹Js?邐Ueward:邐S0.00逡逑Time邋Allotted:邐20邐mlnutts逡逑..邋.邋.…—邐邋 ̄邋—邋——………"——————逡逑Requeister:邐v?3is邐MrT邐Cxpirslion邋Oat?:邐Aup邐3
以降低工人做任務(wù)的難度。CrowdlQ還提供質(zhì)量控制和成本控制模塊。質(zhì)量控制逡逑模塊通過(guò)本文的開(kāi)放性答案決策算法以及工人質(zhì)量模型對(duì)整個(gè)平臺(tái)質(zhì)量進(jìn)行控逡逑制,其具體架構(gòu)如圖2-3所不。通過(guò)Quality邋Inspection模塊,可以檢測(cè)網(wǎng)絡(luò)表格是逡逑否存在缺值、噪聲數(shù)據(jù)等問(wèn)題;雇主通過(guò)平臺(tái)語(yǔ)言CrowdlQL設(shè)計(jì)任務(wù),平臺(tái)自動(dòng)逡逑解析語(yǔ)言生成眾包問(wèn)題;根據(jù)任務(wù)的難度、工人的質(zhì)量等信息,在滿足平臺(tái)質(zhì)量逡逑的要求下,Recommendation模塊將任務(wù)推薦給合適的工人。逡逑邐邋Origin#!逡逑八邐|邋Table逡逑Cj邋original邐Quality邋Inspection邐^邐逡逑y邐Problems邐Additional邋Functions逡逑\_high-quality邐—邋一 邋一邋一邋_一邋一邋—邋^邐穴逡逑Tables邐邐邋邐1邐1邐g逡逑^邋Gfaphic^^.邋Conventor邐Optional邋Functions邐|邐s逡逑Operation邋邐邋i,,邐|,邐M—邐.邋.邐K邋^r-逡逑(D邐j邋kuw<,邐HtNitjprs邋I邋AMtibut*?邐(T>邋左逡逑H邋Reduction邐Recovery邋屬邋Augmentation邋|,邐邋0Q逡逑〕CrowdlQL邋—I-1邐邋| ̄ ̄Co
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O225
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 張志強(qiáng);逄居升;謝曉芹;周永;;眾包質(zhì)量控制策略及評(píng)估算法研究[J];計(jì)算機(jī)學(xué)報(bào);2013年08期
相關(guān)碩士學(xué)位論文 前1條
1 劉華西;基于眾包的網(wǎng)絡(luò)表格語(yǔ)義恢復(fù)[D];北京交通大學(xué);2016年
本文編號(hào):2645717
本文鏈接:http://www.sikaile.net/kejilunwen/yysx/2645717.html
最近更新
教材專(zhuān)著