面向產(chǎn)業(yè)合作的半監(jiān)督關(guān)系抽取
發(fā)布時(shí)間:2021-04-16 00:34
在產(chǎn)業(yè)互聯(lián)網(wǎng)蓬勃發(fā)展的今天,對(duì)產(chǎn)業(yè)合作場(chǎng)景進(jìn)行分析,實(shí)現(xiàn)全球精準(zhǔn)合作,已經(jīng)成為產(chǎn)業(yè)發(fā)展的必然趨勢(shì),這不僅對(duì)政府決策人員具有重要參考意義,也為企業(yè)決策者提供了指導(dǎo)意義。產(chǎn)業(yè)合作相關(guān)信息廣泛存在于互聯(lián)網(wǎng)的產(chǎn)業(yè)新聞資訊中,利用大數(shù)據(jù)和人工智能技術(shù),從非結(jié)構(gòu)化的新聞資訊中抽取出結(jié)構(gòu)化的產(chǎn)業(yè)合作信息,并進(jìn)而組織成為知識(shí),具有十分重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義。對(duì)于產(chǎn)業(yè)合作這一細(xì)分領(lǐng)域,沒(méi)有合適的標(biāo)注數(shù)據(jù)集用來(lái)構(gòu)建信息抽取模型,因此數(shù)據(jù)集的構(gòu)建也成為產(chǎn)業(yè)合作信息抽取任務(wù)中的難點(diǎn)與關(guān)鍵點(diǎn)。本文關(guān)注產(chǎn)業(yè)合作場(chǎng)景中產(chǎn)業(yè)合作關(guān)系的抽取,設(shè)計(jì)并實(shí)現(xiàn)了針對(duì)產(chǎn)業(yè)合作領(lǐng)域的關(guān)系抽取框架,能夠從產(chǎn)業(yè)新聞資訊中抽取企業(yè)實(shí)體和企業(yè)間的合作關(guān)系?蚣苤泻w了從數(shù)據(jù)清洗到抽取結(jié)果整合的完整流程,包含基于模式匹配的規(guī)則抽取和基于機(jī)器學(xué)習(xí)的模型抽取兩條數(shù)據(jù)通路,能夠自動(dòng)化完成產(chǎn)業(yè)合作領(lǐng)域的關(guān)系抽取。此外,本文針對(duì)框架中的相關(guān)企業(yè)抽取模型和產(chǎn)業(yè)合作關(guān)系抽取模型進(jìn)行了優(yōu)化。針對(duì)實(shí)體抽取模型,通過(guò)詞向量和詞性信息獲得組合特征,并在網(wǎng)絡(luò)結(jié)構(gòu)上使用多層CNN+雙向LSTM的方案,能夠結(jié)合局部特征和全局特征,帶來(lái)更好的模型效果。針對(duì)關(guān)系抽取模型...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主動(dòng)學(xué)習(xí)、直推式學(xué)習(xí)、純半監(jiān)督學(xué)習(xí)[44]
浙江大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)綜述15不完全、不確切和不準(zhǔn)確監(jiān)督分別關(guān)注不同的角度,擁有各自不同的特點(diǎn),但在實(shí)際應(yīng)用中,他們經(jīng)常同時(shí)出現(xiàn)。在關(guān)系抽取任務(wù)中,經(jīng)常使用遠(yuǎn)程監(jiān)督的方式構(gòu)建訓(xùn)練集,方法是使用實(shí)體關(guān)系對(duì)知識(shí)庫(kù)進(jìn)行語(yǔ)料對(duì)齊,知識(shí)庫(kù)包含了關(guān)系和符合該關(guān)系的兩個(gè)實(shí)體,通過(guò)在無(wú)標(biāo)注的文本中反向標(biāo)注,找到同時(shí)含有兩個(gè)實(shí)體的句子,將這個(gè)句子標(biāo)注為對(duì)應(yīng)的關(guān)系,最終將這些句子和標(biāo)簽作為訓(xùn)練集訓(xùn)練模型;谶h(yuǎn)程監(jiān)督的關(guān)系抽取假設(shè)反向標(biāo)注獲得的所有句子中總有一個(gè)是正樣本,也就是說(shuō)其中存在不表示該關(guān)系的句子被打上了錯(cuò)誤的標(biāo)簽,相當(dāng)于不準(zhǔn)確監(jiān)督,各種去噪降噪方法也都逐漸應(yīng)用到這一任務(wù)中。2.3神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),簡(jiǎn)稱(chēng)神經(jīng)網(wǎng)絡(luò),是一種模擬人的神經(jīng)元而構(gòu)建的計(jì)算模型,McCulloch[47]等人提出了神經(jīng)元的數(shù)學(xué)模型,如圖2-2所示:圖2-2神經(jīng)元數(shù)學(xué)模型[47]神經(jīng)元包含多個(gè)輸入和一個(gè)輸出,每個(gè)輸入被賦予不同的權(quán)重進(jìn)行加權(quán)求和,再通過(guò)一個(gè)激活函數(shù)進(jìn)行非線性變換,產(chǎn)生最終的輸出。單個(gè)神經(jīng)元的數(shù)學(xué)公式如(2-1)所示:niiixwfy1(2-1)
TextCNN結(jié)構(gòu)[49]
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)系抽取綜述[J]. 謝德鵬,常青. 計(jì)算機(jī)應(yīng)用研究. 2020(07)
[2]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[3]基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報(bào). 2014(06)
[4]基于圖的半監(jiān)督關(guān)系抽取[J]. 陳錦秀,姬東鴻. 軟件學(xué)報(bào). 2008(11)
本文編號(hào):3140391
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:86 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
主動(dòng)學(xué)習(xí)、直推式學(xué)習(xí)、純半監(jiān)督學(xué)習(xí)[44]
浙江大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)綜述15不完全、不確切和不準(zhǔn)確監(jiān)督分別關(guān)注不同的角度,擁有各自不同的特點(diǎn),但在實(shí)際應(yīng)用中,他們經(jīng)常同時(shí)出現(xiàn)。在關(guān)系抽取任務(wù)中,經(jīng)常使用遠(yuǎn)程監(jiān)督的方式構(gòu)建訓(xùn)練集,方法是使用實(shí)體關(guān)系對(duì)知識(shí)庫(kù)進(jìn)行語(yǔ)料對(duì)齊,知識(shí)庫(kù)包含了關(guān)系和符合該關(guān)系的兩個(gè)實(shí)體,通過(guò)在無(wú)標(biāo)注的文本中反向標(biāo)注,找到同時(shí)含有兩個(gè)實(shí)體的句子,將這個(gè)句子標(biāo)注為對(duì)應(yīng)的關(guān)系,最終將這些句子和標(biāo)簽作為訓(xùn)練集訓(xùn)練模型;谶h(yuǎn)程監(jiān)督的關(guān)系抽取假設(shè)反向標(biāo)注獲得的所有句子中總有一個(gè)是正樣本,也就是說(shuō)其中存在不表示該關(guān)系的句子被打上了錯(cuò)誤的標(biāo)簽,相當(dāng)于不準(zhǔn)確監(jiān)督,各種去噪降噪方法也都逐漸應(yīng)用到這一任務(wù)中。2.3神經(jīng)網(wǎng)絡(luò)技術(shù)人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),簡(jiǎn)稱(chēng)神經(jīng)網(wǎng)絡(luò),是一種模擬人的神經(jīng)元而構(gòu)建的計(jì)算模型,McCulloch[47]等人提出了神經(jīng)元的數(shù)學(xué)模型,如圖2-2所示:圖2-2神經(jīng)元數(shù)學(xué)模型[47]神經(jīng)元包含多個(gè)輸入和一個(gè)輸出,每個(gè)輸入被賦予不同的權(quán)重進(jìn)行加權(quán)求和,再通過(guò)一個(gè)激活函數(shù)進(jìn)行非線性變換,產(chǎn)生最終的輸出。單個(gè)神經(jīng)元的數(shù)學(xué)公式如(2-1)所示:niiixwfy1(2-1)
TextCNN結(jié)構(gòu)[49]
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)系抽取綜述[J]. 謝德鵬,常青. 計(jì)算機(jī)應(yīng)用研究. 2020(07)
[2]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
[3]基于句法語(yǔ)義特征的中文實(shí)體關(guān)系抽取[J]. 郭喜躍,何婷婷,胡小華,陳前軍. 中文信息學(xué)報(bào). 2014(06)
[4]基于圖的半監(jiān)督關(guān)系抽取[J]. 陳錦秀,姬東鴻. 軟件學(xué)報(bào). 2008(11)
本文編號(hào):3140391
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3140391.html
最近更新
教材專(zhuān)著