天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于對抗學(xué)習(xí)的跨領(lǐng)域關(guān)鍵詞提取方法研究

發(fā)布時間:2021-07-11 00:11
  在如今數(shù)據(jù)爆炸的時代,數(shù)據(jù)、信息與知識等概念已經(jīng)關(guān)系到每個人與各個行業(yè)。但是現(xiàn)有經(jīng)驗告訴我們,任何形式的原始數(shù)據(jù)只能傳達出很少的信息,除非使用一些智能的方法處理數(shù)據(jù)。對于最常見的文本數(shù)據(jù)而言,知道文本中最重要的關(guān)鍵詞/短語可以提供濃縮的概念表示從而簡化文檔處理。文章的關(guān)鍵詞對文章內(nèi)容提供了高層次的描述,它總結(jié)了關(guān)鍵的主題,概念,想法或者文章的推斷。這些描述性的關(guān)鍵短語使得其他相關(guān)算法可以快速有效地提取相關(guān)內(nèi)容。因此關(guān)鍵詞在很多文檔處理領(lǐng)域扮演重要角色比如文檔索引、分類、聚類還有摘要任務(wù)。然而,大多數(shù)文檔缺乏作者提供的關(guān)鍵詞并且人為地給大量文本標(biāo)注關(guān)鍵詞并不可行,這是因為手動地為大規(guī)模文檔決定重要短語的集合是繁雜的,代價巨大的而且需要額外的專家知識。幸運的是,自然語言處理技術(shù)可以幫助從文檔中自動提取關(guān)鍵詞。目前,大多數(shù)關(guān)鍵詞提取的方法主要依賴于手工選擇的特征,比如關(guān)鍵詞出現(xiàn)的頻率和相對位置。這導(dǎo)致了相關(guān)方法依賴特定領(lǐng)域數(shù)據(jù),在面對其他領(lǐng)域不同長度、不同語義模式和不同規(guī)則的文檔時,它們通常需要做出針對性的修改,這也使得自動關(guān)鍵詞提取方法的發(fā)展變得耗費時間和人力。在這些方法中,有監(jiān)督的關(guān)鍵詞... 

【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于對抗學(xué)習(xí)的跨領(lǐng)域關(guān)鍵詞提取方法研究


圖1.2?—篇文檔和對應(yīng)的關(guān)鍵詞??

實例圖,關(guān)鍵詞,短語,序列


或多個??關(guān)鍵短語,而關(guān)鍵短語可以由一個或多個單詞組成。??然后,關(guān)鍵詞提取問題被形式化定義成一個序列標(biāo)注任務(wù)[18]。給定一個文??檔的詞序列表示為x?=?(m2,...,:r?),序列標(biāo)注旨在預(yù)測文檔輸入x的標(biāo)簽序列??y?=(仍,j/2,?...,糾)。對于文本序列中的第i個詞而,它的標(biāo)簽講e?{S,?s,?Af,盡〇}??分別對應(yīng)表示這個詞屬于單個詞組成的關(guān)鍵短語,所組成的關(guān)鍵短語的開始,所??組成的關(guān)鍵短語的中間部分,所組成的關(guān)鍵短語的結(jié)尾以及不屬于任何一個關(guān)??鍵短語。圖3.1展示了一個用序列標(biāo)注方法進行關(guān)鍵詞提取的例子。其中test??Label?Sequence:?O?B?E;?O?0?0??Text?Sequence:?effectivejtest?generation?and?adequacy?assessment??Label?Sequence:?O?丨、緩O?O?0?...??Text?Sequence:?for擇vascrj誦?based?web?applications?...??圖3.1使用序列標(biāo)注方法進行關(guān)鍵詞提取的一個實例。??27??

框架圖,主題,神經(jīng)網(wǎng)絡(luò),框架


?第3章基于主題的對抗神經(jīng)網(wǎng)絡(luò)方法????,扣享的基于主題的編碼器???、??源=標(biāo)簽|?,?(S蠢,| ̄4有監(jiān)督損失函數(shù)??>?^s??■-??3產(chǎn)二?i?^抗損失函數(shù):??目標(biāo)領(lǐng)域無標(biāo):__I;? ̄f標(biāo)領(lǐng)域基??簽數(shù)據(jù)?:?\±?6<j*srj???—?{■{重建損失函數(shù)]??分布^—??圖3.2基于主題的對抗神經(jīng)網(wǎng)絡(luò)框架。??generation是該文本序列的一個關(guān)鍵短語,其對應(yīng)的標(biāo)簽序列是BE,另外一個??關(guān)鍵短語是由單個詞javascript組成,對應(yīng)的標(biāo)簽序列是S。因此,基于以上描??述的序列標(biāo)注方法,我們可以對給定的文本得到相應(yīng)的標(biāo)簽序列,進而由標(biāo)簽序??列確定最終的關(guān)鍵短語。??3.3基于主題的對抗神經(jīng)網(wǎng)絡(luò)方法??針對3.2節(jié)提出的問題,本文提出了基于主題的對抗神經(jīng)網(wǎng)絡(luò)方法TANN??(Topic-based?Adversarial?Neural?Network)。本小節(jié)首先介紹?TANN?的整體框架然??后詳細介紹TANN框架的各個組成部分。3.3.1節(jié)介紹TANN中的基于主題的編??碼器,3.3.2節(jié)介紹TANN中的領(lǐng)域判別器組成部分,3.3.3節(jié)介紹TANN中的目??標(biāo)領(lǐng)域雙向解碼器模塊,關(guān)鍵詞標(biāo)注器則在3_3_4節(jié)介紹。最后3.3.5介紹整個模型??的訓(xùn)練算法。針對跨領(lǐng)域關(guān)鍵詞提取問題中目標(biāo)領(lǐng)域無有標(biāo)簽樣本的問題,本文??提出了基于主題的對抗神經(jīng)網(wǎng)絡(luò)TANN框架。圖3.2對該框架進行了展示,從圖??中可以看出TANN框架主要包括:???基于主題的編碼器:對輸人的文本序列進行編碼并在編碼表示中引人文檔??的主題信息。???領(lǐng)域判別器:區(qū)分學(xué)習(xí)到的表示是


本文編號:3276930

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3276930.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶93ad7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com