天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于神經(jīng)網(wǎng)絡(luò)的印尼語(yǔ)相似新聞推薦的研究

發(fā)布時(shí)間:2021-05-06 18:44
  相似文本推薦在信息的檢索和自然語(yǔ)言處理等相關(guān)領(lǐng)域都有著重要的應(yīng)用,在個(gè)性化服務(wù)時(shí)代,其進(jìn)化升級(jí)版的個(gè)性化推薦更是為個(gè)人提供著更高效和直接的信息資源。在某些領(lǐng)域?qū)τ脩綦[私或行為信息要求較嚴(yán),因此需要只在純文本的信息中進(jìn)行相似文本推薦。最為傳統(tǒng)的方法僅僅依靠基于統(tǒng)計(jì)信息的關(guān)鍵詞,沒(méi)有考慮文本中詞的語(yǔ)義信息和文本本身的語(yǔ)義信息。隨著近年來(lái)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)興起,詞向量在表示詞匯語(yǔ)義信息上取得了較好的結(jié)果。利用詞向量表示文本,通過(guò)距離度量函數(shù)來(lái)尋找相似文本。這種詞匯上語(yǔ)義信息的疊加表示文本信息還是不能很好的總結(jié)長(zhǎng)文本的信息。本文主要考慮統(tǒng)計(jì)與神經(jīng)網(wǎng)絡(luò)的結(jié)合,提出了關(guān)鍵詞與其帶權(quán)關(guān)鍵詞量化文本相結(jié)合的相似文本度量方式,實(shí)驗(yàn)結(jié)果表明了這種方法的有效性和可行性。本文主要研究基于神經(jīng)網(wǎng)絡(luò)的印尼相似新聞推薦,在純文本上提出了新的相似度量方式。神經(jīng)網(wǎng)絡(luò)主要是利用其詞向量模型在詞匯語(yǔ)義上的有效表示,印尼語(yǔ)為應(yīng)用的語(yǔ)種。全文的工作內(nèi)容如下:(1)在使用關(guān)鍵詞表示文本進(jìn)行推薦和甄別中,詳細(xì)介紹了基于統(tǒng)計(jì)信息的關(guān)鍵詞提取算法TF-IDF、基于主題模型的關(guān)鍵詞提取算法LDA以及基于詞圖模型的關(guān)鍵詞提取算法TextR... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:77 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究工作的背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文的主要研究?jī)?nèi)容和組織結(jié)構(gòu)
第二章 文本關(guān)鍵詞提取
    2.1 關(guān)鍵詞提取概述
    2.2 無(wú)監(jiān)督模型
    2.3 基于文本中的統(tǒng)計(jì)特征的關(guān)鍵詞提取
        2.3.1 常用的幾種單詞“重要性”量化指標(biāo)
        2.3.2 關(guān)鍵詞提取
    2.4 基于文本構(gòu)建的詞圖模型的關(guān)鍵詞提取
        2.4.1 PageRank
        2.4.2 TextRank
    2.5 基于文本隱含主題模型的關(guān)鍵詞提取
        2.5.1 概率潛在語(yǔ)義分析(PLSA)
        2.5.2 隱狄利克雷分布(LDA)
    2.6 本章小結(jié)
第三章 詞的特征表示
    3.1 詞量化表示
    3.2 語(yǔ)言模型概述
    3.3 基于神經(jīng)網(wǎng)絡(luò)的詞向量模型
        3.3.1 NNLM
        3.3.2 C&W模型
        3.3.3 CBOW和 Skip-gram模型
    3.4 本章小結(jié)
第四章 無(wú)標(biāo)簽文本推薦算法研究
    4.1 文本關(guān)鍵詞作為文本特征
    4.2 基于神經(jīng)網(wǎng)絡(luò)的文本向量作為文本特征
        4.2.1 基于詞向量
        4.2.2 Doc2vec
        4.2.3 以文本向量作為文本特征推薦
    4.3 關(guān)鍵詞與詞向量共同作為文本特征
    4.4 實(shí)驗(yàn)結(jié)果與分析
    4.5 本章小結(jié)
第五章 實(shí)驗(yàn)與結(jié)果分析
    5.1 關(guān)鍵詞提取實(shí)驗(yàn)
        5.1.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集
        5.1.2 實(shí)驗(yàn)與結(jié)果分析
    5.2 印尼語(yǔ)的更多處理
        5.2.1 印尼語(yǔ)的特點(diǎn)
        5.2.2 印尼語(yǔ)關(guān)鍵詞處理
    5.3 文本向量實(shí)驗(yàn)
        5.3.1 數(shù)據(jù)集
        5.3.2 實(shí)驗(yàn)與結(jié)果分析
    5.4 印尼新聞文本推薦實(shí)驗(yàn)
        5.4.1 數(shù)據(jù)集
        5.4.2 實(shí)驗(yàn)與結(jié)果分析
    5.5 中文推薦實(shí)驗(yàn)
    5.6 本章小結(jié)
第六章 全文總結(jié)與展望
    6.1 本文總結(jié)
    6.2 未來(lái)展望
致謝
參考文獻(xiàn)
攻碩期間取得的研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)的TextRank的自動(dòng)摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛.  計(jì)算機(jī)科學(xué). 2016(06)
[2]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿.  北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(01)
[3]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍.  計(jì)算機(jī)科學(xué). 2013(12)
[4]基于詞跨度的中文文本關(guān)鍵詞自動(dòng)提取方法[J]. 謝晉.  現(xiàn)代物業(yè)(中旬刊). 2012(04)
[5]基于雙字哈希的PAT樹詞典機(jī)制的研究[J]. 趙麗,郭宏文.  黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報(bào). 2011(01)
[6]關(guān)鍵詞提取[J]. 朱濤.  考試(高考·語(yǔ)文版). 2010(Z4)

碩士論文
[1]基于主題模型的關(guān)鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學(xué) 2016
[2]Web文本挖掘技術(shù)研究及應(yīng)用[D]. 李曉笛.北京交通大學(xué) 2015
[3]無(wú)監(jiān)督中文實(shí)體關(guān)系抽取研究[D]. 施琦.中國(guó)地質(zhì)大學(xué)(北京) 2015
[4]基于LDA和Word2Vec的推薦算法研究[D]. 董文.北京郵電大學(xué) 2015
[5]大數(shù)據(jù)環(huán)境下文本聚類與摘要提取[D]. 孟繁宇.北京郵電大學(xué) 2015



本文編號(hào):3172432

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3172432.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd261***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com