天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向微信內(nèi)容的全文信息檢索技術(shù)研究

發(fā)布時(shí)間:2020-06-15 11:26
【摘要】:隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,現(xiàn)有近1千萬(wàn)人注冊(cè)了微信公眾號(hào),這些公眾號(hào)已推送了數(shù)億萬(wàn)計(jì)的微信文章。然而,目前針對(duì)如何挖掘使用大規(guī)模微信文章數(shù)據(jù)的研究較少。全文信息檢索技術(shù)能夠協(xié)助用戶從海量的文章中找到他們想要的相關(guān)信息,基于此,本文研究了如何使用全文信息檢索技術(shù)為用戶提供高質(zhì)量的微信內(nèi)容。論文首先闡述了信息檢索的關(guān)鍵技術(shù)。為了給用戶提供高質(zhì)量的微信文章,本文充分挖掘微信文章的特征,使用點(diǎn)贊數(shù),閱讀數(shù)等特征定義了微信文章的流行度;使用微信公眾號(hào)的統(tǒng)計(jì)數(shù)據(jù),比如該公眾號(hào)所發(fā)布文章的日均閱讀數(shù)等,定義了微信公眾號(hào)的影響力;本文結(jié)合微信文章的流行度和微信公眾號(hào)的影響力定義了微信文章的影響力,并結(jié)合Lucene的搜索排序算法,設(shè)計(jì)了一種新的適用于微信內(nèi)容檢索的文檔相關(guān)度排序算法。本文并做實(shí)驗(yàn)對(duì)比了BM25算法、Lucene的排序算法和本文提出的文檔相關(guān)度排序算法,驗(yàn)證了本文的算法獲得的檢索效果最好。本文系統(tǒng)地比較分析了常用的五種查詢擴(kuò)展方法,包括全局分析、局部分析、基于關(guān)聯(lián)規(guī)則、基于用戶查詢?nèi)罩竞突谡Z(yǔ)義概念的查詢擴(kuò)展,總結(jié)了它們各自的優(yōu)缺點(diǎn)。同時(shí),本文使用詞向量技術(shù)和文檔主題模型算法設(shè)計(jì)了新的查詢擴(kuò)展方法應(yīng)用于微信內(nèi)容的檢索。本文并做了實(shí)驗(yàn)比較本文提出的多種查詢擴(kuò)展方法,證明疊加式查詢擴(kuò)展方法LDA+Word2Vec對(duì)原查詢擴(kuò)展的效果最好。論文基于Lucene搜索引擎,設(shè)計(jì)并實(shí)現(xiàn)了面向微信內(nèi)容的全文信息檢索系統(tǒng),該系統(tǒng)為用戶提供了上傳文件并建立索引、搜索微信文章、搜索微信公眾號(hào)和展示微信公眾號(hào)詳情信息等服務(wù)。最后,論文總結(jié)了在實(shí)現(xiàn)面向微信內(nèi)容的全文信息檢索系統(tǒng)中所用到的技術(shù),并對(duì)接下來的研究進(jìn)行了展望。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.3
【圖文】:

搜索引擎,工作原理


第一章 緒 論 華東師范大學(xué)研究生碩士學(xué)位論文的程序)、為抓取的數(shù)據(jù)建立索引的索引器、檢索索引內(nèi)容的檢索器和用戶可以輸入查詢信息的用戶接口 (UI: User Interface)。搜索引擎是為用戶提供查詢服務(wù)的工具,其使用計(jì)算機(jī)技術(shù)在整個(gè)互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)并建立索引,以幫助用戶快速搜索信息。它的實(shí)現(xiàn)過程如圖 1.1 所示。

工作流程圖,全文搜索,引擎,工作流程


圖 2.1: 全文搜索引擎的工作流程它通過一種專業(yè)的計(jì)算機(jī)程序 (俗稱爬蟲:Spider) 無(wú)時(shí)無(wú)刻地從開放的網(wǎng)絡(luò)尋和抓取網(wǎng)頁(yè)內(nèi)容,并對(duì)內(nèi)容進(jìn)行壓縮處理,然后進(jìn)行存儲(chǔ),在搜索者輸入查息后,會(huì)在索引庫(kù)中查找與用戶查詢相匹配的記錄信息,最后將檢索到的相關(guān)經(jīng)過特定的排序算法處理后返回給用戶。壓縮存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)都是有固定格式且長(zhǎng)度有限, 可以理解為行數(shù)據(jù), 存儲(chǔ)在數(shù)據(jù)庫(kù)里, 其可以數(shù)據(jù)庫(kù)二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn),如貨幣、數(shù)值、日期和字符等;非結(jié)構(gòu)化,這種數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)相反,長(zhǎng)度不固定、并且格式多樣化,如網(wǎng)頁(yè)、圖音、論文等。常見的數(shù)據(jù)庫(kù)系統(tǒng)大都屬于關(guān)系型數(shù)據(jù)庫(kù),這種數(shù)據(jù)庫(kù)主要是用索結(jié)構(gòu)化數(shù)據(jù),主要原因是相比較檢索非結(jié)構(gòu)化數(shù)據(jù),技術(shù)實(shí)現(xiàn)簡(jiǎn)單。以數(shù)值

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 劉興林;;信息檢索多樣化排序算法研究綜述[J];中國(guó)科技信息;2014年16期

2 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計(jì)算[J];計(jì)算機(jī)科學(xué);2013年12期

3 高煒;張超;梁立;;信息檢索排序算法研究綜述[J];信息技術(shù);2009年06期

4 林國(guó)俊;葉飛躍;耿冬;鄭國(guó)良;;基于語(yǔ)義的概念查詢擴(kuò)展[J];計(jì)算機(jī)工程與設(shè)計(jì);2009年06期

5 崔航,文繼榮,李敏強(qiáng);基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J];軟件學(xué)報(bào);2003年09期

相關(guān)碩士學(xué)位論文 前3條

1 李維銀;基于有監(jiān)督學(xué)習(xí)的查詢擴(kuò)展技術(shù)研究[D];北京理工大學(xué);2015年

2 燕澤權(quán);基于主題模型的查詢擴(kuò)展技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2014年

3 殷東元;基于Lucene的Discuz站內(nèi)檢索設(shè)計(jì)與實(shí)現(xiàn)[D];南昌大學(xué);2014年



本文編號(hào):2714349

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2714349.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶820e9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com