天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于多維用戶特征建模的個(gè)性化社交搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-07-29 17:22
【摘要】:目前,搜索引擎已成為網(wǎng)民獲取信息的一個(gè)重要途徑。然而隨著WEB2.0的迅速發(fā)展以及各類社交網(wǎng)站的日益崛起,傳統(tǒng)搜索引擎的一些缺陷暴露了出來。一方面,各種Web2.0網(wǎng)站和社交網(wǎng)站擁有海量的用戶數(shù)據(jù),但傳統(tǒng)搜索引擎卻無法支持對其檢索。另一方面,不同的用戶因?yàn)槁殬I(yè)、學(xué)歷、興趣偏好及社交關(guān)系各不相同,對搜索結(jié)果的期待也往往各不相同,因此對搜索引擎的個(gè)性化有很迫切需求。 鑒于此,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)個(gè)性化社交搜索引擎,該系統(tǒng)以開放的社交網(wǎng)絡(luò)為數(shù)據(jù)來源,通過分析豐富的用戶特征及社交關(guān)系來改善傳統(tǒng)搜索引擎的結(jié)果,旨在把對用戶最重要、用戶最感興趣的結(jié)果排在最重要位置。 用戶建模是個(gè)性化社交搜索的前提和基礎(chǔ),本文根據(jù)真實(shí)的社交網(wǎng)絡(luò)新浪微博的數(shù)據(jù)特征,提出了一種多維度多層次的用戶模型,包括用戶影響力模型、用戶社交關(guān)系模型及用戶興趣模型等三個(gè)子模型,全面地描述了社交網(wǎng)絡(luò)中的用戶特征。為不干擾用戶正常使用社交網(wǎng)絡(luò),本文根據(jù)新浪微博API特征,設(shè)計(jì)了隱式的用戶數(shù)據(jù)獲取算法,并根據(jù)用戶模型,設(shè)計(jì)了一套用戶特征生成算法,包括用于計(jì)算用戶全局影響力的PersonRank特征生成算法、用以計(jì)算用戶間相似度及親密度的社交關(guān)系特征生成算法及根據(jù)樸素貝葉斯文本分類方法建立用戶興趣特征的生成算法,并采用隱式反饋的更新策略和基于用戶主動(dòng)反饋的策略建立了用戶模型的更新機(jī)制。 在用戶建模的基礎(chǔ)上,本文設(shè)計(jì)了一套個(gè)性化評分和排序機(jī)制。評分和排序算法在全文檢索引擎Lucene的評分基礎(chǔ)之上進(jìn)行,融合了用戶影響力得分、用戶社交關(guān)系得分及用戶興趣得分來生成最終的文檔得分,然后根據(jù)得分對文檔重新排序。 最后,本文在上述研究的基礎(chǔ)上設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于多維用戶特征的個(gè)性化社交搜索引擎,并開放給數(shù)位用戶進(jìn)行評測。根據(jù)對點(diǎn)擊日志的統(tǒng)計(jì),表明用戶對該個(gè)性化社交搜索引擎的滿意度較全文檢索引擎Lucene有較為明顯的提升。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【圖文】:

源碼,組織圖,系統(tǒng)結(jié)構(gòu),功能表


圖 2-1 Lucene 系統(tǒng)結(jié)構(gòu)與源碼組織圖e 中各個(gè)代碼包的主要作用如表 2-1 所示:表 2-1 Lucene 包結(jié)構(gòu)功能表Lucene 包結(jié)構(gòu)功能表包名 功能e.lucene.analysis 語言分析器,主要用于分詞,支持中文需要擴(kuò)展此e.lucene.document 索引存儲(chǔ)的文檔結(jié)構(gòu)管理e.lucene.index 索引管理,包括索引建立、刪除等e.lucene.queryParser 查詢分析器,實(shí)現(xiàn)查詢關(guān)鍵詞間的與、或、非等運(yùn)e.lucene.search 檢索管理,根據(jù)查詢條件,檢索結(jié)果e.lucene.store 數(shù)據(jù)存儲(chǔ)管理,主要包括一些底層的 IO 操作e.lucene.util 公用類包Lucene 評分及排序機(jī)制

示意圖,示意圖,文檔,公式


圖 2-2 Lucene 評分示意圖 Lucene 源代碼中提取出評分的公式如下[21]: 2( , ) ( , ) ( )( ) ( ) . () ( , )t qScore q d coord q d queryNorm qtf t d idf t t getBoost norm t d q , d)為文檔 d 對于查詢 q 的得分,總體來說該公式是對著名的 TF-I得到的。詳細(xì)介紹公式中各個(gè)因子的含義:oord(q , d)用來計(jì)算文檔 d 中出現(xiàn)的查詢 q 中的詞條(Term)的比例,查在文檔 d 中出現(xiàn)的越多,則評分越高。例如,查詢 q 為“google baidgle又包含baidu的文檔的coord(q , d)值高于只包含google或者baidu的ueryNorm(q) 這個(gè)標(biāo)準(zhǔn)化因子用于在多個(gè)查詢器中進(jìn)行比較。它并不

示例,概率向量,文本,中文分詞


貝葉斯文本分類算法計(jì)算微博文本在上述 12 個(gè)領(lǐng)域的概率, P=<P1,P2,……,P12>, 設(shè)定最大的一維為 1,其余維數(shù)設(shè)為 0。微博文本的領(lǐng)域概率向量通過疊加的方式進(jìn)行融合,生成用。要涉及兩個(gè)方面,一方面是微博文本特征向量的生成,另一分類算法構(gòu)建微博文本的領(lǐng)域概率向量。量的生成征向量的生成主要由微博文本擴(kuò)展、中文分詞、特征提取等本字?jǐn)?shù)較短,因此每條微博的特征項(xiàng)較之傳統(tǒng)網(wǎng)頁會(huì)少很多條微博下會(huì)有相關(guān)的評論及轉(zhuǎn)發(fā)信息,而相關(guān)的評論和轉(zhuǎn)發(fā)開的,我們可以將其看作這個(gè)微博的自然擴(kuò)展。如圖 4-3、發(fā)信息和部分評論。

【參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 趙仲孟,袁薇,何世麗,沈鈞毅;個(gè)性化搜索引擎中用戶模型智能調(diào)整算法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2005年24期

2 林霜梅;汪更生;陳弈秋;;個(gè)性化推薦系統(tǒng)中的用戶建模及特征選擇[J];計(jì)算機(jī)工程;2007年17期

3 徐婕;康慕寧;董谷音;;基于社交網(wǎng)絡(luò)的實(shí)時(shí)搜索引擎的排序算法研究[J];科學(xué)技術(shù)與工程;2011年28期

4 袁柳;張龍波;;個(gè)性化搜索中的用戶特征模型研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年15期

5 曾春,邢春曉,周立柱;基于內(nèi)容過濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期

6 張?jiān)?趙仲孟,沈鈞毅;一種基于向量空間模型的個(gè)性化搜索引擎研究[J];微電子學(xué)與計(jì)算機(jī);2003年11期

相關(guān)碩士學(xué)位論文 前2條

1 李愛明;個(gè)性化搜索引擎用戶模型研究[D];華中師范大學(xué);2007年

2 陳晨;基于興趣多邊形的個(gè)性化搜索系統(tǒng)的研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2010年



本文編號(hào):2774273

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2774273.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01a9c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com