【摘要】:隨著電子商務(wù)的發(fā)展,購(gòu)物網(wǎng)站上的商品日益增加,用戶利用搜索引擎搜索商品變得越來(lái)越困難。因此,如何根據(jù)用戶自身特征及其興趣和偏好,如何根據(jù)用戶的信息和商品的信息契合度來(lái)影響搜索的結(jié)果,讓用戶快速找到自己想要得商品成為迫切需要解決的問題。基于上述背景,本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)個(gè)性化搜索引擎。 個(gè)性化搜索主要有基于查詢改進(jìn)的個(gè)性化搜索引擎、個(gè)性化網(wǎng)頁(yè)權(quán)重的個(gè)性化搜索引擎和個(gè)性化多元搜索引擎等,用戶特征收集方法也有三種:服務(wù)器端挖掘、用戶主動(dòng)提供和系統(tǒng)被動(dòng)學(xué)習(xí)。本文評(píng)估了這些方案的優(yōu)缺點(diǎn),結(jié)合淘寶公司現(xiàn)有的資源,選擇了基于個(gè)性化權(quán)重的個(gè)性化搜索方案,在用戶的特征提取方面采用服務(wù)端挖掘的方法。系統(tǒng)從三個(gè)維度進(jìn)行了個(gè)性化,分別是用戶的性別、用戶的價(jià)格偏好和用戶對(duì)商品本身屬性的選擇傾向,三者同時(shí)作用影響商品權(quán)重的實(shí)現(xiàn)方案。系統(tǒng)需要做的主要工作是用戶性別、價(jià)格偏好、膚質(zhì)、服裝偏好等數(shù)據(jù)的挖掘,搜索關(guān)鍵字分析,商品屬性提取,添加個(gè)性化索引字段和相關(guān)性計(jì)算的個(gè)性化加權(quán)。用戶性別預(yù)測(cè)采用的是邏輯回歸模型,價(jià)格分檔采用k-means聚簇和高斯分布模型相結(jié)合的方式實(shí)現(xiàn)。由于數(shù)據(jù)量較大,系統(tǒng)很多工作都基于hadoop平臺(tái)開發(fā)。個(gè)性化特征加權(quán)將采用增加個(gè)性化修正參數(shù)的方案,而不會(huì)改變其他特征的計(jì)算。實(shí)際使用表明,本文設(shè)計(jì)實(shí)現(xiàn)的個(gè)性化搜索系統(tǒng)能夠較為精確的了解用戶的意圖,為商品搜索帶來(lái)了便利。它能夠讓用戶更快的找到自己想要的東西,節(jié)約了瀏覽查找的過程,增加了用戶體驗(yàn),讓搜索更加智能化。 本文首先介紹了個(gè)性化搜索引擎的開發(fā)背景,接著介紹了實(shí)現(xiàn)該系統(tǒng)所用的相關(guān)的技術(shù),之后在分析系統(tǒng)的需求的基礎(chǔ)上設(shè)計(jì)出系統(tǒng)的整體架構(gòu)和系統(tǒng)各個(gè)模塊的劃分,并逐一闡述了各個(gè)模塊的功能和設(shè)計(jì)。最后根據(jù)各模塊的設(shè)計(jì)給出詳細(xì)的系統(tǒng)實(shí)現(xiàn)。
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 蔣慶豐;李梓;程曉旭;;K-Means聚類算法研究及圖形演示的實(shí)現(xiàn)[J];信息技術(shù);2010年03期
2 譚瓊;李曉黎;史忠植;;一種實(shí)現(xiàn)搜索引擎?zhèn)性化服務(wù)的方法[J];計(jì)算機(jī)科學(xué);2002年01期
3 魯婧婧;張晉昕;袁向東;駱福添;古萍;張熙;薛允蓮;;歐氏距離的加權(quán)處理對(duì)K-means法聚類效果的改進(jìn)[J];中國(guó)醫(yī)院統(tǒng)計(jì);2008年01期
4 李樹青;崔北亮;;基于個(gè)性化信息推薦服務(wù)的Web搜索引擎技術(shù)綜述[J];情報(bào)雜志;2007年08期
5 曾春,邢春曉,周立柱;基于內(nèi)容過濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報(bào);2008年01期
7 張初兵;高康;楊貴軍;;判別分析與Logistic回歸的模擬比較[J];統(tǒng)計(jì)與信息論壇;2010年01期
8 胡吉明;;個(gè)性化搜索引擎中的用戶興趣提取技術(shù)[J];圖書館學(xué)刊;2006年04期
相關(guān)碩士學(xué)位論文 前2條
1 黃衛(wèi)平;個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2011年
2 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
,
本文編號(hào):
2524092
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2524092.html