基于用戶模型的個性化網(wǎng)絡文獻檢索系統(tǒng)的研究與設計
發(fā)布時間:2020-07-08 07:44
【摘要】:本文提出了一種個性化的網(wǎng)絡文獻信息檢索系統(tǒng)的設計研究,通過收集用戶的基本信息和興趣信息,建立面向用戶興趣的新型個性化網(wǎng)絡信息服務系統(tǒng)。用戶的興趣模型可以說是系統(tǒng)個性化實現(xiàn)的基礎,搜索引擎、系統(tǒng)與搜索引擎的接口以及向量模型的匹配算法是系統(tǒng)個性化實現(xiàn)的根本,本文還就Web頁面的識別、聚類技術分別作了研究介紹。文中除了根據(jù)一定方法和原則建了一個用戶模型之外,還就目前比較先進、智能的Agent、機器學習建模技術作了相關研究,最后本文還介紹了系統(tǒng)另外一個比較重要的功能——信息檢索主動推送服務的實現(xiàn)。 系統(tǒng)個性化網(wǎng)絡文獻信息檢索服務的實現(xiàn)主要可以由以下五步進行: 第一步,用戶在系統(tǒng)用戶界面的搜索框中輸入自己的關鍵詞或者詞組信息,然后向系統(tǒng)提交。 第二步,把第一步獲取到的關鍵詞通過系統(tǒng)的搜索引擎接口送到專門的搜索引擎,由它們執(zhí)行實際的搜索行為。同時通過抽取算法獲得結果文檔特征項。 第三步,把獲得的每一結果項的文檔向量,通過向量模型算法和用戶模型向量計算出相關度,并以相關度排序的方式,對文檔向量進行保存。 第四步,結果顯示。在用戶界面,把符合用戶模型的結果,按照用戶設定的最大值和相關度由高到底的順序進行顯示。 第五步,根據(jù)用戶的反饋行為,進一步優(yōu)化用戶模型,調整相關項的權值和權值因子。 為了本文和系統(tǒng)目標的實現(xiàn),論文以七章的內容來展開討論研究: 第一章是緒論部分,從網(wǎng)絡信息作為我們現(xiàn)在獲取信息的主要途徑入 WP=77 手,討論我們目前獲取網(wǎng)絡信息的主要方式,以及在獲取網(wǎng)絡信息時面臨的問題,引出論文研究的背景。并就目前個性化網(wǎng)絡信息檢索服務產生的定義、背景以及現(xiàn)狀做了介紹。 個性化網(wǎng)絡信息檢索服務,最直接的概念就是以“用戶為中心“的服務模式。既根據(jù)用戶提出的明確要求,用戶的興趣模型或通過用戶個性、習慣的分析在網(wǎng)絡上檢索,向用戶提供其可能需要的信息和服務,也是培養(yǎng)個性,引導需求的服務。其根本就是尊重用戶,研究用戶的行為和習慣,為用戶選擇更為重要的資源,提供特色網(wǎng)絡信息檢索的服務。 第二章是對個性化網(wǎng)絡文獻檢索技術的研究。首先,本章介紹了個性化技術中所涉及到的一些個性化的概念、思想和個性化在本文研究中的特征。個性化就是使事物具有個性,或者使其個性凸現(xiàn);個性化的思想在本文中的含義就是以系統(tǒng)用戶為中心,提煉其興趣與偏好,以此為基礎把從網(wǎng)絡中檢索出來的信息被動或主動地呈現(xiàn)到用戶面前;個性化在系統(tǒng)中的基本特征是用戶需求至上、用戶描述文件(user profile)為基礎、以現(xiàn)有搜索引擎為工具、基于相關度的方法、自學習與信息主動推送;個性化對社會服務業(yè)、信息化的發(fā)展具有深遠意義。然后,本章還對網(wǎng)絡文獻的概念、特點、分類、檢索以及目前檢索面臨的一些問題作了介紹,這是研究個性化網(wǎng)絡文獻檢索必須要了解的前提知識。 第三章是論文的重點,在這里主要研究了個性化檢索基于的基本理論和方法。這都是系統(tǒng)最終實現(xiàn)的支柱。由于系統(tǒng)的個性化檢索最終的數(shù)據(jù)源還是搜索引擎中的數(shù)據(jù)庫,因此我們就要了解搜索引擎的一些基本知識,搜索引擎是一個網(wǎng)絡信息查找工具,它一般是由搜集器、檢索器、管理器三個部分組成,各部分為信息搜索完成不同的功能,它的技術基礎主要包括HTTP協(xié)議、Robot技術、信息檢索技術這三部分;既然系統(tǒng)最終的提問要提交到搜索引擎,那這里就有一個系統(tǒng)與搜索引擎的接口的問 WP=78 題,本章以Google搜索引擎為代表,根據(jù)Google搜索引擎的搜索和結果網(wǎng)頁界面的Html語言特征,給出了系統(tǒng)與Google接口實現(xiàn)原理的偽代碼;用戶興趣模型也是系統(tǒng)個性化實現(xiàn)的前提,本章基于用戶的基本信息和興趣建立了一個簡單、易行、實用的用戶模型,并介紹了用戶模型的體系結構和實現(xiàn)結構;向量空間模型是個性化信息的過濾算法,通過計算出文檔特征向量和用戶模型向量的相關度,對搜索引擎的搜索結果重新過濾、排序,實現(xiàn)個性化信息服務;本章最后還就Web頁面的識別、特征提取以及文檔特征向量的表示,簡單的聚類技術作了介紹。 第四章也是論文的重點,主要介紹了系統(tǒng)的一些主要模塊的設計,包括用戶界面、信息檢索、信息過濾與反饋、用戶模型更新這四大模塊。用戶界面是用戶與系統(tǒng)進行交互的基礎,用戶信息的輸入和輸出都在這里進行,它在系統(tǒng)應用中的作用主要體現(xiàn)在信息導引、結果顯示與反饋這兩方面;系統(tǒng)的信息檢索其實就是屏蔽掉了的搜索引擎的檢索,本章介紹了系統(tǒng)信息檢索模塊中用戶模型、文檔特征向量的數(shù)據(jù)結構的表示,以及系統(tǒng)信息檢索的基本步驟和簡單原理圖;信息過濾與反饋是個性化真正實現(xiàn)的部分,信息過濾不但要過濾掉相關度低的結果還要過濾掉錯誤的結果項,并以恰當?shù)姆绞桨呀Y果顯示給用戶;當然這樣得到的結果并不一定滿足所有用戶的要求,在系統(tǒng)的用戶興趣模型更新模塊,主要根據(jù)用戶的反饋對用戶模型重新調整,使用戶模型切實反應出用戶的個性化需求。 第五章介紹了Agent和機器學習這兩種技術的一般性知識,以及它們在用戶建模方面的應用,并對目前一些建模方法作了簡單研究。用戶建模一般可以通過這些方法來進行:服務器端挖掘、用戶
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2004
【分類號】:G354
【圖文】:
與q夾角的余弦值即為cos(d,q)
本文編號:2746287
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2004
【分類號】:G354
【圖文】:
與q夾角的余弦值即為cos(d,q)
【引證文獻】
相關期刊論文 前2條
1 張艷;;個性化用戶興趣模型的研究[J];軟件導刊;2011年12期
2 李秦;鄭宏;;基于用戶行為的全文檢索系統(tǒng)個性化研究[J];圖書館雜志;2008年11期
相關碩士學位論文 前1條
1 侯欣如;面向交互設計的音樂產品人物角色研究[D];天津大學;2012年
本文編號:2746287
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2746287.html
教材專著