無鏈接文檔排序算法研究
本文關(guān)鍵詞:無鏈接文檔排序算法研究
更多相關(guān)文章: 信息檢索 PageRank算法 DocumentRank算法 鏈接結(jié)構(gòu)
【摘要】:大數(shù)據(jù)時代的到來,數(shù)據(jù)格式呈現(xiàn)多樣化,對Web數(shù)據(jù)的處理不僅僅局限在網(wǎng)頁鏈接上,還需要處理無鏈接結(jié)構(gòu)的文檔。如何從海量的文檔中獲取所需的信息是搜索引擎亟待解決的問題,目前傳統(tǒng)的根據(jù)索引分析并不能滿足這一需求。為了從數(shù)百萬個結(jié)果中選取價值最高的文檔子集,提出了新的DocumentRank算法,通過構(gòu)建衡量文檔重要性矩陣來計算查詢相關(guān)度得分對文檔進行排序。最后通過對互聯(lián)網(wǎng)文檔數(shù)據(jù)集搜索的實驗說明,DocumentRank算法相比Lucene索引技術(shù)提高了文檔檢索的精確度和綜合相關(guān)度。
【作者單位】: 杭州電子科技大學(xué)通信工程學(xué)院;麗水學(xué)院工程與設(shè)計學(xué)院;
【關(guān)鍵詞】: 信息檢索 PageRank算法 DocumentRank算法 鏈接結(jié)構(gòu)
【分類號】:TP391.3
【正文快照】: 2.麗水學(xué)院工程與設(shè)計學(xué)院,浙江麗水32300)0引言互聯(lián)網(wǎng)信息具有分散、無序、海量等特點,如何從浩瀚的信息資源中快速、有效、準(zhǔn)確地找到所需信息是一個具有挑戰(zhàn)性的研究課題[1]。因此,學(xué)術(shù)界和工業(yè)界對信息檢索掀起了新的研究高潮[2-3],相繼形成了諸多排序算法模型。文獻[4]提
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 馬應(yīng)龍;李鵬鵬;張敬旭;;一種基于多分類語義分析和個性化的語義檢索方法[J];東南大學(xué)學(xué)報(自然科學(xué)版);2014年02期
2 蔡飛;陳洪輝;舒振;;基于用戶相關(guān)反饋的排序?qū)W習(xí)算法研究[J];國防科技大學(xué)學(xué)報;2013年02期
3 花貴春;張敏;劉奕群;馬少平;茹立云;;面向排序的基于查詢需求的查詢聚類模型[J];計算機研究與發(fā)展;2012年11期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王蘭成;劉曉亮;黃永勤;;論互聯(lián)網(wǎng)新媒體檔案信息資源的建設(shè)與服務(wù)[J];檔案與建設(shè);2014年01期
2 胡新海;;微博垃圾評論檢測與預(yù)處理技術(shù)[J];湖南工程學(xué)院學(xué)報(自然科學(xué)版);2014年03期
3 羅彩君;;一種改進的Web社區(qū)結(jié)構(gòu)挖掘系統(tǒng)[J];電子設(shè)計工程;2014年12期
4 龐紅美;劉宏志;;基于PageRank算法的信息工程安全監(jiān)理風(fēng)險評估研究[J];計算機安全;2014年08期
5 陳凱;曹曉光;楊冀紅;史良樹;戰(zhàn)鷹;;基于C4.5決策樹算法的全國積雪模型生成[J];電子設(shè)計工程;2014年17期
6 張文惠;李輝;;數(shù)據(jù)挖掘助力唯品會突圍[J];電子商務(wù);2014年11期
7 潘莉;張桁;;網(wǎng)絡(luò)購物推薦系統(tǒng)現(xiàn)狀分析[J];電子制作;2014年21期
8 成毅;葛文;鄭仲;陳科;;分布式倒排索引的地理信息服務(wù)搜索方法研究[J];測繪科學(xué)技術(shù)學(xué)報;2014年01期
9 穆翠霞;劉振華;武濤;;面向電子商務(wù)的網(wǎng)頁檢索聚類方法[J];計算機與現(xiàn)代化;2014年05期
10 焦毅;梁靜;包健;;基站電源全生命周期管理[J];內(nèi)蒙古科技與經(jīng)濟;2014年10期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 文俊峰;;山西移動綜合監(jiān)控戰(zhàn)略規(guī)劃[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(下)[C];2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃航輝;互聯(lián)網(wǎng)訪問數(shù)據(jù)預(yù)處理研究與應(yīng)用[D];東華大學(xué);2014年
2 張亞;面向領(lǐng)域的微博權(quán)威人物分析技術(shù)與研究[D];華東理工大學(xué);2014年
3 景姍;基于微博客的網(wǎng)絡(luò)社群構(gòu)建及意見領(lǐng)袖挖掘技術(shù)的研究與實現(xiàn)[D];東北大學(xué);2012年
4 顏超;基于網(wǎng)絡(luò)評論情感和區(qū)域的觀點社群發(fā)現(xiàn)技術(shù)的研究[D];東北大學(xué);2011年
5 王琳;中文微博數(shù)據(jù)凈化與情感傾向分析技術(shù)的研究與實現(xiàn)[D];東北大學(xué);2013年
6 張岳松;基于QoS規(guī)則挖掘的組合服務(wù)階段性優(yōu)化系統(tǒng)的研究與實現(xiàn)[D];東北大學(xué);2011年
7 陳海潮;信貸業(yè)務(wù)數(shù)據(jù)查詢系統(tǒng)的設(shè)計與實現(xiàn)[D];廈門大學(xué);2014年
8 李旋;聚類成員生成以及帶約束的聚類融合選擇研究[D];廈門大學(xué);2013年
9 張陽;基于產(chǎn)品評論的觀點挖掘研究[D];西北大學(xué);2014年
10 蔣雙喜;集團公司預(yù)算管理系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭石軍;羅挺;卿太平;;一種新的最短路徑啟發(fā)式搜索算法[J];中國儲運;2011年09期
2 謝海濤;孟祥武;;適應(yīng)用戶需求進化的個性化信息服務(wù)模型[J];電子學(xué)報;2011年03期
3 王立才;孟祥武;張玉潔;;移動網(wǎng)絡(luò)服務(wù)中基于認知心理學(xué)的用戶偏好提取方法[J];電子學(xué)報;2011年11期
4 單蓉;;一種基于用戶瀏覽行為更新的興趣模型[J];電子設(shè)計工程;2010年04期
5 曾長清;王玉v,
本文編號:893254
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/893254.html