天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種編輯距離算法及其在網(wǎng)頁搜索中的應(yīng)用

發(fā)布時(shí)間:2018-08-01 19:17
【摘要】:針對傳統(tǒng)方法不能很好地處理網(wǎng)頁中簡短域與用戶查詢之間的相關(guān)性排序問題,提出一種基于改進(jìn)的編輯距離排序算法.將以詞為單位的用戶查詢和簡短網(wǎng)頁域通過匹配編碼轉(zhuǎn)化為2個(gè)字符串,再利用改進(jìn)的編輯距離計(jì)算2個(gè)字符串之間的相似性.由于在用戶查詢與待比較的簡短網(wǎng)頁域之間引入了查詢詞分布的位置、順序和距離等,以及含有查詢詞修飾關(guān)系的重要信息,所以編碼字符串之間的相似程度可以衡量對應(yīng)的查詢與簡短網(wǎng)頁域之間的相關(guān)性.經(jīng)大規(guī)模真實(shí)搜索引擎實(shí)驗(yàn)表明,該算法較之傳統(tǒng)的相關(guān)性排序算法,可以顯著地提高網(wǎng)頁搜索中的簡短網(wǎng)頁域相關(guān)性排序性能,尤其適用于簡短域與用戶查詢之間的相關(guān)性比較.
[Abstract]:In view of the fact that the traditional method can not deal well with the problem of the correlation between the short domain and the user query, an improved edit-distance sorting algorithm is proposed. The user query based on words and the short web page domain are transformed into two strings by matching encoding, and the similarity between the two strings is calculated by using the improved editing distance. Because the location, order and distance of query words are introduced between the user query and the short web page field to be compared, and the important information of query word modification relation is also introduced. Therefore, the similarity between encoding strings can measure the correlation between the corresponding query and the domain of a short web page. The experiments of large scale real search engine show that compared with the traditional correlation sorting algorithm, this algorithm can significantly improve the performance of short page domain correlation sorting in web search. It is especially suitable for comparing the correlation between a short domain and a user query.
【作者單位】: 西安交通大學(xué)電子與信息工程學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60673087)
【分類號(hào)】:TP391.41

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 薛曄偉;沈鈞毅;張?jiān)?;一種編輯距離算法及其在網(wǎng)頁搜索中的應(yīng)用[J];西安交通大學(xué)學(xué)報(bào);2008年12期

2 刁興春;譚明超;曹建軍;;一種融合多種編輯距離的字符串相似度計(jì)算方法[J];計(jì)算機(jī)應(yīng)用研究;2010年12期

3 薛曄偉;沈鈞毅;張?jiān)?鮑軍鵬;;網(wǎng)頁特征獲取方法及其在網(wǎng)頁搜索中的應(yīng)用(英文)[J];Journal of Southeast University(English Edition);2008年03期

4 石東華,杜曉榮,劉曉平;XML在網(wǎng)站頁面搜索和生成中的應(yīng)用[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年01期

5 高松;;串起珍珠的鏈條——記騰訊SOSO團(tuán)隊(duì)[J];程序員;2010年06期

6 廖明濤;張德運(yùn);李金庫;;基于網(wǎng)絡(luò)處理器的高效中英文多模式匹配算法[J];計(jì)算機(jī)工程;2007年05期

7 王秀華;劉愛霞;;字符串匹配器的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江紡織;2008年02期

8 趙作鵬;尹志民;王潛平;許新征;江海峰;;一種改進(jìn)的編輯距離算法及其在數(shù)據(jù)處理中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2009年02期

9 ;新華社和中移動(dòng)聯(lián)手開通盤古搜索[J];今傳媒;2011年03期

10 賀川斌,周明全,王長纓;基于像素字符串比較的圖像快速匹配算法[J];微機(jī)發(fā)展;2005年01期

相關(guān)會(huì)議論文 前10條

1 周學(xué)廣;張煥國;;一種柔性中文字符串匹配算法[A];第二十七屆中國控制會(huì)議論文集[C];2008年

2 王小鳳;周明全;耿國華;郭紅波;;一種基于字符距離的特征字符串近似匹配算法[A];圖像圖形技術(shù)與應(yīng)用進(jìn)展——第三屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2008年

3 王英偉;薛林福;潘保芝;;字符串匹配在測井沉積相分析中的應(yīng)用[A];中國地球物理學(xué)會(huì)第二十三屆年會(huì)論文集[C];2007年

4 張鑫;程學(xué)旗;譚建龍;王映;;一種快速的多模式串匹配算法及其在實(shí)時(shí)漢語文本分類系統(tǒng)中的應(yīng)用[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

5 趙國毅;楊曉春;王斌;;面向相似數(shù)據(jù)的無損壓縮技術(shù)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年

6 王斌;郭慶;李中博;楊曉春;;支持塊編輯距離的索引結(jié)構(gòu)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

7 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識(shí)別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年

8 王潔;宋柔;;HSK動(dòng)態(tài)作文語料庫偏誤標(biāo)注方法研究[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

9 楊洋;楊新武;李玉鑒;;一種基于特征串比較的自動(dòng)眉毛識(shí)別方法[A];圖像圖形技術(shù)研究與應(yīng)用2009——第四屆圖像圖形技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年

10 運(yùn)正佳;李軼男;楊曉春;;支持帶有通配符的字符串匹配算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 陳軍梅;新浪聯(lián)手谷歌 共拓競價(jià)廣告[N];中國質(zhì)量報(bào);2007年

2 本報(bào)記者 周志軍;谷歌“涉黃”,錯(cuò)了就是錯(cuò)了![N];中國文化報(bào);2009年

3 本報(bào)記者  張磊;搜索 需要更多社區(qū)平臺(tái)[N];中國消費(fèi)者報(bào);2006年

4 馬曉芳;Google與3G門戶聯(lián)手推出YY搜索[N];第一財(cái)經(jīng)日報(bào);2007年

5 李永勝;在中文網(wǎng)頁搜索質(zhì)量上 Google險(xiǎn)勝百度[N];中國計(jì)算機(jī)報(bào);2007年

6 張力邋王磊;山水實(shí)景演出:點(diǎn)亮夜色的一種可能性[N];中國旅游報(bào);2007年

7 本報(bào)記者 陳煜儒;搜索網(wǎng)站“過失”違法須界定[N];法制日報(bào);2009年

8 李曉艷;總部力挺李開復(fù) 谷歌中國第三步[N];21世紀(jì)經(jīng)濟(jì)報(bào)道;2007年

9 何苦;谷歌中國不走尋常路:四年竟有五個(gè)“門”[N];證券日報(bào);2009年

10 趙壘;中文搜索引擎再點(diǎn)硝煙[N];中華工商時(shí)報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 王潔;漢語中介語偏誤的計(jì)算機(jī)處理方法研究[D];北京語言大學(xué);2008年

2 黃建;入侵檢測系統(tǒng)中字符串匹配算法與實(shí)現(xiàn)[D];華中科技大學(xué);2008年

3 戴東波;序列數(shù)據(jù)的相似性查詢研究[D];復(fù)旦大學(xué);2009年

4 李奇越;網(wǎng)絡(luò)內(nèi)容分析中基于硬件的字符串匹配算法的研究[D];中國科學(xué)技術(shù)大學(xué);2008年

5 劉衛(wèi)紅;垃圾郵件檢測與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年

6 樂小虬;非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2006年

7 李云照;高速網(wǎng)數(shù)據(jù)過濾若干關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2009年

8 萬國根;面向內(nèi)容的網(wǎng)絡(luò)安全監(jiān)控模型及其關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2005年

9 周,

本文編號(hào):2158581


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2158581.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶04cf0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com