天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于最大頻繁項集的搜索引擎查詢結果聚類算法

發(fā)布時間:2020-08-23 12:46
【摘要】:現(xiàn)有的搜索引擎查詢結果聚類算法大多針對用戶查詢生成的網(wǎng)頁摘要進行聚類,由于網(wǎng)頁摘要篇幅較短,質(zhì)量良莠不齊,聚類效果難以有較大的提高(比如后綴樹算法,Lingo算法);而傳統(tǒng)的基于全文的聚類算法運算復雜度較高,且難以生成高質(zhì)量的類別標簽,無法滿足在線聚類的需求(比如KMeans算法)。該文提出一種基于全文最大頻繁項集的網(wǎng)頁在線聚類算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大頻繁項集,然后依據(jù)網(wǎng)頁集合之間最大頻繁項集的共享關系進行聚類,最后依據(jù)類別包含的頻繁項生成類別標簽。實驗結果表明MFIC算法降低了基于網(wǎng)頁全文聚類的時間,聚類精度提高15%左右,且能生成可讀性較好的類別標簽。
【圖文】:

路徑,遞歸圖,例子,狀態(tài)基


件狀態(tài)基構造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60

路徑,遞歸圖,狀態(tài)基,頻繁項集


件狀態(tài)基構造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60

時間對比,聚類算法,聚類


本文實驗比較了基于全文的MFIC算法和K-Means算法,同時比較了基于摘要的后綴樹聚類算法(STC)的聚類時間(圖3)。由于STC對網(wǎng)頁全文聚類時間太長(實驗數(shù)據(jù)顯示在10秒以上)不能用做在線聚類,在此不做詳細展示。另外由于Lin-go算法使用的是開源的Java實驗,其他算法是C++實現(xiàn),這里沒做比較。從圖中看出MFIC聚類時間優(yōu)于K-Means聚類的時間。由于MFIC聚類是基于網(wǎng)頁全文,聚類時間長于基于摘要的STC在預料之中。實驗結果表明MFIC聚類時間基本控制在2秒左右,可以滿足在線聚類需要。為了進一步提高系統(tǒng)反應,在具體應用中可以通過設置聚類結果緩存,減少用戶等待時間。圖3 聚類算法時間對比6.3 聚類評測標準檢索結果聚類系統(tǒng)的評價不同于一般的文本聚類評價

【相似文獻】

相關期刊論文 前10條

1 ;《計算機應用》征訂啟事[J];計算機應用;2011年09期

2 ;《計算機應用》征訂啟事[J];計算機工程與應用;2011年23期

3 王華;;計算機應用對個人社會化的影響[J];社科與經(jīng)濟信息;2000年05期

4 ;投稿須知[J];計算機應用與軟件;2011年09期

5 ;投稿須知[J];計算機應用與軟件;2011年08期

6 陸倩;程玉凱;;基于VC的學生教務信息管理系統(tǒng)的設計[J];軟件;2011年05期

7 崔劍;;軟件模擬在計算機應用中的發(fā)展變革[J];硅谷;2011年16期

8 張育人;;軟件工程學在計算機專業(yè)畢業(yè)設計中的運用[J];產(chǎn)業(yè)與科技論壇;2011年07期

9 孫愷;徐曉剛;;基于WorldWind平臺的衛(wèi)星云圖模擬技術研究[J];科學技術與工程;2011年22期

10 王建華;勞金越;;計算機在質(zhì)檢管理工作中的應用[J];中國高新技術企業(yè);2011年19期

相關會議論文 前10條

1 宋蘭;孫茂松;;中文文本全文查重的實驗研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年

2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識別與轉換[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

3 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開發(fā)與應用[A];第四屆全國臨床檢驗學術會議論文匯編[C];2006年

4 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實平臺中的應用[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用(CACIS)學術會議論文集(上冊)[C];2006年

5 唐西隆;;用ToolBook制作多媒體課件的技巧[A];第十五屆全國圖學教育研討會暨第七屆工程制圖CAI課件演示交流會論文集[C];2006年

6 滿正行;李應興;單廣榮;于洪志;;網(wǎng)絡應用中實現(xiàn)藏文支持的一種方案[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

7 趙曉波;;基于即時通信的客戶服務系統(tǒng)[A];2007年中國通信學會“移動增值業(yè)務與應用”學術年會論文集[C];2007年

8 唐永明;王小捷;文娟;;基于關聯(lián)詞的復句語言模型[A];第三屆中國智能計算大會論文集[C];2009年

9 朱新河;嚴新平;蕭漢梁;;計算機輔助油液監(jiān)測數(shù)據(jù)處理系統(tǒng)[A];第二屆全國青年摩擦學學術會議論文專輯[C];1993年

10 彭朝林;;急診分診處的計算機應用[A];全國護理臨床研究學術交流暨專題講座會議論文會編[C];2001年

相關重要報紙文章 前10條

1 記者 梁捷;我國中文信息處理技術從實驗室走向全面應用[N];光明日報;2009年

2 姚雙云 華中師范大學語言與語言教育研究中心;虛詞知識庫:中文信息處理的基石[N];中國社會科學報;2011年

3 張波 龍雨;中文信息處理國際學術會議在武漢大學召開[N];中國社會科學院院報;2007年

4 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日報;2007年

5 胡唯元;文字編碼新標準:不再為“名”所累[N];科技日報;2006年

6 撰文 西南證券;計算機應用服務業(yè),隨大勢而動[N];上海金融報;2008年

7 許偉;金友兵 破局國外辦公套件壟斷[N];中國企業(yè)報;2008年

8 ;浙江天宇信息技術有限公司[N];中國計算機報;2009年

9 蘭文科;淺析計算機應用系統(tǒng)平臺建設[N];中國國門時報;2007年

10 ;教育 “一個孩子都不能少”[N];中國電腦教育報;2007年

相關博士學位論文 前9條

1 李蘇紅;基于實體模型的工程圖樣數(shù)字化設計的研究[D];吉林大學;2007年

2 劉杰;泄漏發(fā)射的信息重建與防御對策[D];浙江大學;2004年

3 Memon Abdul Ghafoor;[D];浙江大學;2006年

4 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學;2011年

5 王建會;中文信息處理中若干關鍵技術的研究[D];復旦大學;2004年

6 吳應良;網(wǎng)絡計算中的智能信息處理方法研究[D];華南理工大學;2000年

7 梁添才;基于認知機理的漢字智能造字研究[D];華南理工大學;2008年

8 盧建平;基于拓撲學和統(tǒng)計學的無字庫漢字智能造字研究[D];華南理工大學;2010年

9 江會星;漢語命名實體識別研究[D];北京郵電大學;2012年

相關碩士學位論文 前10條

1 王敏;基于改進的隱馬爾科夫模型漢語詞性標注[D];山西大學;2007年

2 黨蘭學;漢字語法語義智能輸入法總體設計與部分實現(xiàn)[D];河南大學;2006年

3 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設計與實現(xiàn)[D];吉林大學;2006年

4 曹林峰;中文文字差錯率統(tǒng)計軟件的實現(xiàn)[D];西安電子科技大學;2007年

5 張玉華;基于碼本的輸入法評測系統(tǒng)的設計和實現(xiàn)[D];蘇州大學;2005年

6 杜瑩;漢字語法語義智能輸入法核心算法及實現(xiàn)技術[D];河南大學;2006年

7 徐瑞;一個中文語義語料庫的研究與建設[D];蘇州大學;2006年

8 沈威;基于渡越矩陣與語境計算模型的復句關系詞的自動標注[D];華中師范大學;2007年

9 羅麗俊;中文信息處理中若干技術的研究與實現(xiàn)[D];遼寧科技大學;2008年

10 毋琳;特定領域問答系統(tǒng)中通用語義理解框架的設計與實現(xiàn)[D];河南大學;2007年



本文編號:2801544

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2801544.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶72658***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com