基于最大頻繁項集的搜索引擎查詢結果聚類算法
【圖文】:
件狀態(tài)基構造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60
件狀態(tài)基構造新的FP-Tree,遞歸地挖掘頻繁項集,直到樹中只包含一條路徑,判斷當前項集的支持度是否大于最小支持度。圖2就是圖1樹中項“電影”的條件狀態(tài)基以及生成的新的FP-Tree,下一步再計算“變形,電影”的條件狀態(tài)基等等。詳細挖掘過程請參考文獻[17]。最大頻繁項集的挖掘,要對挖掘出來的頻繁項60
本文實驗比較了基于全文的MFIC算法和K-Means算法,同時比較了基于摘要的后綴樹聚類算法(STC)的聚類時間(圖3)。由于STC對網(wǎng)頁全文聚類時間太長(實驗數(shù)據(jù)顯示在10秒以上)不能用做在線聚類,在此不做詳細展示。另外由于Lin-go算法使用的是開源的Java實驗,其他算法是C++實現(xiàn),這里沒做比較。從圖中看出MFIC聚類時間優(yōu)于K-Means聚類的時間。由于MFIC聚類是基于網(wǎng)頁全文,聚類時間長于基于摘要的STC在預料之中。實驗結果表明MFIC聚類時間基本控制在2秒左右,可以滿足在線聚類需要。為了進一步提高系統(tǒng)反應,在具體應用中可以通過設置聚類結果緩存,減少用戶等待時間。圖3 聚類算法時間對比6.3 聚類評測標準檢索結果聚類系統(tǒng)的評價不同于一般的文本聚類評價
【相似文獻】
相關期刊論文 前10條
1 ;《計算機應用》征訂啟事[J];計算機應用;2011年09期
2 ;《計算機應用》征訂啟事[J];計算機工程與應用;2011年23期
3 王華;;計算機應用對個人社會化的影響[J];社科與經(jīng)濟信息;2000年05期
4 ;投稿須知[J];計算機應用與軟件;2011年09期
5 ;投稿須知[J];計算機應用與軟件;2011年08期
6 陸倩;程玉凱;;基于VC的學生教務信息管理系統(tǒng)的設計[J];軟件;2011年05期
7 崔劍;;軟件模擬在計算機應用中的發(fā)展變革[J];硅谷;2011年16期
8 張育人;;軟件工程學在計算機專業(yè)畢業(yè)設計中的運用[J];產(chǎn)業(yè)與科技論壇;2011年07期
9 孫愷;徐曉剛;;基于WorldWind平臺的衛(wèi)星云圖模擬技術研究[J];科學技術與工程;2011年22期
10 王建華;勞金越;;計算機在質(zhì)檢管理工作中的應用[J];中國高新技術企業(yè);2011年19期
相關會議論文 前10條
1 宋蘭;孫茂松;;中文文本全文查重的實驗研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識別與轉換[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開發(fā)與應用[A];第四屆全國臨床檢驗學術會議論文匯編[C];2006年
4 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實平臺中的應用[A];計算機技術與應用進展——全國第17屆計算機科學與技術應用(CACIS)學術會議論文集(上冊)[C];2006年
5 唐西隆;;用ToolBook制作多媒體課件的技巧[A];第十五屆全國圖學教育研討會暨第七屆工程制圖CAI課件演示交流會論文集[C];2006年
6 滿正行;李應興;單廣榮;于洪志;;網(wǎng)絡應用中實現(xiàn)藏文支持的一種方案[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
7 趙曉波;;基于即時通信的客戶服務系統(tǒng)[A];2007年中國通信學會“移動增值業(yè)務與應用”學術年會論文集[C];2007年
8 唐永明;王小捷;文娟;;基于關聯(lián)詞的復句語言模型[A];第三屆中國智能計算大會論文集[C];2009年
9 朱新河;嚴新平;蕭漢梁;;計算機輔助油液監(jiān)測數(shù)據(jù)處理系統(tǒng)[A];第二屆全國青年摩擦學學術會議論文專輯[C];1993年
10 彭朝林;;急診分診處的計算機應用[A];全國護理臨床研究學術交流暨專題講座會議論文會編[C];2001年
相關重要報紙文章 前10條
1 記者 梁捷;我國中文信息處理技術從實驗室走向全面應用[N];光明日報;2009年
2 姚雙云 華中師范大學語言與語言教育研究中心;虛詞知識庫:中文信息處理的基石[N];中國社會科學報;2011年
3 張波 龍雨;中文信息處理國際學術會議在武漢大學召開[N];中國社會科學院院報;2007年
4 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日報;2007年
5 胡唯元;文字編碼新標準:不再為“名”所累[N];科技日報;2006年
6 撰文 西南證券;計算機應用服務業(yè),隨大勢而動[N];上海金融報;2008年
7 許偉;金友兵 破局國外辦公套件壟斷[N];中國企業(yè)報;2008年
8 ;浙江天宇信息技術有限公司[N];中國計算機報;2009年
9 蘭文科;淺析計算機應用系統(tǒng)平臺建設[N];中國國門時報;2007年
10 ;教育 “一個孩子都不能少”[N];中國電腦教育報;2007年
相關博士學位論文 前9條
1 李蘇紅;基于實體模型的工程圖樣數(shù)字化設計的研究[D];吉林大學;2007年
2 劉杰;泄漏發(fā)射的信息重建與防御對策[D];浙江大學;2004年
3 Memon Abdul Ghafoor;[D];浙江大學;2006年
4 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學;2011年
5 王建會;中文信息處理中若干關鍵技術的研究[D];復旦大學;2004年
6 吳應良;網(wǎng)絡計算中的智能信息處理方法研究[D];華南理工大學;2000年
7 梁添才;基于認知機理的漢字智能造字研究[D];華南理工大學;2008年
8 盧建平;基于拓撲學和統(tǒng)計學的無字庫漢字智能造字研究[D];華南理工大學;2010年
9 江會星;漢語命名實體識別研究[D];北京郵電大學;2012年
相關碩士學位論文 前10條
1 王敏;基于改進的隱馬爾科夫模型漢語詞性標注[D];山西大學;2007年
2 黨蘭學;漢字語法語義智能輸入法總體設計與部分實現(xiàn)[D];河南大學;2006年
3 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設計與實現(xiàn)[D];吉林大學;2006年
4 曹林峰;中文文字差錯率統(tǒng)計軟件的實現(xiàn)[D];西安電子科技大學;2007年
5 張玉華;基于碼本的輸入法評測系統(tǒng)的設計和實現(xiàn)[D];蘇州大學;2005年
6 杜瑩;漢字語法語義智能輸入法核心算法及實現(xiàn)技術[D];河南大學;2006年
7 徐瑞;一個中文語義語料庫的研究與建設[D];蘇州大學;2006年
8 沈威;基于渡越矩陣與語境計算模型的復句關系詞的自動標注[D];華中師范大學;2007年
9 羅麗俊;中文信息處理中若干技術的研究與實現(xiàn)[D];遼寧科技大學;2008年
10 毋琳;特定領域問答系統(tǒng)中通用語義理解框架的設計與實現(xiàn)[D];河南大學;2007年
本文編號:2801544
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2801544.html