搜索引擎返回結(jié)果聚類技術(shù)研究與實(shí)現(xiàn).pdf 全文 文檔投稿網(wǎng)
本文關(guān)鍵詞:搜索引擎返回結(jié)果聚類技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
西南交通大學(xué)
碩士學(xué)位論文
搜索引擎返回結(jié)果聚類技術(shù)的研究與實(shí)現(xiàn)
姓名:陳菊紅
申請學(xué)位級(jí)別:碩士
專業(yè):計(jì)算機(jī)應(yīng)用技術(shù)
指導(dǎo)教師:金煒東
20090601第頁
西南交通大學(xué)碩士研究生學(xué)位論文
摘要
隨著因特網(wǎng)技術(shù)的飛速發(fā)展和搜索引擎技術(shù)的日趨成熟,人們逐漸開始頻繁
利用網(wǎng)絡(luò)來獲取所需的資源,而現(xiàn)有的搜索引擎返回的查詢結(jié)果數(shù)量龐大且呈線
性排列,用戶很難在較短的時(shí)間內(nèi)找到有用的信息,因此如何能夠快捷、準(zhǔn)確地
發(fā)現(xiàn)信息則成為目前信息檢索領(lǐng)域亟待解決的問題。文本聚類具有較強(qiáng)的靈活性
和自動(dòng)處理能力,已經(jīng)逐漸成為對搜索引擎進(jìn)行有效地組織和導(dǎo)航的重要手段。
本文就文本聚類算法進(jìn)行了深入的研究,采用聚類算法作為主要框架,
探索和研究文本聚類在搜索引擎領(lǐng)域內(nèi)的應(yīng)用,主要研究工作如下:
文本預(yù)處理的許多關(guān)鍵技術(shù)直接影響聚類的效果,因此本文對文本聚類預(yù)處
理中涉及的關(guān)鍵技術(shù)做了深入的研究,在此基礎(chǔ)上設(shè)計(jì)和實(shí)現(xiàn)了包含網(wǎng)頁去噪、
詞干提取、停止詞過濾等功能的預(yù)處理子系統(tǒng)。
?是向量空間模型中最常
用的權(quán)重計(jì)算方法,它可以有效地強(qiáng)化在文檔中出現(xiàn)的高頻詞匯的權(quán)重,弱化在
文檔集合中出現(xiàn)頻率較高但是包含文檔信息量少的常用詞的權(quán)重。但是,事實(shí)上
詞對文檔的重要程度還與詞的詞性以及詞在文檔中的位置因素有關(guān),因此本文在
傳統(tǒng)的的基礎(chǔ)上加入詞性權(quán)重與位置權(quán)重對其進(jìn)行修正,實(shí)驗(yàn)證明改進(jìn)
后的?可以更加準(zhǔn)確的描述詞對文檔的重要程度,有效地提高了聚類算法
的查準(zhǔn)率和查全率,使算法的整體性能有了較大的提高。
本文對聚類算法做了深入的研究和分析,通過對比實(shí)驗(yàn)證明它比目前
流行的后綴樹算法聚類的性能更優(yōu),提取出的類標(biāo)簽更能反映類別信息,
易于理
本文關(guān)鍵詞:搜索引擎返回結(jié)果聚類技術(shù)的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):130658
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/130658.html