基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲
發(fā)布時(shí)間:2017-11-29 16:29
本文關(guān)鍵詞:基于TF-IDF改進(jìn)算法的聚焦主題網(wǎng)絡(luò)爬蟲
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 語義分析 搜索引擎 TF-IDF 主題爬蟲 文檔相似度
【摘要】:針對(duì)傳統(tǒng)的TF-IDF算法、K-means算法、自適應(yīng)遺傳算法在網(wǎng)絡(luò)檢索結(jié)果中含有大量不相關(guān)數(shù)據(jù)、語義檢索準(zhǔn)確性不高的問題,研究了TF-IDF算法的改進(jìn)及其在語義檢索中的應(yīng)用。將正則表達(dá)式和語義分析技術(shù)相結(jié)合,從而實(shí)現(xiàn)對(duì)TF-IDF算法的改進(jìn)。利用語義庫對(duì)搜索主題進(jìn)行描述,根據(jù)正則原子語義的重要性和在網(wǎng)頁標(biāo)簽中的不同位置進(jìn)行加權(quán)計(jì)算,得到正則原子在文檔中的相似度。通過空間向量模型對(duì)文檔相似度和主題模型進(jìn)行余弦運(yùn)算,從而獲取最終的搜索結(jié)果。最后,將改進(jìn)的TF-IDF算法、傳統(tǒng)的TF-IDF算法、K-means算法和自適應(yīng)遺傳算法運(yùn)用于聚焦主題網(wǎng)絡(luò)爬蟲中,對(duì)其檢索結(jié)果進(jìn)行了對(duì)比分析。計(jì)算結(jié)果表明,在聚焦主題網(wǎng)絡(luò)爬蟲語義分析的垂直搜索中,改進(jìn)TF-IDF算法的相似度準(zhǔn)確率比傳統(tǒng)的TF-IDF算法檢索準(zhǔn)確率提高了17.1個(gè)百分點(diǎn),遺漏率降低了7.76個(gè)百分點(diǎn);比K-means算法檢索準(zhǔn)確率提高6個(gè)百分點(diǎn);比自適應(yīng)遺傳算法檢索準(zhǔn)確率提高了8.1個(gè)百分點(diǎn)。總之,改進(jìn)的TF-IDF算法可以有效地提高文檔相似度檢測(cè)的準(zhǔn)確率,很好地改善聚焦主題網(wǎng)絡(luò)爬蟲在語義分析中的缺陷。
【作者單位】: 北方工業(yè)大學(xué)計(jì)算機(jī)學(xué)院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61371142) 北京市創(chuàng)新團(tuán)隊(duì)建設(shè)提升計(jì)劃項(xiàng)目(ID HT20130502)
【分類號(hào)】:TP391.1
【正文快照】: 0引言隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)資源每天都在成千上億兆的增長。其中涵蓋了當(dāng)今社會(huì)各個(gè)方面,例如教育、新聞、財(cái)經(jīng)等[1]。網(wǎng)絡(luò)共享資源已經(jīng)成為了當(dāng)今世界上最大規(guī)模的網(wǎng)絡(luò)公共共享資源。但是人的能力是有限的,面對(duì)如此龐大的資源數(shù)量,要從中找出所需要的數(shù)據(jù)是一件
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 陳悅;陳運(yùn);楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計(jì)與研究[J];成都信息工程學(xué)院學(xué)報(bào);2011年05期
2 代寬;趙輝;韓冬;宋天勇;;基于向量空間模型的中文網(wǎng)頁主題特征項(xiàng)抽取[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2014年01期
3 賀飛艷;何炎祥;劉楠;劉健博;彭敏;;面向微博短文本的細(xì)粒度情感特征抽取方法[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
4 孫志軍;鄭p,
本文編號(hào):1237401
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1237401.html
最近更新
教材專著