一種基于超鏈接結(jié)構(gòu)的向量空間模型改進(jìn)算法
[Abstract]:In the information retrieval system based on vector space model, TF-IDF algorithm is widely used in keyword-based information retrieval. However, for the unique hyperlink structure of a web page, it is necessary to have a technique to represent the content of the web page and take into account the web page content linked with it at the same time. In this paper, the essence of vector space model is analyzed, and the reason for its low precision is found. Based on the traditional model, an improved algorithm of vector space model based on hyperlink structure is proposed. Experimental analysis shows that the improved algorithm improves the retrieval accuracy by 10% compared with the original algorithm, and improves the retrieval effect to a certain extent.
【作者單位】: 燕山大學(xué)信息科學(xué)與工程學(xué)院 燕山大學(xué)信息科學(xué)與工程學(xué)院
【分類號(hào)】:TP301.6
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期
2 李凱,赫楓齡,左萬(wàn)利;PageRank-Pro——一種改進(jìn)的網(wǎng)頁(yè)排序算法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2003年02期
3 楊小平,丁浩,黃都培;基于向量空間模型的中文信息檢索技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年15期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李文斌;劉椿年;陳嶷瑛;;基于特征信息增益權(quán)重的文本分類算法[J];北京工業(yè)大學(xué)學(xué)報(bào);2006年05期
2 李玉擰;操衛(wèi)平;周蘭珍;;結(jié)構(gòu)化向量空間模型及其在Web信息檢索中的應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報(bào);2008年04期
3 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動(dòng)選取[J];北京理工大學(xué)學(xué)報(bào);2005年04期
4 屈峗;楊捧;張文靜;;基于信息粒度的主題相似性信息檢索[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2011年01期
5 吳江寧;王曉歡;;面向呼叫中心的知識(shí)導(dǎo)航系統(tǒng)研究[J];大連理工大學(xué)學(xué)報(bào);2009年06期
6 白鳳鳳;;基于不平衡數(shù)據(jù)集的文本分類技術(shù)研究[J];電腦編程技巧與維護(hù);2010年06期
7 閻亞杰;;網(wǎng)頁(yè)去重方法研究[J];電腦開發(fā)與應(yīng)用;2008年08期
8 陳麗珍;卡米力·毛依丁;;基于WEB信息檢索系統(tǒng)中維文處理方面的研究[J];電腦知識(shí)與技術(shù);2005年36期
9 張紅;;基于語(yǔ)義的中文搜索引擎研究[J];電腦知識(shí)與技術(shù);2009年08期
10 肖錚;莊建;莊重;;基于鏈接結(jié)構(gòu)的PageRank排序算法研究[J];電腦知識(shí)與技術(shù);2009年20期
相關(guān)會(huì)議論文 前9條
1 馬春雷;;基于向量空間模型的中文文本檢索研究[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項(xiàng)抽取方法研究[A];第二十二屆中國(guó)(天津)'2008IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2008年
3 胡金柱;陳俊平;盧麗君;趙東萌;張琮;王益維;;基于本體視圖的特征項(xiàng)抽取方法研究[A];第二十三屆中國(guó)(天津)2009IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會(huì)議論文集[C];2009年
4 劉國(guó)剛;;人工智能客戶服務(wù)體系的研究與實(shí)現(xiàn)[A];2008年中國(guó)通信學(xué)會(huì)無(wú)線及移動(dòng)通信委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年
5 彭淵;趙鐵軍;鄭德權(quán);于浩;;基于特征句抽取的網(wǎng)頁(yè)去重研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
6 張愛華;靖紅芳;王斌;徐燕;;文本分類中特征權(quán)重因子的作用研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
7 王珍;維尼拉·木沙江;趙麗紅;;維、哈、柯文搜索引擎中自動(dòng)分類技術(shù)的應(yīng)用研究[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
8 趙燕平;李超;;網(wǎng)絡(luò)安全信息挖掘中的特征選擇與專利分析研究[A];2004年中國(guó)管理科學(xué)學(xué)術(shù)會(huì)議論文集[C];2004年
9 王慧芳;張勇;邢春曉;張文珂;楊吉江;;文本摘要算法集成與實(shí)現(xiàn)[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 魏建香;學(xué)科交叉知識(shí)發(fā)現(xiàn)及其可視化研究[D];南京大學(xué);2010年
2 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
3 楊抒;基于WEB的林產(chǎn)品信息資源整合方法研究[D];北京林業(yè)大學(xué);2011年
4 黃定軒;企業(yè)核心能力智能挖掘應(yīng)用基礎(chǔ)研究[D];西南交通大學(xué);2005年
5 張友華;面向智能服務(wù)的Web內(nèi)容計(jì)算研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年
6 王秀娟;文本檢索中若干問(wèn)題研究[D];北京郵電大學(xué);2006年
7 周斌;面向公眾服務(wù)的電子政務(wù)研究[D];同濟(jì)大學(xué);2007年
8 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
9 席運(yùn)江;組織知識(shí)的網(wǎng)絡(luò)表示模型及分析方法[D];大連理工大學(xué);2007年
10 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 劉偉麗;基于粒子群算法和支持向量機(jī)的中文文本分類研究[D];河南工業(yè)大學(xué);2010年
2 蔡頌梅;語(yǔ)義增強(qiáng)的關(guān)系相似度度量算法研究[D];華東師范大學(xué);2011年
3 王雅菲;文本分類中特征降維方法的研究[D];長(zhǎng)春工業(yè)大學(xué);2010年
4 王阿婷;基于概念集合的網(wǎng)頁(yè)內(nèi)容過(guò)濾方法的研究[D];北京交通大學(xué);2010年
5 吳惠雄;基于支持向量機(jī)與聚類算法的中文文本分類研究[D];中南林業(yè)科技大學(xué);2009年
6 李慧;基于貝葉斯分類方法的中文問(wèn)句分類研究[D];石家莊鐵道學(xué)院;2010年
7 賈俊凱;公安業(yè)務(wù)文本信息挖掘的研究與實(shí)現(xiàn)[D];東華大學(xué);2011年
8 鞏軍全;文本分類算法的研究與改進(jìn)[D];西安電子科技大學(xué);2010年
9 黃少冰;基于J2ME的移動(dòng)網(wǎng)絡(luò)個(gè)性化信息推薦研究[D];西安電子科技大學(xué);2011年
10 楊玉珍;基于統(tǒng)計(jì)與規(guī)則的特征權(quán)重計(jì)算方法研究與應(yīng)用[D];山東師范大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年07期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 岑榮偉;劉奕群;張敏;茹立云;馬少平;;基于日志挖掘的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2010年03期
2 張宇;范基禮;鄭偉;鄒博偉;劉挺;;基于人工標(biāo)注的個(gè)性化檢索系統(tǒng)評(píng)測(cè)的研究[J];中文信息學(xué)報(bào);2009年02期
3 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報(bào);2007年01期
4 蘇沖;陳清才;王曉龍;孟憲軍;;基于最大頻繁項(xiàng)集的搜索引擎查詢結(jié)果聚類算法[J];中文信息學(xué)報(bào);2010年02期
5 劉玲;;搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)[J];科學(xué)之友(B版);2007年02期
6 滕偉,王永成;智能代理技術(shù)在搜索引擎中的應(yīng)用[J];高技術(shù)通訊;2001年10期
7 任洪平;;可視化信息檢索研究[J];魅力中國(guó);2008年26期
8 許嘉璐;朱小健;;中文信息處理研究工作的新進(jìn)展[J];云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2010年04期
9 吉亮;;個(gè)性化搜索引擎的技術(shù)發(fā)展與應(yīng)用[J];機(jī)械管理開發(fā);2010年05期
10 魏福官;鄭孝安;;一種基于知識(shí)的書面漢語(yǔ)自動(dòng)分詞方法[J];現(xiàn)代電力;1993年04期
相關(guān)會(huì)議論文 前10條
1 李斌;盧俊之;章成志;陳小荷;;基于聚類引擎的話題褒貶度計(jì)算[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
2 張乃岳;張學(xué)燕;;基于個(gè)體詞語(yǔ)相似度的定制化動(dòng)態(tài)信息檢索[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
3 宋蘭;孫茂松;;中文文本全文查重的實(shí)驗(yàn)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁(yè)的編碼識(shí)別與轉(zhuǎn)換[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
6 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
7 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
8 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
9 李賀華;付鶴崗;;多Agent Web信息檢索應(yīng)用研究[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
10 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 EndTo;優(yōu)化Meta討好搜索引擎[N];電腦報(bào);2009年
2 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年
3 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年
4 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年
5 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年
6 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年
7 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年
8 本報(bào)記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年
9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年
10 姜蕊;問(wèn)天下誰(shuí)識(shí)搜索?[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年
5 朱明杰;互聯(lián)網(wǎng)搜索系統(tǒng)中的高性能查詢問(wèn)題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
8 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
9 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
10 白玉琪;空間信息搜索引擎研究[D];中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 司衛(wèi)國(guó);基于移動(dòng)Agent的Web信息檢索系統(tǒng)的研究[D];西安電子科技大學(xué);2005年
2 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年
3 王倩;基于概念格的個(gè)性化搜索引擎查詢擴(kuò)展研究[D];北京郵電大學(xué);2008年
4 陳瑤;基于移動(dòng)Agent的Web信息檢索系統(tǒng)的研究[D];武漢理工大學(xué);2007年
5 孔祥鳳;企業(yè)網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];遼寧科技大學(xué);2007年
6 韓亮;基于本體的消防信息檢索系統(tǒng)的研究[D];大連海事大學(xué);2008年
7 楊獻(xiàn)峰;搜索引擎?zhèn)性化檢索技術(shù)的研究[D];中國(guó)石油大學(xué);2007年
8 李浩;分布式教育網(wǎng)信息檢索系統(tǒng)的研究和實(shí)現(xiàn)[D];華南理工大學(xué);2010年
9 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年
10 黃大鵬;基于語(yǔ)義Web的搜索引擎研究[D];西安理工大學(xué);2004年
,本文編號(hào):2470068
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2470068.html