垂直搜索引擎中的分詞算法研究
本文關鍵詞:垂直搜索引擎中的分詞算法研究
【摘要】:垂直搜索引擎是用戶利用網絡資源不可或缺的工具,而其中的索引引擎和查詢引擎都使用到了分詞算法。前者依據分詞算法分析文本建立倒排索引表,后者依據分詞算法將查詢語句切分成關鍵詞。為了提高垂直搜索引擎的檢索效率,有必要研究一下垂直搜索引擎中的分詞技術。在本文中,首先介紹了現有的中文分詞算法并分析了其缺點,在此基礎上構建了一種改進的分詞算法。最后,本文通過實驗證明了該改進算法的有效性。
【作者單位】: 上海市東華大學信息科學與技術學院;
【關鍵詞】: 垂直搜索引擎 分詞算法 檢索效率
【分類號】:TP391.3
【正文快照】: 0引言近年來,爆炸式增長的信息和不斷發(fā)展的互聯(lián)網技術,使得WEB的信息量急劇增長,格式以及內容不斷翻新,而通用搜索引擎由于存儲、計算資源和帶寬等方面的問題想要檢索互聯(lián)網上全部的網頁是不可能的[1]。從海量的信息中準確快速地搜索出特定的內容十分困難,如何從網絡中的海量
【相似文獻】
中國期刊全文數據庫 前10條
1 張輝麗;孟昭鵬;王慧芝;;漢語自動分詞中的歧義處理[J];微計算機應用;2006年06期
2 亢臨生,,張永奎;利用分詞屬性解決歧義切分[J];電腦開發(fā)與應用;1994年04期
3 王永景;劉功申;李生紅;荊濤;;用于文本校對的分詞與詞性標注一體化算法[J];計算機技術與發(fā)展;2008年08期
4 張立巖;呂玲;王井陽;;基于最大熵算法的全文檢索研究[J];河北科技大學學報;2009年02期
5 盛啟東;譚守標;徐超;馮二媛;陳軍寧;;巧用黑盒法逆推百度中文分詞算法[J];計算機技術與發(fā)展;2010年04期
6 孫鐵利;劉延吉;;中文分詞技術的研究現狀與困難[J];信息技術;2009年07期
7 趙亞慧;;基于編輯距離的中文機構名簡稱檢索方法研究[J];內蒙古科技與經濟;2010年07期
8 周文剛;孫挺;;Web頁文本信息語義過濾系統(tǒng)設計與實現[J];周口師范學院學報;2007年02期
9 謝紅薇;王棟;;基于Web文本挖掘中的一種中文分詞算法研究[J];電腦開發(fā)與應用;2007年07期
10 吳振南;熊皓;徐愛萍;;GIS中文查詢語句的未登錄詞識別算法研究[J];計算機工程與科學;2007年11期
中國重要會議論文全文數據庫 前10條
1 王蘭成;田梅;侯雙;;PLS:一種基于信息自動標引的最小推進分詞算法及其實現[A];第十九屆全國數據庫學術會議論文集(技術報告篇)[C];2002年
2 蘇亮;孫斌;;一種基于Lucene的Hash改進中文分詞算法的實現[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
3 黃居仁;;瓶頸,挑戰(zhàn),與轉機:中文分詞研究的新思維[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
4 陳曉蘇;鄒園斌;張文珂;;全切分圖與路徑表達式在分詞算法中的應用[A];第三屆學生計算語言學研討會論文集[C];2006年
5 刮俊杰;吳樹國;伊勝偉;;基于詞效應的中文術語提取方法[A];第三屆中國智能計算大會論文集[C];2009年
6 孫亞夫;陳文斌;;基于分詞的地址匹配技術[A];中國地理信息系統(tǒng)協(xié)會第四次會員代表大會暨第十一屆年會論文集[C];2007年
7 姜尚仆;陳群秀;;基于規(guī)則和統(tǒng)計的日語分詞和詞性標注的研究[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
8 陳志峰;朱巧明;;面向課程教學的中文問答系統(tǒng)研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
9 姜文斌;王志洋;劉群;呂雅娟;;基于馬爾可夫間隔標注的中文分詞算法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
10 孫茂松;;分詞國際標準中的核心概念體系[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
中國博士學位論文全文數據庫 前2條
1 張京楣;基于統(tǒng)計方法的文本風格分析研究[D];山東大學;2012年
2 田學東;光學公式識別技術研究[D];河北大學;2007年
中國碩士學位論文全文數據庫 前10條
1 林冬盛;中文分詞算法的研究與實現[D];西北大學;2011年
2 王凱;中文分詞算法在工程建設材料搜索中的研究與應用[D];大連交通大學;2010年
3 刁毓;基于本體的中文分詞算法的研究與實現[D];曲阜師范大學;2012年
4 付敏;一個改進的中文分詞算法及其在Lucene中的應用[D];華中科技大學;2010年
5 朱世猛;中文分詞算法的研究與實現[D];電子科技大學;2011年
6 韓雪冬;基于CRFs的中文分詞算法研究與實現[D];北京郵電大學;2010年
7 李暢;智能問答系統(tǒng)在高中物理教學中的應用[D];陜西師范大學;2011年
8 孫博雅;中文分詞算法在GIS中的應用研究[D];中南大學;2011年
9 馬東;基于Nutch搜索引擎的中文分詞算法研究與實現[D];內蒙古農業(yè)大學;2011年
10 范敏敏;企業(yè)經營范圍字段自動分類方法研究[D];哈爾濱工業(yè)大學;2010年
本文編號:601505
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/601505.html