天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向問答類網(wǎng)站的垂直搜索引擎的研究與實現(xiàn)

發(fā)布時間:2016-07-01 06:07

  本文關(guān)鍵詞:面向問答類網(wǎng)站的垂直搜索引擎的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。


《北京郵電大學(xué)》 2013年

面向問答類網(wǎng)站的垂直搜索引擎的研究與實現(xiàn)

梁淼  

【摘要】:目前,互聯(lián)網(wǎng)上的信息爆炸式增長,人們通過搜索引擎從海量信息中尋找自己想要的各方面信息,但通用搜索引擎對檢索出的信息的準(zhǔn)確性和相關(guān)性呈下降趨勢,人們需要能夠?qū)μ囟ㄐ袠I(yè)的信息快速準(zhǔn)確定位的垂直搜索引擎。近些年國內(nèi)外興起了眾多問答類網(wǎng)站,與搜索引擎的通過機器獲得結(jié)果不同,此類網(wǎng)站是用戶基于自己的知識構(gòu)成進行“一問多答”,同時它又具有“針對性強”、“快速答疑”、“流量大”等特點,是用戶提問題找答案的一種有效方式,但大部分的問答類網(wǎng)站只提供站內(nèi)搜索,對問答類的垂直搜索引擎的實踐卻不是很成熟,這就限制了用戶針對特定問題的搜索,面向特定主題的問答類搜索引擎能夠滿足用戶對專業(yè)問題的需要。 本文以汽車問答網(wǎng)頁作為實驗數(shù)據(jù),在對搜索引擎關(guān)鍵技術(shù)進行深入研究基礎(chǔ)上,完成了一個面向問答類網(wǎng)站的垂直搜索引擎,論文的主要工作包括以下幾點: 1)通過對問答類站點特性的分析,提出了問答類站點重要性的動態(tài)評價機制,解決了對不同問答類站點來源同等對待的問題,根據(jù)該機制對空間向量模型中特征詞權(quán)重的計算公式TFIDF和空間向量模型的表示進行了改進,使其更具有主題傾向性。 2)針對問答的搜索引擎主題爬蟲的實現(xiàn)。研究了主題爬蟲的一般模型,在鏈接過濾器方面提出了基于Nutch配置文件定制鏈接抓取規(guī)則的方法,在主題過濾器方面,采用文檔頻率算法確立了主題詞庫,采用人工專家和基于搜索引擎的初始種子確立方法,主題相關(guān)度判定采用了文本分類方法,并對文本分類效果進行了驗證。 3)針對問答的信息抽取模塊。提出了基于網(wǎng)頁結(jié)構(gòu)和通過問答站點鏈接控制具體的信息抽取方式相結(jié)合的方法,中文分詞部分,采用了庖丁分詞器。 4)針對問答的索引和檢索模塊。提出增加問答信息索引域,強調(diào)搜索重點,并依據(jù)問答類站點重要性動態(tài)評價機制,對索引域的權(quán)重因子進行了設(shè)定,使問答引擎排序結(jié)果更趨合理。 最后通過Nutch框架對問答類垂直搜索引擎進行了實現(xiàn),實驗分析表明爬蟲抓取性能和搜索引擎的查詢查準(zhǔn)率都有所提升。

【關(guān)鍵詞】:
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.1
【目錄】:

下載全文 更多同類文獻

CAJ全文下載

(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式


【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 孔維亭;閆宏印;;基于Lucene的自動答疑系統(tǒng)的設(shè)計[J];電腦開發(fā)與應(yīng)用;2012年04期

2 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機工程與應(yīng)用;2003年22期

3 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機工程;2010年17期

4 胡濤;路紅英;;基于Nutch的搜索引擎的研究[J];計算機時代;2007年01期

5 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期

6 劉運強;;垂直搜索引擎的研究與設(shè)計[J];計算機應(yīng)用與軟件;2010年07期

7 孫殿哲;魏海平;陳巖;;Nutch中庖丁解牛中文分詞的實現(xiàn)與評測[J];計算機與現(xiàn)代化;2010年06期

8 梁南元;書面漢語自動分詞系統(tǒng)—CDWS[J];中文信息學(xué)報;1987年02期

9 曹羽中;曹勇剛;金茂忠;劉超;;支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建[J];計算機工程與設(shè)計;2006年23期

10 李村合;呂克強;;Nutch搜索引擎的頁面排序修改方法研究[J];計算機工程與設(shè)計;2009年06期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2009年05期

2 胡錫衡;;正向最大匹配法在中文分詞技術(shù)中的應(yīng)用[J];鞍山師范學(xué)院學(xué)報;2008年02期

3 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學(xué)報;2009年S1期

4 李玉鑑;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年09期

5 李國和;劉光勝;吳衛(wèi)江;孫紅軍;唐先明;韓寶東;;基于最大匹配和歧義檢測的中文分詞粗分方法[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2010年S2期

6 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報;2005年07期

7 付雪峰;劉邱云;;不確定性推理在文本分類上的應(yīng)用研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2007年04期

8 高東平;;基于類型論的漢語分詞系統(tǒng)TTCS[J];重慶理工大學(xué)學(xué)報(社會科學(xué));2011年08期

9 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

10 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實現(xiàn)[J];電腦編程技巧與維護;2010年18期

中國重要會議論文全文數(shù)據(jù)庫 前9條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年

2 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對文本分類效果的增強[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年

3 孫茂松;;漢語自動分詞研究的若干最新進展——清華大學(xué)相關(guān)工作簡介[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年

4 董強;郝長伶;董振東;;基于《知網(wǎng)》的中文語塊抽取器[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年

5 李斌;陳小荷;方芳;徐艷華;;高頻最大交集型歧義字段問題研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

6 孫承杰;黃昌寧;關(guān)毅;;基于標(biāo)注語料庫的組合歧義檢測與消解[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

7 張霄軍;董宇;陳小荷;;基于語料考察的“組合型歧義”與“切分變異”辨析[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年

8 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

9 單鐵城;張安妮;馬德輝;;基于爬蟲改進算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

2 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年

3 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年

4 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年

5 賀前華;漢語自動分詞及機器翻譯研究[D];華南理工大學(xué);1993年

6 馮敏萱;論漢英平行語料的平行處理[D];南京師范大學(xué);2006年

7 張亮;面向開放域的中文問答系統(tǒng)問句處理相關(guān)技術(shù)研究[D];南京理工大學(xué);2006年

8 張華平;語言淺層分析與句子級新信息檢測研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年

9 郭永輝;英漢機器翻譯系統(tǒng)關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2006年

10 黃魏;植物營養(yǎng)診斷自動應(yīng)答網(wǎng)絡(luò)專家系統(tǒng)研究[D];華中農(nóng)業(yè)大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 潘正高;基于內(nèi)容的Web新聞文本自動分類問題研究[D];合肥工業(yè)大學(xué);2010年

2 王有權(quán);基于Web的智能答疑技術(shù)研究與實現(xiàn)[D];南京財經(jīng)大學(xué);2010年

3 李永春;主題搜索引擎的研究與實現(xiàn)[D];哈爾濱理工大學(xué);2010年

4 巫昌凱;企業(yè)知識庫系統(tǒng)中復(fù)雜查詢系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2010年

5 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年

6 馮葉磊;基于隱語義的中醫(yī)藥文獻搜索引擎[D];浙江大學(xué);2011年

7 王林平;基于內(nèi)容的電子郵件過濾系統(tǒng)的研究[D];電子科技大學(xué);2010年

8 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年

9 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

10 陶小波;電子就業(yè)文本挖掘系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 孫茂松,鄒嘉彥;漢語自動分詞研究評述[J];當(dāng)代語言學(xué);2001年01期

2 王仕仲;寧龍兵;;基于Nutch的中文搜索引擎的研究與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2009年07期

3 張斌;周爾寧;;基于Nutch的分布式紡織垂直搜索引擎研究[J];電腦知識與技術(shù);2009年21期

4 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機工程與應(yīng)用;2003年22期

5 彭波;搜索引擎的混合索引技術(shù)[J];計算機工程與應(yīng)用;2004年22期

6 李軍;黃海寬;曹琦;;基于支持向量機的中藥工藝參數(shù)優(yōu)化研究[J];計算機工程與應(yīng)用;2007年36期

7 胡長春;劉功申;;面向搜索引擎Lucene的中文分析器[J];計算機工程與應(yīng)用;2009年12期

8 張慶揚;柴勝;;使用二級索引的中文分詞詞典[J];計算機工程與應(yīng)用;2009年19期

9 張裔智;趙毅;湯小斌;;MD5算法研究[J];計算機科學(xué);2008年07期

10 李盛韜,趙章界,余智華;基于主題的Web信息采集系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機工程;2003年17期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 蘇景春;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];北京交通大學(xué);2010年

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 一林;;垂直搜索:前進路上的喜與憂[J];互聯(lián)網(wǎng)天地;2010年02期

2 陳新顏;垂直搜索引擎辨析[J];現(xiàn)代情報;2004年09期

3 邊凱;;你會搜索嗎?[J];中國計算機用戶;2007年23期

4 莊芯;;風(fēng)投押寶垂直搜索 各方巨頭介入又添疑點[J];IT時代周刊;2008年01期

5 顧鵬堯;;讓搜索引擎更好地服務(wù)于教育教學(xué)[J];科學(xué)24小時;2003年Z1期

6 胡文勝;;垂直搜索助號碼百事通與商務(wù)領(lǐng)航[J];每周電腦報;2006年32期

7 胡潔;丁寧;關(guān)靜;曹福年;張磊;;基于“PUBMED+PDF”的醫(yī)學(xué)垂直搜索引擎的實踐[J];信息系統(tǒng)工程;2009年05期

8 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期

9 田野;垂直搜索火熱為哪般[J];中國計算機用戶;2005年37期

10 王寧寧;;淺談CNNIC最新報告對垂直搜索引擎領(lǐng)域的啟示[J];圖書館理論與實踐;2009年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 王旭;杜軍平;;質(zhì)檢總局互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的研究[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年

4 遲騁;;網(wǎng)絡(luò)監(jiān)聽[A];第十九次全國計算機安全學(xué)術(shù)交流會論文集[C];2004年

5 遲騁;;網(wǎng)絡(luò)監(jiān)聽在檢察實踐中的應(yīng)用[A];第二十次全國計算機安全學(xué)術(shù)交流會論文集[C];2005年

6 凌媛;鄭立喬;劉寶云;;我國十大城市交通門戶網(wǎng)站維護主體復(fù)雜性分析[A];2007第三屆中國智能交通年會論文集[C];2007年

7 鄭海峰;;地市級廣播電臺網(wǎng)站的建立和規(guī)劃[A];中國新聞技術(shù)工作者聯(lián)合會五屆一次理事會暨學(xué)術(shù)年會論文集(下篇)[C];2009年

8 彭永新;郭嘉;王康平;;高校心理輔導(dǎo)網(wǎng)站的設(shè)計嘗試[A];中國心理衛(wèi)生協(xié)會大學(xué)生心理咨詢專業(yè)委員會全國第七屆大學(xué)生心理健康教育與心理咨詢學(xué)術(shù)交流會暨專業(yè)委員會成立十周年紀念大會論文集[C];2001年

9 王京生;;北京市區(qū)縣決策氣象服務(wù)系統(tǒng)網(wǎng)站的建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年

10 林明和;;網(wǎng)絡(luò)信息資源在中醫(yī)藥期刊編輯工作中的應(yīng)用[A];學(xué)報編輯論叢(第十五集)[C];2007年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;[N];計算機世界;2010年

2 王艷;[N];中國旅游報;2000年

3 賽迪網(wǎng) 方剛;[N];中國計算機報;2000年

4 王靖;[N];人民日報海外版;2000年

5 徐超;[N];中華新聞報;2007年

6 本報記者 周婷;[N];中國證券報;2008年

7 小文;[N];中國服飾報;2008年

8 本報記者 李佳祺 蘇顯龍 趙永新;[N];人民日報;2009年

9 趙齊;[N];國際商報;2009年

10 本報記者 李可 通訊員 崔棟君;[N];光明日報;2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 汲業(yè);面向圖像的垂直搜索引擎關(guān)鍵技術(shù)研究[D];大連海事大學(xué);2013年

5 姜巖;消費者購物網(wǎng)站依戀機理研究[D];大連理工大學(xué);2013年

6 尹文科;基于本體的視頻服務(wù)網(wǎng)站監(jiān)管技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2013年

7 熊回香;面向Web3.0的大眾分類研究[D];華中師范大學(xué);2011年

8 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年

9 吳勝;網(wǎng)站信息分類體系優(yōu)化方法及其應(yīng)用[D];南京林業(yè)大學(xué);2009年

10 章舜仲;文本分類中詞共現(xiàn)關(guān)系的研究及其應(yīng)用[D];南京理工大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 梁淼;面向問答類網(wǎng)站的垂直搜索引擎的研究與實現(xiàn)[D];北京郵電大學(xué);2013年

2 齊鵬;垂直搜索引擎分類索引系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2010年

3 李春燕;企業(yè)信息垂直搜索引擎的研究與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

4 張楠;面向汽車主題的垂直搜索引擎研究與實現(xiàn)[D];西南交通大學(xué);2010年

5 華大年;手機產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年

6 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年

7 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年

8 丁文;垂直搜索引擎在網(wǎng)絡(luò)購物系統(tǒng)中的研究與應(yīng)用[D];中國海洋大學(xué);2011年

9 張倩;教育信息垂直搜索引擎的研究[D];吉林大學(xué);2012年

10 張行;木材垂直搜索引擎設(shè)計與實現(xiàn)[D];北京林業(yè)大學(xué);2012年


  本文關(guān)鍵詞:面向問答類網(wǎng)站的垂直搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號:64376

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/64376.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶865b0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com