新聞垂直搜索引擎中文分詞網(wǎng)頁去重應用及研究.pdf 免費在線閱讀前50頁
本文關鍵詞:新聞垂直搜索引擎中文分詞與網(wǎng)頁去重的應用與研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
分類號:TP3910710-2011124065碩士學位論文新聞垂直搜索引擎中文分詞與網(wǎng)頁去重的應用與研究李小三導師姓名職稱王衛(wèi)亞教授申請學位級別碩士學科專業(yè)名稱信號與信息處理論文提交日期2014年6月2日論文答辯日期2014年6月9日學位授予單位長安大學TheApplicationandResearchofChineseWordSegmentationandWebDeduplicationinNewsVerticalSearchEngineADissertationSubmittedfortheDegreeofMasterCandidateLiXiaosanSupervisorProf.WangWeiyaChang’anUniversity,Xi’an,ChinaI摘要自互聯(lián)網(wǎng)誕生以來,網(wǎng)絡信息每年幾乎都成指數(shù)量增長。搜索引擎是人們獲得互聯(lián)網(wǎng)信息的重要工具,但是傳統(tǒng)的搜索引擎利用網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上大規(guī)模的搜集到的信息其中很多信息是完全重復或近似重復的,還有很多信息是用戶不需要的,這樣就加重了用戶使用搜索引擎的負擔。而垂直搜索引擎能夠精確的獲得用戶關心的相關領域信息。垂直搜索引擎不像通用搜索引擎那樣,它僅僅搜集某一特定領域相關的網(wǎng)頁內(nèi)容。本文首先描述了垂直搜索引擎的工作原理,并討論了垂直搜索引擎的幾個關鍵技術,主要技術包括:網(wǎng)絡爬蟲技術、中文分詞技術、網(wǎng)頁預處理技術、網(wǎng)頁去重技術、索引和檢索技術等。對包含這幾項關鍵技術的功能模塊進...
內(nèi)容來自轉載請標明出處.
本文關鍵詞:新聞垂直搜索引擎中文分詞與網(wǎng)頁去重的應用與研究,,由筆耕文化傳播整理發(fā)布。
本文編號:145667
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/145667.html