垂直搜索引擎中的網(wǎng)頁對象抽取模型及實(shí)現(xiàn)技術(shù)研究碩士論文.pdf
本文關(guān)鍵詞:垂直搜索引擎中的網(wǎng)頁對象抽取模型及實(shí)現(xiàn)技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
文檔介紹:
湖南大學(xué)碩士學(xué)位論文垂直搜索引擎中的網(wǎng)頁對象抽取模型及實(shí)現(xiàn)技術(shù)研究姓名:王實(shí)申請學(xué)位級別:碩士專業(yè):軟件工程指導(dǎo)教師:林亞平20090401摘要隨著因特網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)上信息呈幾何級數(shù)增長,由于網(wǎng)絡(luò)信息載體的異構(gòu)性和多變性,如何檢索和處理這些海量信息成為目前重要的研究課題。Web信息抽取是指從半結(jié)構(gòu)化的網(wǎng)頁中抽取指定的信息,將其形成結(jié)構(gòu)化的數(shù)據(jù)填入數(shù)據(jù)庫中供用戶查詢使用的過程。Web信息抽取是提高信息檢索尤其是垂直領(lǐng)域信息檢索性能的重要手段之一,本文研究垂直搜索引擎中的Web信息抽取技術(shù)。本文首先總結(jié)了Web信息抽取的主要技術(shù),從Web信息抽取系統(tǒng)的構(gòu)成入手,分析了模板檢測、模板生成和數(shù)據(jù)抽取三個(gè)主要過程涉及到的關(guān)鍵問題及傳統(tǒng)解決方式。針對垂直搜索引擎應(yīng)用背景下傳統(tǒng)信息抽取技術(shù)的局限性,提出了相應(yīng)的改進(jìn)方法。對于模板檢測,本文在傳統(tǒng)的DOM樹編輯距離算法的基礎(chǔ)上,根據(jù)節(jié)點(diǎn)的對布局的影響程度賦予其不同的權(quán)值,提出一種新的網(wǎng)頁結(jié)構(gòu)相似性計(jì)算算法,實(shí)驗(yàn)結(jié)果分析表明,采用新的算法對動態(tài)模板網(wǎng)頁進(jìn)行聚類的效果比傳統(tǒng)算法有明顯改進(jìn)。對于模板生成和數(shù)據(jù)抽取,本文提出了基于聚類的模板混合生成算法,該算法結(jié)合網(wǎng)頁聚類過程中樣本網(wǎng)頁之間結(jié)構(gòu)相似性...
內(nèi)容來自轉(zhuǎn)載請標(biāo)明出處.
本文關(guān)鍵詞:垂直搜索引擎中的網(wǎng)頁對象抽取模型及實(shí)現(xiàn)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:90948
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/90948.html