天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

面向中文搜索引擎的網(wǎng)頁(yè)結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2022-01-01 11:13
  搜索引擎是一種特殊的檢索系統(tǒng),其信息來源于互聯(lián)網(wǎng),處理的格式大多為HTML,而中文搜索引擎相比英文搜索引擎在編碼、分詞等問題上都有其自身特點(diǎn)。筆者針對(duì)中文搜索引擎提出了一種網(wǎng)頁(yè)結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計(jì)方案,并使用Python語言實(shí)現(xiàn)。該系統(tǒng)由網(wǎng)頁(yè)抓取、網(wǎng)頁(yè)信息提取、敏感詞過濾三部分組成,最后可獲得結(jié)構(gòu)化的網(wǎng)頁(yè)有效信息。其中,網(wǎng)頁(yè)抓取采用寬度優(yōu)先搜索的策略;網(wǎng)頁(yè)信息提取部分采用基于標(biāo)簽的文本提取方法;敏感詞過濾部分針對(duì)中文特點(diǎn)提出了一種過濾算法,該算法在模式串長(zhǎng)度較短的情況下平均復(fù)雜度為O(n)。實(shí)踐證明,該系統(tǒng)與Lucene等檢索系統(tǒng)結(jié)合即可提供中文搜索引擎服務(wù)。 

【文章來源】:信息與電腦(理論版). 2016,(23)

【文章頁(yè)數(shù)】:3 頁(yè)

【部分圖文】:

面向中文搜索引擎的網(wǎng)頁(yè)結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


系統(tǒng)的運(yùn)韋澎l制

文本,標(biāo)簽,內(nèi)容,關(guān)鍵信息


?奈謀臼導(dǎo)噬顯謁?唇擁降囊趁嬤幸汛?在,因此,<a>標(biāo)簽中的文本不應(yīng)作為該網(wǎng)頁(yè)的關(guān)鍵信息。因此,首先過濾掉<a>標(biāo)簽中的文本。然后,剩下的內(nèi)容中<head>的描述性內(nèi)容和<title><h1><h2><h6><p>標(biāo)簽的文本即為該頁(yè)面的關(guān)鍵內(nèi)容。因此,信息提取的流程用偽代碼可以描述為:HTML=抓取的網(wǎng)頁(yè)內(nèi)容去掉HTML中的<a>標(biāo)簽M=<meta>標(biāo)簽里的keywords文本和description文本T=<title>標(biāo)簽中的文本H=<h?>標(biāo)簽中的文本P=<p>標(biāo)簽中的文本關(guān)鍵信息即為M+T+H+P在對(duì)于上面的流程,可以很容易通過Python的beautifulsoup庫(kù)實(shí)現(xiàn)。圖1系統(tǒng)的運(yùn)行機(jī)制—173—

【參考文獻(xiàn)】:
期刊論文
[1]中文搜索引擎現(xiàn)狀與展望[J]. 都云程,盧獻(xiàn)華.  中文信息學(xué)報(bào). 1999(03)



本文編號(hào):3562255

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3562255.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9ec34***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com