領(lǐng)域本體驅(qū)動的招投標(biāo)網(wǎng)頁解析方法
發(fā)布時間:2021-02-12 09:03
針對正則表達(dá)式解析招投標(biāo)網(wǎng)頁效率低下的問題,提出了一種基于招投標(biāo)領(lǐng)域本體的網(wǎng)頁自動化解析新方法。首先,分析了招投標(biāo)網(wǎng)頁文本的結(jié)構(gòu)特征;其次,構(gòu)建了招投標(biāo)本體的輕量級領(lǐng)域知識模型;最后,給出一種招投標(biāo)網(wǎng)頁元素語義匹配與抽取算法,實現(xiàn)招投標(biāo)網(wǎng)頁的自動化解析。實驗結(jié)果表明,新方法通過自適應(yīng)的解析,準(zhǔn)確率、召回率分別可達(dá)到95. 33%、88. 29%,與正則表達(dá)式方法相比,分別提高了3. 98個百分點和3. 81個百分點。所提方法可實現(xiàn)自適應(yīng)地對招投標(biāo)網(wǎng)頁中語義信息的結(jié)構(gòu)化解析抽取,能夠較好地滿足實用性能要求。
【文章來源】:計算機(jī)應(yīng)用. 2020,40(06)北大核心
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)技術(shù)
2 招投標(biāo)網(wǎng)頁信息解析模型
2.1 文本結(jié)構(gòu)特征分析
2.2 本體構(gòu)建及解析
2.3 目標(biāo)語義信息
2.4 預(yù)處理
2.5 信息抽取
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集
3.2 評價指標(biāo)
3.3 結(jié)果分析
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]一個基于農(nóng)業(yè)本體的Web知識抽取模型[J]. 李貫峰,張鵬. 江蘇農(nóng)業(yè)科學(xué). 2018(04)
[2]基于知識圖譜的Web信息抽取系統(tǒng)[J]. 王輝,郁波,洪宇,肖仰華. 計算機(jī)工程. 2017(06)
[3]基于正則表達(dá)式構(gòu)建學(xué)習(xí)的網(wǎng)頁信息抽取方法[J]. 朱文琰,鄭肖雄. 計算機(jī)應(yīng)用與軟件. 2017(02)
[4]中文植物物種多樣性描述文本的信息抽取研究[J]. 段宇鋒,黃思思. 現(xiàn)代圖書情報技術(shù). 2016(01)
[5]本體應(yīng)用中術(shù)語本體和信息本體解析——以生物醫(yī)學(xué)信息學(xué)領(lǐng)域為例[J]. 徐維. 圖書館雜志. 2015(06)
[6]基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J]. 顧韻華,高原,高寶,杜杰. 計算機(jī)工程與設(shè)計. 2014(01)
[7]正則表達(dá)式在Web信息抽取中的應(yīng)用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[8]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅. 計算機(jī)應(yīng)用研究. 2010(12)
[9]基于正則表達(dá)式的企業(yè)主頁信息抽取[J]. 靳小川,劉萬軍,趙雷. 計算機(jī)系統(tǒng)應(yīng)用. 2010(08)
[10]基于正則表達(dá)式的大規(guī)模網(wǎng)頁術(shù)語對抽取研究[J]. 程嵐嵐. 情報雜志. 2008(11)
本文編號:3030603
【文章來源】:計算機(jī)應(yīng)用. 2020,40(06)北大核心
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)技術(shù)
2 招投標(biāo)網(wǎng)頁信息解析模型
2.1 文本結(jié)構(gòu)特征分析
2.2 本體構(gòu)建及解析
2.3 目標(biāo)語義信息
2.4 預(yù)處理
2.5 信息抽取
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集
3.2 評價指標(biāo)
3.3 結(jié)果分析
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]一個基于農(nóng)業(yè)本體的Web知識抽取模型[J]. 李貫峰,張鵬. 江蘇農(nóng)業(yè)科學(xué). 2018(04)
[2]基于知識圖譜的Web信息抽取系統(tǒng)[J]. 王輝,郁波,洪宇,肖仰華. 計算機(jī)工程. 2017(06)
[3]基于正則表達(dá)式構(gòu)建學(xué)習(xí)的網(wǎng)頁信息抽取方法[J]. 朱文琰,鄭肖雄. 計算機(jī)應(yīng)用與軟件. 2017(02)
[4]中文植物物種多樣性描述文本的信息抽取研究[J]. 段宇鋒,黃思思. 現(xiàn)代圖書情報技術(shù). 2016(01)
[5]本體應(yīng)用中術(shù)語本體和信息本體解析——以生物醫(yī)學(xué)信息學(xué)領(lǐng)域為例[J]. 徐維. 圖書館雜志. 2015(06)
[6]基于模板和領(lǐng)域本體的Deep Web信息抽取研究[J]. 顧韻華,高原,高寶,杜杰. 計算機(jī)工程與設(shè)計. 2014(01)
[7]正則表達(dá)式在Web信息抽取中的應(yīng)用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學(xué)學(xué)報(自然科學(xué)版). 2011(06)
[8]Web信息抽取技術(shù)綜述[J]. 陳釗,張冬梅. 計算機(jī)應(yīng)用研究. 2010(12)
[9]基于正則表達(dá)式的企業(yè)主頁信息抽取[J]. 靳小川,劉萬軍,趙雷. 計算機(jī)系統(tǒng)應(yīng)用. 2010(08)
[10]基于正則表達(dá)式的大規(guī)模網(wǎng)頁術(shù)語對抽取研究[J]. 程嵐嵐. 情報雜志. 2008(11)
本文編號:3030603
本文鏈接:http://www.sikaile.net/jingjilunwen/jingjiguanlilunwen/3030603.html
最近更新
教材專著