基于子樹相似度計算的網(wǎng)頁評論提取算法研究
[Abstract]:The recognition and automatic extraction of web comments are transformed into subtree circular volume recognition in the DOM tree structure. A method based on the similarity calculation of web page DOM subtree is proposed. A comment block node tree is identified by traversing down the BODY node layer by layer from the web page. In view of the lack of performance of DOM tree similarity calculation algorithm in the aspect of comment extraction, this algorithm considers the label and location information of tree node to construct the leaf node path at the same time. The similarity of two subtrees is obtained by solving the path similarity matrix of two DOM subtrees. The differences in performance and efficiency between other methods based on DOM similarity calculation and one method based on tag weight for Web comment extraction are compared. Experiments show that the method based on this algorithm has a high precision and recall rate, and is better than the existing methods.
【作者單位】: 南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院;
【基金】:教育部人文社會科學(xué)研究青年基金項目“基于信息生態(tài)學(xué)的網(wǎng)絡(luò)輿情管理機制與平臺研究”(項目編號:10YJC870053) 江蘇高校哲學(xué)社會科學(xué)研究重點項目“涉農(nóng)網(wǎng)絡(luò)輿情的政府監(jiān)管研究”(項目編號:2011ZDIXM027)的研究成果之一
【分類號】:TP393.092
【參考文獻】
相關(guān)期刊論文 前5條
1 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期
2 劉偉;嚴(yán)華梁;肖建國;曾建勛;;一種Web評論自動抽取方法[J];軟件學(xué)報;2010年12期
3 李姜;;基于DOM的評論發(fā)現(xiàn)及抽取模型研究[J];計算機工程與設(shè)計;2007年09期
4 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機與應(yīng)用;2010年03期
5 聶卉;黃貴鵬;;樹編輯距離在Web信息抽取中的應(yīng)用與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2010年05期
【共引文獻】
相關(guān)期刊論文 前10條
1 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
2 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期
3 王茹,宋瀚濤,陸玉昌;基于樹自動機的網(wǎng)頁數(shù)據(jù)抽取[J];北京理工大學(xué)學(xué)報;2004年09期
4 張敏;;基于確定性樹自動機技術(shù)的信息抽取研究[J];才智;2011年36期
5 張敏;;信息抽取技術(shù)在網(wǎng)頁中的應(yīng)用[J];中國城市經(jīng)濟;2011年20期
6 馬瑞民;錢浩;;基于時間頻率加權(quán)DOM的Web信息抽取方法[J];長江大學(xué)學(xué)報(自然科學(xué)版);2011年01期
7 張磊;陳俊亮;孟祥武;沈筱彥;郭杰;;基于用戶偏好的垂直搜索算法[J];電子科技大學(xué)學(xué)報;2010年01期
8 唐緯晟;苗放;劉斌;;XML實現(xiàn)文化數(shù)字數(shù)據(jù)無平臺交換[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年09期
9 李春艷;徐保民;;Web數(shù)據(jù)抽取技術(shù)研究初探[J];電腦知識與技術(shù);2009年35期
10 李向陽,陸建江,張亞非;基于競爭分類的Web信息抽取[J];電子學(xué)報;2004年11期
相關(guān)會議論文 前6條
1 翟偉斌;許榕生;;基于Internet的CIS研究[A];第十三屆全國核電子學(xué)與核探測技術(shù)學(xué)術(shù)年會論文集(下冊)[C];2006年
2 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(上)[C];2009年
3 韓杰;廖聞劍;彭艷兵;;基于樓層分割的BBS信息提取[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(中)[C];2009年
4 梁勇;張文;;網(wǎng)絡(luò)輿情采集系統(tǒng)的設(shè)計[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
5 王文生;謝能付;;基于Web的農(nóng)業(yè)信息自動抽取方法研究[A];中國農(nóng)業(yè)信息科技創(chuàng)新與學(xué)科發(fā)展大會論文匯編[C];2007年
6 呂國英;馮艷;李茹;;基于中文框架語義的信息抽取研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 吳承榮;骨干通道上的網(wǎng)絡(luò)論壇通信信息監(jiān)測和分析的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
2 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
3 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
4 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
5 張素香;信息抽取中關(guān)鍵技術(shù)的研究[D];北京郵電大學(xué);2007年
6 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
7 周順先;文本信息抽取模型及算法研究[D];湖南大學(xué);2007年
8 董寶力;Web制造資源的語義發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
9 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年
10 何慧;WEB文本挖掘中關(guān)鍵問題的研究[D];北京郵電大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學(xué);2010年
2 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
3 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學(xué);2010年
4 方少卿;Web就業(yè)信息抽取系統(tǒng)的實現(xiàn)研究[D];合肥工業(yè)大學(xué);2010年
5 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年
6 楊鼎;基于樸素貝葉斯的中文文本情感傾向分類研究[D];湖南工業(yè)大學(xué);2010年
7 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年
8 胡少榮;一種輿情信息預(yù)處理平臺的研究與實現(xiàn)[D];北京交通大學(xué);2010年
9 孫亞南;網(wǎng)站實時時序數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2010年
10 王佳;支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn)[D];北京交通大學(xué);2011年
【二級參考文獻】
相關(guān)期刊論文 前9條
1 姜波;丁岳偉;;基于約束樹編輯距離與導(dǎo)航樹的信息采集[J];計算機工程;2009年14期
2 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學(xué)報;2002年05期
3 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機應(yīng)用;2005年04期
4 黃文蓓;楊靜;顧君忠;;基于分塊的網(wǎng)頁正文信息提取算法研究[J];計算機應(yīng)用;2007年S1期
5 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
6 孟憲福,狄慧;基于Agent和XML的Web頁面信息抽取研究與設(shè)計[J];計算機工程與設(shè)計;2004年08期
7 孫桂煌;劉發(fā)升;;基于正文特征的網(wǎng)頁正文信息提取方法[J];現(xiàn)代計算機(專業(yè)版);2008年09期
8 李亞子;方安;陳薇;朱峰;;Web頁面最大有意義節(jié)點發(fā)現(xiàn)算法研究[J];現(xiàn)代圖書情報技術(shù);2009年10期
9 劉守群;朱明;譚曉彬;;一種基于樹匹配的網(wǎng)頁語義塊挖掘算法[J];小型微型計算機系統(tǒng);2009年08期
相關(guān)碩士學(xué)位論文 前1條
1 徐東興;基于Gate框架的信息抽取系統(tǒng)的研究與實現(xiàn)[D];華東師范大學(xué);2007年
【相似文獻】
相關(guān)期刊論文 前10條
1 李宗宏;如何利用FrontPage Express制作主頁[J];計算機時代;1999年11期
2 ;網(wǎng)上先生——教您上網(wǎng)(四) 上網(wǎng)第四站[J];市場與電腦;1999年07期
3 ;站點掃描[J];計算機周刊;1999年17期
4 李新 ,楊章遠 ,許志宏;在網(wǎng)頁中實現(xiàn)自定義滾動條[J];電腦編程技巧與維護;1999年10期
5 范建平;;給你的網(wǎng)頁安一個門鈴[J];軟件;2000年06期
6 張東淮;一步一步做網(wǎng)頁(二)[J];電腦技術(shù);2001年08期
7 張興華,趙英豪,臧愛軍;接觸網(wǎng)頁制作[J];石家莊師范?茖W(xué)校學(xué)報;2001年04期
8 王黎;制作網(wǎng)頁的方法[J];沈陽大學(xué)學(xué)報;2001年02期
9 陳萬平,馬秀峰,徐新農(nóng);網(wǎng)頁制作技術(shù)探討[J];聊城師院學(xué)報(自然科學(xué)版);2001年01期
10 王麟;巧用伊妹兒省錢[J];網(wǎng)絡(luò)與信息;2001年08期
相關(guān)會議論文 前10條
1 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集[C];2010年
2 江志綱;丁增喜;劉洋;王大玲;鮑玉斌;于戈;;基于面向?qū)傩砸?guī)約方法的網(wǎng)頁和超鏈的分類[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
3 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識別新方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
4 孔輝;梁洪亮;辛陽;楊義先;陳林順;;一種高性能的網(wǎng)頁篡改檢測與恢復(fù)機制[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
5 王玉龍;葉新銘;李秀華;;網(wǎng)頁優(yōu)化策略的模糊C均值(FCM)聚類算法研究(英文)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年
6 劉暉;趙萍;;新疆環(huán)境氣象中心網(wǎng)站的總體規(guī)劃及建設(shè)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(一)[C];2005年
7 鄭傳新;謝筱惠;;基于網(wǎng)頁技術(shù)的決策氣象服務(wù)信息系統(tǒng)[A];2002年廣西氣象電子專業(yè)技術(shù)交流會論文集[C];2002年
8 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年
9 陳小飛;王軼彤;馮小軍;;一種基于網(wǎng)頁質(zhì)量的PageRank算法改進[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
10 唐雅茜;朱海波;黎玲;;破解惡意網(wǎng)頁十大招[A];2008年廣西氣象學(xué)會學(xué)術(shù)年會論文集[C];2008年
相關(guān)重要報紙文章 前10條
1 任悅采寫 本報記者 方妍;照片買家說,,網(wǎng)頁繁復(fù)不招喜歡[N];中國攝影報;2009年
2 湖南 Ringfo;防止你的網(wǎng)頁被“偷拍”[N];電腦報;2002年
3 鳴澗;網(wǎng)頁的編輯[N];中國電腦教育報;2002年
4 李芳香;和網(wǎng)頁垃圾說再見[N];中國電腦教育報;2002年
5 ;給網(wǎng)頁加蓋“公章”[N];電腦報;2002年
6 山東 姜元學(xué);網(wǎng)頁文字無法復(fù)制的破解[N];電腦報;2002年
7 武功;捕捉網(wǎng)頁中的“蝴蝶”[N];電腦報;2005年
8 河南 劉德君;強行改變網(wǎng)頁文字大小的方法[N];電子報;2003年
9 本報記者 劉永剛;網(wǎng)頁病毒如何防范看不見的“敵人”[N];中國消費者報;2004年
10 湖南 Ringfo;做自己的“極速登錄”網(wǎng)頁[N];電腦報;2002年
相關(guān)博士學(xué)位論文 前10條
1 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年
2 覃健誠;網(wǎng)絡(luò)多層縱深防御體系的關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
3 朱征宇;Web資源組織與服務(wù)性能研究[D];重慶大學(xué);2003年
4 吳瑞;模糊和粗糙環(huán)境下的網(wǎng)絡(luò)用戶瀏覽模式研究[D];天津大學(xué);2006年
5 劉竟;面向概念檢索的農(nóng)史信息門戶的設(shè)計與構(gòu)建[D];南京農(nóng)業(yè)大學(xué);2008年
6 江開忠;上下文感知的Web搜索關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2008年
7 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
8 李東方;Web 2.0環(huán)境下互聯(lián)網(wǎng)信息過濾理論與方法研究[D];中國科學(xué)技術(shù)大學(xué);2009年
9 張健毅;大規(guī)模反釣魚識別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
10 王永剛;以數(shù)據(jù)為中心的在線社會網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 孫學(xué)剛;面向奧運的中文網(wǎng)頁信息獲取方法的初步研究[D];清華大學(xué);2004年
2 張曉宇;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁過濾方法的研究[D];新疆大學(xué);2011年
3 楊碩;社交網(wǎng)頁游戲現(xiàn)象研究[D];山東藝術(shù)學(xué)院;2012年
4 李琦;基于層次聚類和網(wǎng)頁關(guān)系的人名消歧[D];山東大學(xué);2012年
5 蔣文;一種網(wǎng)頁過濾系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
6 牛慶鵬;博客朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
7 牛慶鵬;博客潛在朋友推薦技術(shù)的研究[D];東北大學(xué);2009年
8 涂濤;嵌入式瀏覽器網(wǎng)頁排版技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2004年
9 邱鵬;移動終端網(wǎng)頁轉(zhuǎn)換系統(tǒng)的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2012年
10 楊劍;基于用戶訪問路徑的網(wǎng)頁推薦算法研究[D];東北大學(xué);2010年
本文編號:2428487
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2428487.html