面向增量同生主題的維吾爾文爬蟲的研究
本文關鍵詞:面向增量同生主題的維吾爾文爬蟲的研究
更多相關文章: 網(wǎng)絡爬蟲 網(wǎng)頁分類 IC主題模型 錨文本 維吾爾文
【摘要】:針對傳統(tǒng)的主題爬蟲對網(wǎng)頁信息缺乏在知識層面上的處理和理解的問題進行了研究,提出了一種面向增量同生主題的維吾爾文爬蟲,通過建立一個增量主題詞庫優(yōu)化傳統(tǒng)的主題模型,來描述維吾爾文關鍵詞的應用語境及場景,提高了計算網(wǎng)頁相關度的準確率。用改進的IC主題敏感算法來預測子頁面優(yōu)先級,過濾無關的網(wǎng)頁地址。依據(jù)上述方法編寫爬蟲系統(tǒng),用構(gòu)建的維吾爾文語料庫進行實驗,表明了基于此模型的爬蟲具有更好的穩(wěn)定性和準確度。
【作者單位】: 新疆大學電氣工程學院;
【關鍵詞】: 網(wǎng)絡爬蟲 網(wǎng)頁分類 IC主題模型 錨文本 維吾爾文
【基金】:國家自然科學基金資助項目(61163026,60865001)
【分類號】:TP393.092
【正文快照】: 新疆互聯(lián)網(wǎng)的起源可以追溯到1993年X.25網(wǎng)絡的成功建設。經(jīng)過近二十年的發(fā)展,新疆互聯(lián)網(wǎng)網(wǎng)絡規(guī)模迅速擴大,新疆少數(shù)民族語言的Web網(wǎng)頁數(shù)量呈現(xiàn)指數(shù)級的增長。如何在浩瀚的信息海洋中準確、方便、快速地找到用戶所需信息變得至關重要。針對特定領域的搜索技術便應運而生,并且越
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 王輝;左萬利;王暉昱;寧愛軍;孫志偉;滿春雷;;基于質(zhì)心向量的增量式主題爬行[J];計算機研究與發(fā)展;2009年02期
2 阿力木江·艾沙;吐爾根·依布拉音;艾山·吾買爾;馬爾哈巴·艾力;;基于機器學習的維吾爾文文本分類研究[J];計算機工程與應用;2012年05期
3 王鐘斐;王彪;;基于錨文本相似度的PageRank改進算法[J];計算機工程;2010年24期
4 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計算機應用;2011年12期
5 黃仁;王良偉;;基于主題相關概念和網(wǎng)頁分塊的主題爬蟲研究[J];計算機應用研究;2013年08期
6 鄭健珍;林坤輝;周昌樂;康愷;;基于本體語義的定題爬蟲[J];山東大學學報(理學版);2006年03期
7 張裕欽;李振坤;吳永杰;;基于規(guī)則模型的網(wǎng)頁主題文本提取方法[J];計算機工程與設計;2009年20期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 田雪筠;;網(wǎng)絡競爭情報主題采集技術研究[J];圖書與情報;2014年05期
2 陳方;譚愛平;成亞玲;文益民;;主題爬蟲技術研究綜述[J];湖南工業(yè)職業(yè)技術學院學報;2008年05期
3 黃健斌;孫鶴立;;基于鏈接路徑預測的聚焦Web實體搜索[J];計算機研究與發(fā)展;2010年12期
4 張乃洲;李石君;余偉;張卓;;使用聯(lián)合鏈接相似度評估爬取Web資源[J];計算機學報;2010年12期
5 金明珠;丁岳偉;;基于動態(tài)主題庫的主題爬蟲[J];計算機應用;2009年S2期
6 關慧芬;師軍;馬繼紅;;基于遺傳算法的主題爬行技術研究[J];計算機與數(shù)字工程;2008年10期
7 吐爾地·托合提;維尼拉·木沙江;艾斯卡爾·艾木都拉;;基于頻繁模式挖掘的維吾爾文智能組詞方法[J];計算機應用;2012年10期
8 阿力木江·艾沙;吐爾根·依布拉音;庫爾班·吾布力;李哲;;基于短語的維吾爾文文本分類[J];計算機應用;2012年10期
9 馬艷紅;胡學鋼;吳共慶;;基于鏈接路徑搜索的URL屬性集成方法[J];計算機工程;2013年01期
10 陳戰(zhàn)勝;鈕文良;王輝;孫浩;;一種適用于大規(guī)模的改進PageRank算法[J];科學技術與工程;2012年34期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 張素智;李寶燕;樊得強;;面向用戶和領域本體的Web信息采集系統(tǒng)[A];計算機研究新進展(2010)——河南省計算機學會2010年學術年會論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 田俊華;基于本體知識庫的教學資源自動采集技術研究[D];南京師范大學;2011年
2 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學;2011年
3 梁浩;Deep Web信息集成架構(gòu)及相關問題研究[D];吉林大學;2010年
4 史斌;面向語義網(wǎng)的語義搜索引擎關鍵技術研究[D];北京工業(yè)大學;2010年
5 李春山;面向社會化媒體內(nèi)容的若干聚類算法研究[D];哈爾濱工業(yè)大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 郭艷芬;林業(yè)主題搜索引擎的設計與實現(xiàn)[D];北京林業(yè)大學;2011年
2 馬燕;基于快速相似度的Web結(jié)構(gòu)挖掘的研究[D];南京信息工程大學;2011年
3 史叢;網(wǎng)絡搜索引擎的相關技術研究[D];山東科技大學;2011年
4 代旭峰;基于用戶興趣模型的搜索引擎結(jié)果推薦系統(tǒng)[D];復旦大學;2011年
5 袁方;基于改進PageRank算法的個性化搜索的研究[D];北京郵電大學;2012年
6 杜光芹;效用驅(qū)動的主題Web挖掘算法研究[D];山東師范大學;2007年
7 邊杰;一種基于Jena的語義檢索模型研究與實現(xiàn)[D];西安電子科技大學;2008年
8 吳聰聰;基于本體的專業(yè)搜索引擎的研究[D];天津大學;2007年
9 孫逸飛;半自動本體構(gòu)建方法研究[D];吉林大學;2009年
10 卜永忠;面向金融信息的主題爬蟲研究與應用[D];哈爾濱工業(yè)大學;2008年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學學報(自然科學版);2004年S1期
2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
3 李凱,赫楓齡,左萬利;PageRank-Pro——一種改進的網(wǎng)頁排序算法[J];吉林大學學報(理學版);2003年02期
4 黃秀麗;王蔚;;一種改進的文本分類特征選擇方法[J];計算機工程與應用;2009年36期
5 周源遠,王繼成,鄭剛,張福炎;Web頁面清洗技術的研究與實現(xiàn)[J];計算機工程;2002年09期
6 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計算機工程;2005年08期
7 黃德才;戚華春;;PageRank算法研究[J];計算機工程;2006年04期
8 陳再良;凌力;周強;;dPageRank——一種改進的分布式PageRank算法[J];計算機應用;2006年01期
9 王敬普;林亞平;周順先;岳文;;基于包裝器模型的文本信息抽取[J];計算機應用;2006年03期
10 趙佳鶴;王秀坤;劉亞欣;;基于語義分析的主題信息采集系統(tǒng)的設計與實現(xiàn)[J];計算機應用;2007年02期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術研究[D];山東大學;2008年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 藥成剛;基于鏈接結(jié)構(gòu)的中文網(wǎng)頁排序算法研究[D];哈爾濱工業(yè)大學;2006年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 松濤;“吸”盡網(wǎng)絡中有用的網(wǎng)頁信息[J];電腦知識與技術;2004年13期
2 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計算機工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁推薦模型[J];清華大學學報(自然科學版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁藝術設計[J];中國電化教育;2004年09期
5 賈海龍,任玉珍;網(wǎng)頁藝術設計[J];新鄉(xiāng)師范高等?茖W校學報;2005年05期
6 劉肖冰;淺談網(wǎng)頁藝術設計[J];安陽師范學院學報;2005年05期
7 孫迎春;;網(wǎng)頁設計研究[J];南平師專學報;2005年03期
8 文濤;網(wǎng)頁的視覺傳達設計與分析[J];沈陽教育學院學報;2005年01期
9 宋春暉;網(wǎng)頁設計中的美學應用分析[J];海南師范學院學報(自然科學版);2005年01期
10 張秀虎;;淺談網(wǎng)頁的訪問權限[J];教育信息化;2005年17期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
2 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
4 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
5 吳建軍;;談網(wǎng)頁設計的藝術性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術交流會優(yōu)秀論文選編[C];2005年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 飄零劍客;網(wǎng)絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
8 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡應用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術研究[D];北京郵電大學;2013年
2 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
3 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
4 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年
5 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
6 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
7 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
8 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
9 余偉;基于用戶個性挖掘的Web社區(qū)營銷研究[D];武漢大學;2011年
10 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 高文梁;改進的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學;2009年
2 劉輝;網(wǎng)頁信息過濾系統(tǒng)的研究與設計[D];蘇州大學;2009年
3 趙胤;海量網(wǎng)頁搜集系統(tǒng)的設計[D];東北大學 ;2009年
4 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學;2005年
5 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術的研究[D];哈爾濱工業(yè)大學;2006年
6 張超群;基于網(wǎng)頁分塊技術的主題爬行[D];吉林大學;2007年
7 張雅潔;網(wǎng)頁視覺基礎設計與應用研究[D];東北師范大學;2007年
8 黃文蓓;基于網(wǎng)頁分割和摘要的小屏幕設備網(wǎng)頁自適應技術研究與實現(xiàn)[D];華東師范大學;2008年
9 劉華暉;需求概念圖導引下的網(wǎng)頁檢索結(jié)果分析[D];上海交通大學;2011年
10 程歡;網(wǎng)頁中動態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學;2011年
,本文編號:595871
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/595871.html