基于搜索引擎的知識發(fā)現(xiàn)

發(fā)布時間：2018-11-03 18:00

【摘要】：數據挖掘一般用于高度結構化的大型數據庫,以發(fā)現(xiàn)其中所蘊含的知識。隨著在線文本的增多,其中所蘊含的知識也越來越豐富,但是,它們卻難以被分析利用。因而,研究一套行之有效的方案發(fā)現(xiàn)文本中所蘊含的知識是非常重要的,也是當前重要的研究課題。該文利用搜索引擎Google獲取相關Web頁面,進行過濾和清洗后得到相關文本,然后,進行文本聚類,利用Episode進行事件識別和信息抽取,數據集成及數據挖掘,從而實現(xiàn)知識發(fā)現(xiàn)。最后給出了原型系統(tǒng),對知識發(fā)現(xiàn)進行實踐檢驗,收到了很好的效果。
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者單位】：北京理工大學計算機系北京理工大學計算機系
【分類號】：TP311

【相似文獻】

相關期刊論文前10條

1 李剛;史向東;;基于Google搜索結果的重名消解方法[J];信息與電腦(理論版);2011年02期

2 張陽,李建良,胡正國;NewsGrouper:一個自動抽取重要新聞的軟件工具[J];計算機工程;2002年04期

3 史旗凱;郭菊娥;;基于管理問題信息抽取的主題識別研究[J];情報科學;2008年10期

4 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

5 史旗凱;郭菊娥;馬續(xù)補;葉金鳳;;基于SMA信息抽取的事實主題的識別研究[J];情報學報;2009年01期

6 張宏松;劉建輝;;面向Web的文本信息挖掘研究[J];計算機系統(tǒng)應用;2006年09期

7 陸科進,李新穎;基于Ontology的文本信息抽取[J];計算機應用研究;2003年07期

8 李向陽;苗壯;肖江;;無結構文本信息抽取綜述[J];軍事通信技術;2004年02期

9 賀令亞;柳佳剛;;基于Web的包裝器技術的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應用;2007年06期

10 張巖;;基于本體的信息抽取技術研究[J];科技信息(學術研究);2008年36期

相關會議論文前10條

1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數據庫學術會議論文集（研究報告篇）[C];2004年

2 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計算語言學研究前沿進展（2009-2011）[C];2011年

3 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數據庫學術會議論文集（研究報告篇）[C];2007年

4 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學習方法在中文機構名識別中的應用[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年

5 姜吉發(fā);王樹西;;一種自舉的二元關系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

6 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數據庫學術會議論文集（研究報告篇）[C];2002年

7 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年

8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結合的案件名稱識別[A];第三屆學生計算語言學研討會論文集[C];2006年

9 周國棟;孔芳;朱巧明;;指代消解：國內外研究現(xiàn)狀及趨勢[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年

10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設計與實現(xiàn)[A];第六屆全國信息檢索學術會議論文集[C];2010年

相關重要報紙文章前3條

1 上海交通大學APEX數據和知識管理實驗室王昊奮邋俞勇;語義Web推動下一代搜索[N];計算機世界;2007年

2 王培森;從Web挖到競爭情報[N];中國計算機報;2003年

3 希安;微軟試水信息檢索[N];經濟日報;2004年

相關博士學位論文前10條

1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年

2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應用研究[D];大連海事大學;2011年

3 孟憲軍;互聯(lián)網文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年

4 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年

5 劉向威;NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年

6 李傳席;基于本體的自適應Web信息抽取方法研究[D];中國科學技術大學;2012年

7 張奇;信息抽取中實體關系識別研究[D];中國科學技術大學;2010年

8 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領域自動問答系統(tǒng)研究[D];中國科學技術大學;2007年

9 郝立麗;漢語文本數據挖掘[D];吉林大學;2009年

10 錢偉中;基于判別式模型的蛋白質互作用文本挖掘技術研究[D];電子科技大學;2011年

相關碩士學位論文前10條

1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年

2 張金;個性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學;2010年

3 金璐鈺;基于框架的事件抽取關鍵技術研究[D];蘇州大學;2010年

4 李梅;改進的K均值算法在中文文本聚類中的研究[D];安徽大學;2010年

5 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2004年

6 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2004年

7 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學;2010年

8 廉成洋;基于樹結構的Web信息抽取技術研究[D];南京航空航天大學;2010年

9 田宇;基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)[D];內蒙古大學;2011年

10 楊選選;基于概念圖和語義角色的多領域信息抽取系統(tǒng)研究[D];西北大學;2010年

，

本文編號：2308536

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2308536.html

上一篇：基于Hadoop面向社交網絡的好友推薦系統(tǒng)的研究與應用
下一篇：基于詞語相關度的搜索引擎排序算法

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于搜索引擎的知識發(fā)現(xiàn)