基于搜索引擎的知識發(fā)現(xiàn)
[Abstract]:Data mining is generally used in highly structured large databases to discover the knowledge contained therein. With the increase of online texts, the knowledge contained in them is becoming more and more abundant, but they are difficult to be analyzed and utilized. Therefore, it is very important and important to study a set of effective schemes to discover the knowledge contained in the text. In this paper, the search engine Google is used to obtain the relevant Web pages, filter and clean the relevant text, then cluster the text, use Episode for event recognition and information extraction, data integration and data mining, so as to realize knowledge discovery. Finally, the prototype system is given, and the knowledge discovery is verified by practice, and the result is very good.
【作者單位】: 北京理工大學計算機系 北京理工大學計算機系
【分類號】:TP311
【相似文獻】
相關期刊論文 前10條
1 李剛;史向東;;基于Google搜索結果的重名消解方法[J];信息與電腦(理論版);2011年02期
2 張 陽,李建良,胡正國;NewsGrouper:一個自動抽取重要新聞的軟件工具[J];計算機工程;2002年04期
3 史旗凱;郭菊娥;;基于管理問題信息抽取的主題識別研究[J];情報科學;2008年10期
4 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
5 史旗凱;郭菊娥;馬續(xù)補;葉金鳳;;基于SMA信息抽取的事實主題的識別研究[J];情報學報;2009年01期
6 張宏松;劉建輝;;面向Web的文本信息挖掘研究[J];計算機系統(tǒng)應用;2006年09期
7 陸科進,李新穎;基于Ontology的文本信息抽取[J];計算機應用研究;2003年07期
8 李向陽;苗壯;肖江;;無結構文本信息抽取綜述[J];軍事通信技術;2004年02期
9 賀令亞;柳佳剛;;基于Web的包裝器技術的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應用;2007年06期
10 張巖;;基于本體的信息抽取技術研究[J];科技信息(學術研究);2008年36期
相關會議論文 前10條
1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數據庫學術會議論文集(研究報告篇)[C];2004年
2 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數據庫學術會議論文集(研究報告篇)[C];2007年
4 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學習方法在中文機構名識別中的應用[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
5 姜吉發(fā);王樹西;;一種自舉的二元關系獲取方法[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
6 徐林昊;楊文柱;陳少飛;郝亞南;李天柱;;基于XPath的Web信息抽取[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年
7 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
8 喬春庚;肖詩斌;孫麗華;施水才;;規(guī)則與統(tǒng)計相結合的案件名稱識別[A];第三屆學生計算語言學研討會論文集[C];2006年
9 周國棟;孔芳;朱巧明;;指代消解:國內外研究現(xiàn)狀及趨勢[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
10 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設計與實現(xiàn)[A];第六屆全國信息檢索學術會議論文集[C];2010年
相關重要報紙文章 前3條
1 上海交通大學APEX數據和知識管理實驗室 王昊奮邋俞勇;語義Web推動下一代搜索[N];計算機世界;2007年
2 王培森;從Web挖到競爭情報[N];中國計算機報;2003年
3 希安;微軟試水信息檢索[N];經濟日報;2004年
相關博士學位論文 前10條
1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年
2 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應用研究[D];大連海事大學;2011年
3 孟憲軍;互聯(lián)網文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年
4 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年
5 劉向威;NLP技術在中文信息檢索中的應用研究[D];天津大學;2005年
6 李傳席;基于本體的自適應Web信息抽取方法研究[D];中國科學技術大學;2012年
7 張奇;信息抽取中實體關系識別研究[D];中國科學技術大學;2010年
8 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領域自動問答系統(tǒng)研究[D];中國科學技術大學;2007年
9 郝立麗;漢語文本數據挖掘[D];吉林大學;2009年
10 錢偉中;基于判別式模型的蛋白質互作用文本挖掘技術研究[D];電子科技大學;2011年
相關碩士學位論文 前10條
1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年
2 張金;個性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學;2010年
3 金璐鈺;基于框架的事件抽取關鍵技術研究[D];蘇州大學;2010年
4 李梅;改進的K均值算法在中文文本聚類中的研究[D];安徽大學;2010年
5 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2004年
6 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學;2004年
7 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學;2010年
8 廉成洋;基于樹結構的Web信息抽取技術研究[D];南京航空航天大學;2010年
9 田宇;基于XML的WEB信息抽取系統(tǒng)研究與實現(xiàn)[D];內蒙古大學;2011年
10 楊選選;基于概念圖和語義角色的多領域信息抽取系統(tǒng)研究[D];西北大學;2010年
,本文編號:2308536
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2308536.html