天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

專業(yè)信息定向采集與多維搜索系統(tǒng)

發(fā)布時間:2018-04-21 20:27

  本文選題:分布式爬蟲 + 信息抽取; 參考:《浙江大學》2017年碩士論文


【摘要】:決策依靠經驗、直覺和邏輯驅動,但大數(shù)據(jù)時代以來,特別對專業(yè)領域來講,決策越來越依靠數(shù)據(jù)驅動;ヂ(lián)網上存在大量領域相關文本信息,這些信息多以新聞報道、博客、社區(qū)門戶等形式存在。多維搜索是一種基于排序與分類的搜索技術,如何將這些技術應用到互聯(lián)網專業(yè)領域數(shù)據(jù)是一個非常復雜的流程,涉及內容從如何從互聯(lián)網采集信息、保證HTML文本質量到自然語言處理與多維搜索技術等。本文結合分布式定向爬蟲、數(shù)據(jù)清洗、文本分析、多維搜索等技術,構建了一個面向專業(yè)領域的互聯(lián)網定向數(shù)據(jù)采集與多維搜索系統(tǒng)。本文基于一個實際的應用例子,聚焦于實現(xiàn)一個簡單易用且可擴展的系統(tǒng)用于專業(yè)領域的互聯(lián)網文本分析。本文主要工作包括:1)基于專業(yè)領域互聯(lián)網數(shù)據(jù)采集需求,構建了一個分布式定向爬蟲。與全文抓取不同,分布式定向爬蟲要求從互聯(lián)網快速抓取深層次、精確化的結構化數(shù)據(jù);2)構建信息抽取通道,用于清洗加工分布式爬蟲采集下來的數(shù)據(jù)。步驟主要包括去除網頁噪音、進行內容查重、丟棄無關專業(yè)領域數(shù)據(jù)、文本分詞與實體抽取;3)為使系統(tǒng)更具備交互性,系統(tǒng)提供對采集數(shù)據(jù)的多維檢索服務。在數(shù)據(jù)加工的基礎上,根據(jù)專業(yè)領域概念體系,提供多維搜索以輔助全文檢索服務;
[Abstract]:Decision-making is driven by experience, intuition and logic, but since big data's time, especially in the professional field, decision-making has been more and more data-driven. There are a large number of related text information on the Internet, mostly in the form of news reports, blogs, community portals and so on. Multidimensional search is a kind of search technology based on sorting and classification. How to apply these technologies to the data of Internet professional domain is a very complicated process, which involves how to collect information from the Internet. Ensure HTML text quality to natural language processing and multidimensional search technology. Based on distributed directional crawler, data cleaning, text analysis, multidimensional search and other technologies, an Internet oriented data acquisition and multidimensional search system for professional field is constructed in this paper. Based on a practical application example, this paper focuses on the implementation of a simple and extensible system for Internet text analysis in specialized fields. The main work of this paper includes: (1) A distributed oriented crawler is constructed based on the requirement of Internet data acquisition in professional domain. Different from full-text crawling, distributed directional crawlers need to quickly capture deep and accurate structured data from the Internet and construct information extraction channels for cleaning and processing the data collected by distributed crawlers. The steps mainly include removing the noise of the web page, checking the content, discarding the irrelevant domain data, extracting the text word and entity 3) in order to make the system more interactive, the system provides the multi-dimensional retrieval service to the collected data. On the basis of data processing, according to the concept system of professional domain, multi-dimensional search is provided to assist the full-text retrieval service.
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 呂宜男;;計算機輔助搜索系統(tǒng)[J];機械與電子;1991年05期

2 楊春賀,白煜煒,宋永梅;超媒體搜索系統(tǒng)的實現(xiàn)方案[J];網絡與信息;2000年07期

3 張戩慧;王洪斌;;獸藥類科技文獻信息搜索系統(tǒng)的構建研究[J];情報探索;2009年09期

4 莫倩;張傳想;;互聯(lián)網科技專家搜索系統(tǒng)[J];計算機系統(tǒng)應用;2013年05期

5 張鐘華;基于單片微計算機的新型核磁共振信號鎖定及搜索系統(tǒng)[J];計量學報;1988年04期

6 董飚,莊衛(wèi)華;新聞搜索系統(tǒng)的研究[J];烏魯木齊職業(yè)大學學報;2003年01期

7 程傳鵬;王天志;;一種自反饋式元搜索系統(tǒng)的設計[J];中原工學院學報;2011年04期

8 金傳升;;Racal公司向亞太地區(qū)出售COMINT/DF系統(tǒng)[J];通信技術;1992年04期

9 劉山根;;硬盤搜索系統(tǒng)設計與實現(xiàn)[J];軟件導刊;2013年12期

10 陳灶芳 ,黃國濤;用于互聯(lián)網信息搜索系統(tǒng)的網絡蜘蛛設計與實現(xiàn)[J];廣東科技;2005年01期

相關會議論文 前7條

1 李燕軍;;淺談互聯(lián)網信息搜索系統(tǒng)的應用[A];第十九次全國計算機安全學術交流會論文集[C];2004年

2 劉雷;呂英華;楊文翰;;一種新型的漏泄電磁波搜索系統(tǒng)[A];電波科學學報[C];2011年

3 張雪;劉正捷;陳軍亮;江彩華;;招聘網搜索系統(tǒng)的可用性研究[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國人機交互學術會議(CHCI'06)論文集[C];2006年

4 趙一雷;徐真昊;;多分子構象搜索系統(tǒng)構建及應用[A];中國化學會第28屆學術年會第13分會場摘要集[C];2012年

5 戰(zhàn)曉蘇;林宗楷;李正國;蘇忠;張少華;;基于MAS的信息資源協(xié)同搜索系統(tǒng)的系統(tǒng)結構[A];中國圖象圖形學會第十屆全國圖像圖形學術會議(CIG’2001)和第一屆全國虛擬現(xiàn)實技術研討會(CVR’2001)論文集[C];2001年

6 陸慧娟;唐文彬;程倬;王訓斌;;基于WebGIS的散車配貨和位置服務公共搜索系統(tǒng)[A];第四屆和諧人機環(huán)境聯(lián)合學術會議論文集[C];2008年

7 張永華;洪鋒;李明祿;薛廣濤;;個性化的P2P內容搜索系統(tǒng)的設計與實現(xiàn)[A];2006年全國開放式分布與并行計算機學術會議論文集(三)[C];2006年

相關重要報紙文章 前3條

1 黃寰;地震救助生命搜索系統(tǒng)誕生[N];中國礦業(yè)報;2004年

2 特約記者 李積軒;美研制新型掃雷系統(tǒng)[N];中國船舶報;2002年

3 李彬彬;藍帆、網擎攜手打造一流搜索引擎[N];中國商報;2000年

相關碩士學位論文 前10條

1 呂佳;基于Elastic Search的分布式日志搜索系統(tǒng)設計[D];復旦大學;2013年

2 高玉民;基于solr的搜索系統(tǒng)設計與實現(xiàn)[D];華南理工大學;2015年

3 劉佳奇;酒店訂購平臺搜索系統(tǒng)的設計與實現(xiàn)[D];北京交通大學;2016年

4 賴友強;應用于戶外的無人機應急搜索系統(tǒng)研究[D];西京學院;2016年

5 陳芊芊;基于solr搜索引擎的在線問答搜索系統(tǒng)的設計與實現(xiàn)[D];湖南大學;2015年

6 周鑫;基于文本的手機視頻搜索系統(tǒng)的設計與實現(xiàn)[D];上海交通大學;2015年

7 仲維東;E-Learning課程資源存儲搜索系統(tǒng)設計與實現(xiàn)[D];大連理工大學;2016年

8 吳夢瀟;基于HADOOP的分布式云平臺搜索系統(tǒng)設計與實現(xiàn)[D];湖南大學;2016年

9 張鋒;支持布爾查詢的桌面搜索系統(tǒng)的設計與實現(xiàn)[D];天津工業(yè)大學;2017年

10 白福裕;專業(yè)信息定向采集與多維搜索系統(tǒng)[D];浙江大學;2017年



本文編號:1783978

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1783978.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶078b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com