天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文人名搜索引擎關(guān)鍵技術(shù)研究

發(fā)布時間:2018-04-23 08:29

  本文選題:搜索引擎 + 中文人名搜索。 參考:《河北大學(xué)》2012年碩士論文


【摘要】:人名歧義是由于現(xiàn)實中同一姓名可能被多個實體人物共同使用而帶來的一種身份不確定現(xiàn)象。中文人名搜索是互聯(lián)網(wǎng)用戶日常需求之一。隨著Internet的發(fā)展,Web頁面中因人物同名而帶來閱讀理解困難的問題越來突出,尤其給搜索引擎帶來了不利影響。目前流行的通用搜索引擎對歧義人名僅通過關(guān)鍵字匹配、Web頁面熱度排序,輸出長而無序的列表。真正有價值的信息僅為海量Web數(shù)據(jù)中的“冰山一角”,同時有“名人”網(wǎng)頁淹沒“非名人”網(wǎng)頁的現(xiàn)象,給用戶查找其所需要的人物信息帶來了極大不便。 本文針對中文人名搜索這一問題進行研究,主要工作如下: 首先在對垂直搜索引擎技術(shù)的研究基礎(chǔ)之上,結(jié)合中文人名搜索的特點,設(shè)計出中文人名搜索引擎體系結(jié)構(gòu)。其中,Web人名主題爬蟲采用基于模板和基于網(wǎng)頁DOM樹分析兩種方法,分別從百度人物百科采集人物信息建立人物資料庫和互聯(lián)網(wǎng)采集包含歧義人名的Web頁面,構(gòu)建人物知識庫和待消歧Web頁面庫。 在Web人名消歧方面,本文給出了一種基于百度百科的無監(jiān)督自動人名消歧方法。采用百度人物百科的海量數(shù)據(jù)作為基礎(chǔ)人物資料庫,通過解析其豐富的人物信息和語義關(guān)系,提煉出人物背景知識、人物特征語境、人物群體信息3大特征并進行線性融合,選取最大值所對應(yīng)的實體人物作為歧義人名所指人物,作為Web頁面索引建立依據(jù)。 最后,,本文建立實驗原型并進行了Web中文人名消歧實驗,取得了較好的消歧效果,驗證了該方法的有效性。
[Abstract]:Name ambiguity is a kind of identity uncertainty caused by the fact that the same name may be used by many entities. Chinese name search is one of the daily needs of Internet users. With the development of Internet, the problem of reading and understanding is becoming more and more prominent, especially to the search engine. At present, the popular general search engine sorts the ambiguous names only by keyword matching, and outputs a long and unordered list. The truly valuable information is only the "tip of the iceberg" in the massive Web data, and the phenomenon of "celebrity" page flooding the "non-celebrity" web page, which brings great inconvenience to the user to find the person information he needs. The main work of this paper is as follows: Firstly, based on the research of vertical search engine technology and the characteristics of Chinese name search, the architecture of Chinese person name search engine is designed. Among them, the web name subject crawler adopts two methods: template based method and web page DOM tree analysis method, which collect the character information from Baidu's encyclopedia personae to set up the character database and collect the Web page with ambiguous names on the Internet, respectively. Build character knowledge base and Web page library to be disambiguated. In the aspect of Web name disambiguation, this paper presents an unsupervised automatic name disambiguation method based on Baidu Encyclopedia. Using the massive data of Baidu's encyclopedia personae as the basic character database, through analyzing its abundant character information and semantic relation, the author abstracts out three characteristics of character background knowledge, character characteristic context, character group information and carries on linear fusion. The entity character corresponding to the maximum value is chosen as the character of ambiguous person name, which is used as the basis of Web page index. Finally, the experiment prototype is established and the Web Chinese name disambiguation experiment is carried out, and a good disambiguation effect is obtained, which verifies the effectiveness of the method.
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前10條

1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

2 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期

3 朱煒;王超;李俊;潘金貴;;Web超鏈分析算法研究[J];計算機科學(xué);2003年09期

4 張成洪;古曉洪;白延紅;;Web數(shù)據(jù)抽取技術(shù)研究進展[J];計算機科學(xué);2004年02期

5 劉智洋;劉魯;;Wiki網(wǎng)復(fù)雜網(wǎng)絡(luò)特性分析[J];計算機工程;2011年05期

6 郭建兵;崔志明;陳明;趙朋朋;;基于DOM樹與領(lǐng)域本體的Web抽取方法[J];計算機工程;2012年05期

7 汪濤,樊孝忠;主題爬蟲的設(shè)計與實現(xiàn)[J];計算機應(yīng)用;2004年S1期

8 貢正仙;朱巧明;李培峰;;基于相似頁面的Web信息抽取系統(tǒng)的實現(xiàn)[J];計算機應(yīng)用;2006年08期

9 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期

10 陳釗;張冬梅;;Web信息抽取技術(shù)綜述[J];計算機應(yīng)用研究;2010年12期

相關(guān)碩士學(xué)位論文 前2條

1 張偉;垂直搜索引擎設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2008年

2 談佳寧;半監(jiān)督網(wǎng)頁分類及其在目錄式搜索引擎中的應(yīng)用研究[D];江蘇大學(xué);2008年



本文編號:1791196

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1791196.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6f58a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com