天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于興趣點(diǎn)簡(jiǎn)稱的檢索方法研究

發(fā)布時(shí)間:2019-04-13 17:55
【摘要】:提出了一種基于統(tǒng)計(jì)方法和分詞的匹配模型,該模型能夠根據(jù)簡(jiǎn)稱找出最可能的全稱。這一模型由三個(gè)部分組成:針對(duì)不同類別的全稱,對(duì)興趣點(diǎn)全稱進(jìn)行分類,將全稱劃分成機(jī)構(gòu)、公司、行業(yè)、區(qū)域和未知五類單詞;把單詞按照長(zhǎng)度分為六類,然后在此基礎(chǔ)上建立隱馬爾可夫統(tǒng)計(jì)模型;在越頻繁使用的全稱越有可能產(chǎn)生簡(jiǎn)稱的假設(shè)下,建立一個(gè)流行度統(tǒng)計(jì)模型。實(shí)驗(yàn)表明上述模型的首選準(zhǔn)確率達(dá)到近85%,比現(xiàn)有搜索引擎的匹配能力有了顯著的提高。
[Abstract]:In this paper, a matching model based on statistical method and participle is proposed, which can find the most likely full name according to the abbreviation. The model consists of three parts: for different categories of full names, the full term of interest point is classified into five types of words: organization, company, industry, region and unknown; The words are divided into six categories according to their length, and then a hidden Markov statistical model is established on the basis of which a statistical model of popularity is established under the assumption that the more frequently used full names are more likely to produce abbreviations, the more frequent they are used, the more likely they are to produce abbreviations. The experimental results show that the first choice accuracy of the model is nearly 85%, which is significantly higher than the matching ability of the existing search engines.
【作者單位】: 北京大學(xué)遙感與地理信息研究所空間智能計(jì)算實(shí)驗(yàn)室;
【基金】:國(guó)家重點(diǎn)研究基礎(chǔ)發(fā)展規(guī)劃(973)項(xiàng)目(2006CB70130000)
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 吳棟,滕育平;中文信息檢索引擎中的分詞與檢索技術(shù)[J];計(jì)算機(jī)應(yīng)用;2004年07期

2 王寧,葛瑞芳,苑春法,黃錦輝,李文捷;中文金融新聞中公司名的識(shí)別[J];中文信息學(xué)報(bào);2002年02期

3 鐘良伍;鄭方;;基于中文機(jī)構(gòu)名簡(jiǎn)稱的檢索方法研究[J];中文信息學(xué)報(bào);2007年01期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 邵晶,黨海峰,白慧先,鄭慶華;OPAC資源與網(wǎng)絡(luò)教育資源共享集成關(guān)鍵技術(shù)研究[J];大學(xué)圖書館學(xué)報(bào);2005年03期

2 蔡勇智;基于最大匹配分詞算法的中文詞語(yǔ)粗分模型[J];福建電腦;2005年09期

3 謝春發(fā);中文智能搜索引擎的研究與探討[J];河北廣播電視大學(xué)學(xué)報(bào);2005年04期

4 莊明,老松楊,吳玲達(dá);一種統(tǒng)計(jì)和詞性相結(jié)合的命名實(shí)體發(fā)現(xiàn)方法[J];計(jì)算機(jī)應(yīng)用;2004年01期

5 肖紅;許少華;李欣;;具有三級(jí)索引詞庫(kù)結(jié)構(gòu)的中文分詞方法研究[J];計(jì)算機(jī)應(yīng)用研究;2006年08期

6 鐘良伍;鄭方;;基于中文機(jī)構(gòu)名簡(jiǎn)稱的檢索方法研究[J];中文信息學(xué)報(bào);2007年01期

7 方冰;張一中;;高性能FTP搜索引擎的設(shè)計(jì)[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

8 唐培麗;胡明;解飛;劉鋼;;全文檢索搜索引擎中文信息處理技術(shù)研究[J];情報(bào)科學(xué);2006年06期

9 郭一平;向暉;王亮;;基于Lucene的Ftp搜索引擎的設(shè)計(jì)[J];圖書情報(bào)工作;2006年04期

10 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J];通信學(xué)報(bào);2006年02期

相關(guān)會(huì)議論文 前9條

1 俞鴻魁;張華平;劉群;呂學(xué)強(qiáng);施水才;;基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)'2005論文集(下冊(cè))[C];2005年

2 吳雪軍;朱靖波;王會(huì)珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識(shí)別中的應(yīng)用[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

3 俞鴻魁;張華平;劉群;;基于角色標(biāo)注的中文機(jī)構(gòu)名識(shí)別[A];Advances in Computation of Oriental Languages--Proceedings of the 20th International Conference on Computer Processing of Oriental Languages[C];2003年

4 李斌;;中文單字國(guó)名簡(jiǎn)稱的自動(dòng)識(shí)別[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

5 喬春庚;肖詩(shī)斌;孫麗華;施水才;;規(guī)則與統(tǒng)計(jì)相結(jié)合的案件名稱識(shí)別[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

6 鄭家恒;譚紅葉;王興義;;基于模式匹配的中文專有名詞識(shí)別[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

7 陳慧;張普;;基于DCC動(dòng)態(tài)流通語(yǔ)料庫(kù)的中文組織名監(jiān)測(cè)與研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

8 徐薇;付濱;劉柳;苑春法;李文捷;;中文命名實(shí)體識(shí)別系統(tǒng)的領(lǐng)域擴(kuò)展[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

9 王虎;王潛平;;對(duì)整詞二分自動(dòng)分詞機(jī)制的改進(jìn)[A];中國(guó)計(jì)算技術(shù)與語(yǔ)言問(wèn)題研究——第七屆中文信息處理國(guó)際會(huì)議論文集[C];2007年

相關(guān)博士學(xué)位論文 前2條

1 孫越恒;基于統(tǒng)計(jì)的NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

2 姜韶華;科研項(xiàng)目管理中的文本挖掘方法研究及應(yīng)用[D];大連理工大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 張艷麗;中文機(jī)構(gòu)名稱的自動(dòng)識(shí)別[D];大連理工大學(xué);2003年

2 俞鴻魁;基于層次隱馬爾可夫模型的漢語(yǔ)詞法分析和命名實(shí)體識(shí)別技術(shù)[D];北京化工大學(xué);2004年

3 莊明;裝備發(fā)展戰(zhàn)略研究信息化平臺(tái)中漢語(yǔ)文本信息提取技術(shù)的研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2003年

4 王軍;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2004年

5 王興義;基于模式匹配的中文專有名詞識(shí)別[D];山西大學(xué);2005年

6 王江偉;基于最大熵模型的中文命名實(shí)體識(shí)別[D];南京理工大學(xué);2005年

7 吳雪軍;面向信息抽取的命名實(shí)體識(shí)別與模板獲取技術(shù)研究[D];東北大學(xué);2005年

8 朱軍;中文垃圾郵件過(guò)濾技術(shù)研究及應(yīng)用[D];合肥工業(yè)大學(xué);2005年

9 崔飛虎;一種多Agent的個(gè)性化信息檢索系統(tǒng)的研究與設(shè)計(jì)[D];中國(guó)人民解放軍信息工程大學(xué);2005年

10 張曉淼;基于神經(jīng)網(wǎng)絡(luò)的中文分詞算法的研究[D];大連理工大學(xué);2006年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 嚴(yán)威,趙政;開發(fā)中文搜索引擎漢語(yǔ)處理的關(guān)鍵技術(shù)[J];計(jì)算機(jī)工程;1999年06期

2 王寧,葛瑞芳,苑春法,黃錦輝,李文捷;中文金融新聞中公司名的識(shí)別[J];中文信息學(xué)報(bào);2002年02期

3 張小衡,王玲玲;中文機(jī)構(gòu)名稱的識(shí)別與分析[J];中文信息學(xué)報(bào);1997年04期

4 王科,高常波,翟雪峰,羅萬(wàn)伯;漢語(yǔ)分詞的主要技術(shù)及其應(yīng)用展望[J];通信技術(shù);2003年06期

相關(guān)會(huì)議論文 前2條

1 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計(jì)和規(guī)則相結(jié)合的中文機(jī)構(gòu)名稱識(shí)別[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年

2 雷靜;;漢語(yǔ)機(jī)構(gòu)名的構(gòu)成模式[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 ;中國(guó)微生物學(xué)會(huì)常務(wù)理事擴(kuò)大會(huì)在北京召開[J];微生物學(xué)通報(bào);1980年06期

2 魚際元;;“感光材料專業(yè)外文文獻(xiàn)查閱”補(bǔ)遺[J];影像材料;1980年01期

3 馬丁;;漫畫慢畫——諷刺劇[J];新聞戰(zhàn)線;1980年04期

4 左民安;;《說(shuō)文解字·敘》標(biāo)點(diǎn)商榷[J];學(xué)術(shù)月刊;1980年08期

5 劉士釗;;德溫特公司的專利檢索刊物[J];情報(bào)科學(xué);1980年01期

6 ;小辭典[J];中國(guó)檔案;1980年02期

7 伍同;;新型修裱漿糊——羧甲基纖維素[J];中國(guó)檔案;1980年05期

8 朱伯深;;紅中社之前的中國(guó)工人通訊社[J];新聞與傳播研究;1980年02期

9 華湘翰;介紹《美國(guó)化學(xué)文摘》查閱法[J];現(xiàn)代化工;1981年05期

10 朱開發(fā);用萬(wàn)用表檢查雙向可控硅的方法[J];廣播與電視技術(shù);1981年01期

相關(guān)重要報(bào)紙文章 前6條

1 廖波;“貴輪”公司簡(jiǎn)稱打敗注冊(cè)商標(biāo)[N];商務(wù)時(shí)報(bào);2009年

2 本報(bào)記者 張恒瑞;高校簡(jiǎn)稱起爭(zhēng)議 商標(biāo)注冊(cè)誰(shuí)更當(dāng)之無(wú)愧?[N];中國(guó)消費(fèi)者報(bào);2009年

3 本報(bào)記者 吳曉婧;證監(jiān)會(huì)規(guī)范基金命名 新簡(jiǎn)稱已啟用[N];上海證券報(bào);2009年

4 楊沛潔 楊躍彬;中平能化集團(tuán)成為企業(yè)法定簡(jiǎn)稱[N];平頂山日?qǐng)?bào);2009年

5 本報(bào)記者 張恒瑞;專家呼吁:企業(yè)不應(yīng)忽視品牌簡(jiǎn)稱保護(hù)[N];中國(guó)消費(fèi)者報(bào);2009年

6 記者 韓勁松;市政府工作機(jī)構(gòu)及簡(jiǎn)稱公布[N];濟(jì)南日?qǐng)?bào);2010年



本文編號(hào):2457801

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2457801.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶397d5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com