基于網(wǎng)頁(yè)信息和分詞的中文機(jī)構(gòu)名全稱和簡(jiǎn)稱提取方法
本文選題:機(jī)構(gòu)名簡(jiǎn)稱提取 + 機(jī)構(gòu)名全稱提取; 參考:《計(jì)算機(jī)應(yīng)用研究》2017年04期
【摘要】:搜索引擎在處理全稱和簡(jiǎn)稱的對(duì)應(yīng)關(guān)系時(shí),以往只能通過人工添加,造成簡(jiǎn)稱遺漏、搜索結(jié)果召回率低等問題。為此,提出了一種自動(dòng)獲取機(jī)構(gòu)全稱和簡(jiǎn)稱的方法。根據(jù)域名地址獲取機(jī)構(gòu)網(wǎng)站首頁(yè)源代碼,從中提取相應(yīng)機(jī)構(gòu)全稱,再結(jié)合機(jī)構(gòu)名上下文特征詞集合從中提取候選簡(jiǎn)稱,最后計(jì)算候選簡(jiǎn)稱與全稱的相似度確定最終簡(jiǎn)稱。通過對(duì)1 287個(gè)組織機(jī)構(gòu)網(wǎng)站的實(shí)驗(yàn),全稱提取正確率達(dá)93.9%,簡(jiǎn)稱召回率和正確率分別達(dá)85.3%和90.8%,實(shí)驗(yàn)表明該方法效果良好。
[Abstract]:When the search engine deals with the corresponding relationship between full name and abbreviation, it can only be added manually in the past, resulting in short name omission, low recall rate of search results, and so on.Therefore, an automatic method for obtaining the full name and abbreviation of the mechanism is proposed.According to the source code of the first page of the website of the agency, the full name of the corresponding organization is extracted from the source code of the domain name address, and then the candidate abbreviation is extracted from the set of contextual features of the organization name, and the similarity between the candidate abbreviation and the full name is calculated finally.Through the experiments on 1 287 websites of organizations, the correct rate of full name extraction is 93.9, and the recall rate and accuracy rate are 85.3% and 90.8%, respectively. The experiment shows that the method is effective.
【作者單位】: 中國(guó)科學(xué)院大學(xué);中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心;中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61375039,61272433)
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王文軒;;基于構(gòu)成模式的部隊(duì)機(jī)構(gòu)名識(shí)別[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2013年34期
2 劉杰;;基于統(tǒng)計(jì)的中文機(jī)構(gòu)名實(shí)體識(shí)別的研究[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
3 馮麗萍;;基于統(tǒng)計(jì)的中文組織機(jī)構(gòu)名識(shí)別[J];福建電腦;2006年01期
4 夏峗;李志蜀;;基于統(tǒng)計(jì)的中文機(jī)構(gòu)名自動(dòng)識(shí)別[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年03期
5 鐘良伍;鄭方;;基于中文機(jī)構(gòu)名簡(jiǎn)稱的檢索方法研究[J];中文信息學(xué)報(bào);2007年01期
6 韋向峰;張全;吳晨;袁毅;;中文問答系統(tǒng)中機(jī)構(gòu)名的處理[J];計(jì)算機(jī)工程與應(yīng)用;2008年07期
7 麥合甫熱提;米日姑·肉孜;麥熱哈巴·艾力;吐爾根·依布拉音;;基于語(yǔ)法語(yǔ)義知識(shí)的維吾爾文機(jī)構(gòu)名識(shí)別[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年08期
8 馮麗萍;焦莉娟;;結(jié)合多特征的支持向量機(jī)中文組織機(jī)構(gòu)名識(shí)別模型[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年07期
9 胡萬(wàn)亭;楊燕;尹紅風(fēng);賈真;劉利;;一種基于詞頻統(tǒng)計(jì)的組織機(jī)構(gòu)名識(shí)別方法[J];計(jì)算機(jī)應(yīng)用研究;2013年07期
10 陳慧;;中文組織機(jī)構(gòu)名命名規(guī)范化問題芻議[J];人文叢刊;2011年00期
相關(guān)會(huì)議論文 前5條
1 金朝;蔣宗禮;;中文機(jī)構(gòu)名的識(shí)別討論[A];2011高等職業(yè)教育電子信息類專業(yè)學(xué)術(shù)暨教學(xué)研討會(huì)論文集[C];2011年
2 雷靜;;漢語(yǔ)機(jī)構(gòu)名的構(gòu)成模式[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
3 雷靜;張舵;馮霞;;基于構(gòu)成模式的漢語(yǔ)機(jī)構(gòu)名識(shí)別[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
4 計(jì)峰;高沫;邱錫鵬;黃萱菁;;中文機(jī)構(gòu)名簡(jiǎn)稱的自動(dòng)生成研究[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
5 吳雪軍;朱靖波;王會(huì)珍;葉娜;張宇新;;Co-Training的機(jī)器學(xué)習(xí)方法在中文機(jī)構(gòu)名識(shí)別中的應(yīng)用[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
相關(guān)重要報(bào)紙文章 前5條
1 ;《全國(guó)文化機(jī)構(gòu)名址錄》面世[N];中國(guó)文化報(bào);2003年
2 馬文;《全國(guó)文化機(jī)構(gòu)名址錄》出版[N];中國(guó)文化報(bào);2001年
3 記者 王俐君 通訊員 歐志紅;湖南名址信息庫(kù)建設(shè)強(qiáng)力啟動(dòng)[N];中國(guó)郵政報(bào);2003年
4 記者 劉蘇;2000多件證書展示證書文化[N];徐州日?qǐng)?bào);2010年
5 記者 劉朝君;組織機(jī)構(gòu)名址庫(kù)年內(nèi)建成[N];中國(guó)郵政報(bào);2003年
相關(guān)碩士學(xué)位論文 前10條
1 陳丹雙;POI(Point of Interest)名稱識(shí)別及其在對(duì)話導(dǎo)航系統(tǒng)中的應(yīng)用[D];復(fù)旦大學(xué);2013年
2 王樹偉;面向金融文本的實(shí)體識(shí)別與關(guān)系抽取研究[D];哈爾濱工業(yè)大學(xué);2014年
3 連譽(yù)舜;中文組織機(jī)構(gòu)名檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2013年
4 劉璐;基于潛在語(yǔ)義分析與多特征融合的中文機(jī)構(gòu)名識(shí)別[D];西北大學(xué);2016年
5 萬(wàn)如;中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2008年
6 烏蘭敖日格樂;中文軍事組織機(jī)構(gòu)名的識(shí)別[D];大連理工大學(xué);2010年
7 凌雅娟;新聞文本中的中文機(jī)構(gòu)名識(shí)別和機(jī)構(gòu)關(guān)系抽取研究[D];華東師范大學(xué);2013年
8 紅霞;基于層疊條件隨機(jī)場(chǎng)的中文機(jī)構(gòu)名識(shí)別的研究[D];大連理工大學(xué);2010年
9 陳霄;基于支持向量機(jī)的中文組織機(jī)構(gòu)名識(shí)別[D];上海交通大學(xué);2007年
10 米日姑·肉孜;維吾爾文機(jī)構(gòu)名識(shí)別研究[D];新疆大學(xué);2013年
,本文編號(hào):1773518
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1773518.html