一種基于流形距離的中文語塊聚類分析方法
發(fā)布時間:2017-11-28 11:15
本文關鍵詞:一種基于流形距離的中文語塊聚類分析方法
【摘要】:將中文語塊分析看做詞在句子內(nèi)部聚類并標記語塊類別的過程,建立了中文語塊分析的聚類模型。首先構建詞的語法功能空間,使用ISOMAP方法重構詞空間的低維流形嵌入,進而考察詞在低維空間中的分布情況。在使用層次聚類方法分析語塊時,使用流形上的距離替代傳統(tǒng)的歐式距離,在算法復雜度可以接受的范圍內(nèi),提高了語塊分析效果。
【作者單位】: 國防科學技術大學電子科學與工程學院;長江日報報業(yè)集團;
【基金】:新聞出版重大科技工程項目(1041STC40889)資助
【分類號】:H146
【正文快照】: 中文語塊分析(chunking)是淺層句法分析(sha-llow parsing)中最主要的任務[1],對機器翻譯、信息檢索等自然語言處理具有重要作用。目前對中文語塊的定義尚未形成公認的權威解釋,沿用Abney[2]的觀點,中文語塊(下文皆稱語塊)是符合一定語法功能的非遞歸短語。每個語塊都有一個中
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 馮志偉;;特思尼耶爾的從屬關系語法[J];國外語言學;1983年01期
2 孫廣路;王曉龍;劉秉權;關毅;;基于詞聚類特征的統(tǒng)計中文組塊分析模型[J];電子學報;2008年12期
3 楊震;范科峰;雷建軍;郭軍;;基于語義的文本流形研究[J];電子學報;2009年03期
4 梁穎紅;趙鐵軍;于浩;姚健民;徐冰;;基于改進K-均值聚類的漢語語塊識別[J];哈爾濱工業(yè)大學學報;2007年07期
5 王自強;錢旭;;基于流形學習和SVM的Web文檔分類算法[J];計算機工程;2009年15期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學報;2008年01期
7 周俊生;戴新宇;陳家駿;曲維光;;基于大間隔方法的漢語組塊分析[J];軟件學報;2009年04期
8 公茂果;王爽;馬萌;曹宇;焦李成;馬文萍;;復雜分布數(shù)據(jù)的二階段聚類算法[J];軟件學報;2011年11期
9 王娜;杜海峰;王孫安;;一種基于流形距離的迭代優(yōu)化聚類算法[J];西安交通大學學報;2009年05期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 鄒宏梅;組塊識別技術的研究與實現(xiàn)[D];國防科學技術大學;2006年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙Z,
本文編號:1233770
本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/1233770.html