基于聚類與語義相似分析的多文本自動摘要方法
本文選題:自動摘要 切入點:云計算 出處:《情報雜志》2017年06期
【摘要】:[目的/意義]現(xiàn)有文本自動摘要算法普遍存在處理速度慢、壓縮率不足或摘要質(zhì)量不高等問題,如何高效處理、有效利用海量文本是圖書館信息管理及服務一個重要的研究方向。[方法/過程]提出了一種云計算平臺下基于聚類與語義相似分析的多文本自動摘要方法。該方法在文本向量化基礎上,通過MapReduce框架對多文本進行聚類、主題抽取、主題詞及語義相似詞頻率統(tǒng)計等處理,然后摘取主題句構造出多文本摘要。[結果/結論]實驗結果證實,基于聚類與語義相似分析的MapReduce自動摘要架構在生成大規(guī)模多文本摘要時,不但具有較好的時間性能,同時也具有較好的壓縮效果并保證較高的摘要質(zhì)量。
[Abstract]:[purpose / significance] existing automatic text summarization algorithms generally have problems such as slow processing speed, low compression ratio or low summary quality, and how to deal with them efficiently. Effective use of mass text is an important research direction of library information management and service. [method / process] this paper proposes a multi-text automatic summary method based on clustering and semantic similarity analysis in cloud computing platform. On the basis of text vectorization, Through the MapReduce framework, we deal with multi-text clustering, topic extraction, topic words and semantic similar words frequency statistics, then extract topic sentences to construct multi-text abstracts. [results / conclusions] Experimental results prove that, The MapReduce automatic summary architecture based on clustering and semantic similarity analysis not only has good time performance but also has good compression effect and high summary quality when generating large scale multi-text abstracts.
【作者單位】: 廣州航海學院圖書館;
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前10條
1 王李冬;張慧熙;;基于HowNet的微博文本語義檢索研究[J];情報科學;2016年09期
2 譚晉秀;何躍;;基于k-means文本聚類的新浪微博個性化博文推薦研究[J];情報科學;2016年04期
3 張釗;張新峰;鄭楠;貴明俊;;基于Hadoop平臺的LDA算法的并行化實現(xiàn)[J];計算機工程與科學;2016年02期
4 李峰;黃金柱;李舟軍;楊偉銘;;使用關鍵詞擴展的新聞文本自動摘要方法[J];計算機科學與探索;2016年03期
5 彭敏;高斌龍;黃濟民;劉紀平;;基于高質(zhì)量信息提取的微博自動摘要[J];計算機工程;2015年07期
6 程園;吾守爾·斯拉木;買買提依明·哈斯木;;基于綜合的句子特征的文本自動摘要[J];計算機科學;2015年04期
7 宋杰;劉雪冰;朱志良;李甜甜;趙大哲;于戈;;一種能效優(yōu)化的MapReduce資源比模型[J];計算機學報;2015年01期
8 李成果;;基于DSC的多文本自動摘要[J];計算機系統(tǒng)應用;2014年07期
9 張培晶;宋蕾;;基于LDA的微博文本主題建模方法研究述評[J];圖書情報工作;2012年24期
10 紀文倩;李舟軍;巢文涵;陳小明;;一種基于LexRank算法的改進的自動文摘系統(tǒng)[J];計算機科學;2010年05期
相關碩士學位論文 前1條
1 蔣翠翠;基于動態(tài)質(zhì)心的Web文本分類方法及應用研究[D];中國科學院深圳先進技術研究院;2014年
【共引文獻】
相關期刊論文 前10條
1 翟光明;李國和;吳衛(wèi)江;洪云峰;周曉明;汪靜;;基于Spark的人工蜂群改進算法[J];計算機應用;2017年07期
2 廖彬;張?zhí)?國冰磊;于炯;張旭光;劉炎;;基于Spark的ItemBased推薦算法性能優(yōu)化[J];計算機應用;2017年07期
3 劉海燕;張鈺;;基于LexRank的中文單文檔摘要方法[J];兵器裝備工程學報;2017年06期
4 杜秀英;;基于聚類與語義相似分析的多文本自動摘要方法[J];情報雜志;2017年06期
5 肖明;易紅發(fā);;社交媒體推特上的中國形象研究[J];北方傳媒研究;2017年02期
6 常成;;PDMiner平臺的主動配電網(wǎng)安全監(jiān)測系統(tǒng)[J];哈爾濱理工大學學報;2017年02期
7 肖明;易紅發(fā);;推特上中國形象的主題與情感分析[J];對外傳播;2017年03期
8 夏名首;劉玉林;;基于K-MEANS聚類的電商店鋪經(jīng)營策略分析[J];商業(yè)經(jīng)濟研究;2017年05期
9 方小飛;黃孝喜;王榮波;諶志群;王小華;;基于LDA模型的移動投訴文本熱點話題識別[J];數(shù)據(jù)分析與知識發(fā)現(xiàn);2017年02期
10 馬夏夏;蔡永明;劉貴香;;基于LDA的股市復雜網(wǎng)絡研究熱點分析[J];情報探索;2016年11期
【二級參考文獻】
相關期刊論文 前10條
1 張亞莉;魯夢華;徐yN飛;;基于文本分析的微博博文影響力實證研究[J];現(xiàn)代情報;2015年02期
2 荀靜;劉培玉;楊玉珍;張艷輝;;基于潛在狄利克雷分布模型的多文檔情感摘要[J];計算機應用;2014年06期
3 唐曉波;房小可;;基于語義查詢擴展的微博檢索[J];情報資料工作;2014年02期
4 黃成;;基于用戶動機的微博客信息流個性化推薦模型構建[J];情報雜志;2013年11期
5 謝浩;孫偉;;基于段落-句子互增強的自動文摘算法[J];計算機科學;2013年S2期
6 宋杰;李甜甜;朱志良;鮑玉斌;于戈;;云數(shù)據(jù)管理系統(tǒng)能耗基準測試與分析[J];計算機學報;2013年07期
7 王旭仁;姚葉鵬;冉春風;何發(fā)鎂;;一種并行LDA主題模型建立方法研究[J];北京理工大學學報;2013年06期
8 王連喜;;微博短文本預處理及學習研究綜述[J];圖書情報工作;2013年11期
9 宋杰;侯泓穎;王智;朱志良;;云計算環(huán)境下改進的能效度量模型[J];浙江大學學報(工學版);2013年01期
10 鄭志嫻;;微博個性化內(nèi)容推薦算法研究[J];電腦開發(fā)與應用;2012年12期
相關碩士學位論文 前2條
1 謝華;基于特征選擇和質(zhì)心構建的文本分類研究[D];大連理工大學;2010年
2 王之鵬;Web文本分類系統(tǒng)中文本預處理技術的研究與實現(xiàn)[D];南京理工大學;2009年
【相似文獻】
相關期刊論文 前10條
1 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻的自動摘要系統(tǒng)的研究與實踐[J];計算機工程;2000年09期
2 李愛紅;試論自動摘要技術[J];圖書情報工作;2000年04期
3 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻自動摘要系統(tǒng)的研究與實踐[J];高技術通訊;2001年09期
4 王彩霞;試論自動摘要技術[J];晉圖學刊;2003年02期
5 張雷生,萬紹俊,許鵬文;簡單中文自動摘要系統(tǒng)研究[J];裝備指揮技術學院學報;2004年03期
6 王建會;周水庚;胡運發(fā);;基于聚類的自動摘要[J];模式識別與人工智能;2004年03期
7 黃水清;李志燕;梁剛;;面向計算機類文獻的自動摘要系統(tǒng)的研究與實現(xiàn)[J];圖書與情報;2006年03期
8 陳珂;殷凡;;中文自動摘要綜述[J];福建電腦;2007年02期
9 李念峰;;基于自動摘要的網(wǎng)絡情報收集系統(tǒng)研究[J];現(xiàn)代情報;2007年11期
10 郭琳虹;張小松;;文本自動摘要的方法研究[J];福建電腦;2008年06期
相關會議論文 前8條
1 章彥星;張銘;鄧志鴻;;基于特征的用戶評論自動摘要[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術的文本自動摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年
3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學術會議論文集[C];2009年
4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動摘要中的應用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年
5 李芳;何婷婷;;面向查詢的多模式自動摘要研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年
6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學術會議論文集(第五分冊)[C];2013年
7 王荀;李素建;宋濤;姜伯平;;服務于內(nèi)容側面發(fā)現(xiàn)的框架識別[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學術會議論文集[C];2009年
相關博士學位論文 前2條
1 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年
2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學技術大學;2006年
相關碩士學位論文 前10條
1 王馨;網(wǎng)絡新聞熱點發(fā)現(xiàn)研究[D];河北大學;2015年
2 李子健;專題摘要自動生成技術研究[D];浙江大學;2015年
3 熊嬌;基于詞項—句子—文檔三層圖模型的多文檔自動摘要[D];江西師范大學;2015年
4 程園;輿情分析中維吾爾文文本自動摘要研究[D];新疆大學;2015年
5 梁入文;基于文本意見挖掘的煙臺大學教學評價系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2015年
6 楊瑞;在線網(wǎng)絡中文本自動摘要系統(tǒng)研究和實現(xiàn)[D];南京航空航天大學;2014年
7 唐亞娟;基于文本挖掘的糧食情報分析技術與系統(tǒng)實現(xiàn)[D];河南工業(yè)大學;2015年
8 董非;基于圖的主觀性多文本自動摘要方法研究和實現(xiàn)[D];上海交通大學;2015年
9 吳燦麗;基于改進HMM下自動摘要的生成[D];浙江理工大學;2017年
10 官宸宇;面向事件的社交媒體文本自動摘要研究[D];武漢大學;2017年
,本文編號:1687000
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1687000.html