聚類算法在天文學(xué)中的應(yīng)用
本文選題:數(shù)據(jù)挖掘 + 聚類算法; 參考:《河北師范大學(xué)》2009年碩士論文
【摘要】: 隨著大型光學(xué)望遠(yuǎn)鏡的精度和深度不斷提高,特別是巡天望遠(yuǎn)鏡的發(fā)展,天文光學(xué)波段的數(shù)據(jù)急劇增加,成為探索各類天體和天文現(xiàn)象的物理本質(zhì)的強(qiáng)有力武器。面對天文學(xué)“數(shù)據(jù)雪崩”和“信息爆炸”時(shí)代的到來,為了解決天文數(shù)據(jù)的復(fù)雜性、非線性、海量性和多波段性等一系列問題,借助數(shù)據(jù)挖掘技術(shù)來探索隱藏在數(shù)據(jù)中的有用信息勢在必行。在此背景下,如何迅速準(zhǔn)確地從這些海量數(shù)據(jù)中挖掘出所需要的信息,已成為天文學(xué)觀測和數(shù)據(jù)處理的一個(gè)關(guān)鍵問題,直接影響著天文學(xué)發(fā)展和研究進(jìn)程。本文利用一些適合于天文數(shù)據(jù)特點(diǎn)的數(shù)據(jù)挖掘技術(shù)和方法,主要是利用聚類算法對天體的自動(dòng)分類和尋找出特殊天體的任務(wù)。工作主要包括以下三部分: (1)基于自動(dòng)聚類算法的恒星/星系分類 自動(dòng)聚類算法(AutoClass)是基于貝葉斯模型確定最優(yōu)類別的經(jīng)典混合模型的非監(jiān)督聚類方法。它對處理非線性和高維數(shù)據(jù)有很高的效率。應(yīng)用AutoClass對SDSS巡天的恒星/星系進(jìn)行自動(dòng)分類,根據(jù)點(diǎn)源和展源的不同特征表現(xiàn),選擇使用了PSF(pointspread function,點(diǎn)擴(kuò)散函數(shù))星等和模型星等在五個(gè)波段的差值作為輸入?yún)?shù),并設(shè)置了合適的標(biāo)準(zhǔn),從而獲得合理的分類結(jié)果,對恒星和星系的分類正確率分別達(dá)到了99.51%和98.52%,表明AutoClass算法對此類數(shù)據(jù)聚類有很好的效率。 (2) SDSS巡天的恒星樣本探索 目的是探索SDSS恒星樣本,找出其中的非恒星天體或特殊天體,從而建立一個(gè)純的恒星樣本。我們對SDSS巡天中具有光譜觀測的恒星的測光數(shù)據(jù)應(yīng)用AutoClass進(jìn)行聚類分析,得到991個(gè)離群天體。然后將這些離群數(shù)據(jù)在NED和SIMBAD中認(rèn)證,對于已證認(rèn)的,發(fā)現(xiàn)它們絕大多數(shù)屬于特殊天體,準(zhǔn)確率高達(dá)90.7%,而對于未證認(rèn)的,希望在更大口徑更高精度的望遠(yuǎn)鏡中證認(rèn),或許會(huì)發(fā)現(xiàn)一些有趣的天體或現(xiàn)象。 (3)星系形態(tài)分類 星系是構(gòu)成宇宙的組成單元,而形態(tài)是它的基本特性。星系形態(tài)的研究是理解星系物理屬性的首要步驟。這里根據(jù)天文學(xué)的任務(wù)將星系分成早型星系和晚型星系兩類。應(yīng)用SDSS巡天的星系測光數(shù)據(jù),基于五個(gè)星等和四個(gè)顏色的多組參數(shù),參考不同的分類標(biāo)準(zhǔn),研究了將AutoClass和k-means兩種算法用于星系形態(tài)的自動(dòng)分類。研究結(jié)果表明不論對AutoClass還是k-means而言,發(fā)現(xiàn)基于顏色的分類效果明顯高于基于星等的效果;AutoClass和k-means的分類效率相當(dāng);與單純地基于單參數(shù)的星系分類相比,自動(dòng)化算法具有高效性、靈活性、能夠處理高維數(shù)據(jù)等優(yōu)點(diǎn)。在數(shù)據(jù)日益豐富的時(shí)代,自動(dòng)化聚類算法將越來越顯示出其優(yōu)越性。
[Abstract]:With the continuous improvement of the precision and depth of large optical telescopes, especially the development of the Sky Survey Telescope, the data of astronomical optical band increase rapidly, and become a powerful weapon to explore the physical essence of various celestial bodies and astronomical phenomena. In the face of the advent of the age of "data avalanche" and "information explosion" in astronomy, in order to solve a series of problems such as complexity, nonlinearity, magnanimity and multi-band characteristics of astronomical data, It is imperative to explore useful information hidden in data by means of data mining technology. In this context, how to quickly and accurately extract the needed information from these massive data has become a key problem in astronomical observation and data processing, which directly affects the development and research process of astronomy. In this paper, some data mining techniques and methods suitable for astronomical data characteristics are used, mainly the automatic classification of celestial bodies and the task of finding special celestial bodies by clustering algorithm. The main work includes the following three parts: (1) the automatic star / galaxy classification clustering algorithm based on automatic clustering algorithm (AutoClass) is a classical algorithm based on Bayesian model to determine the optimal classification. Unsupervised clustering method for mixed models. It has high efficiency in dealing with nonlinear and high dimensional data. Using AutoClass to classify the stars / galaxies of SDSs, according to the different characteristics of point source and spread source, the difference between the PSF (pointspread function, point diffusion function and the model magnitude in five bands is selected as the input parameter. And set the appropriate criteria to obtain reasonable classification results, The classification accuracy of stars and galaxies is 99.51% and 98.52% respectively, which indicates that AutoClass algorithm is efficient for this kind of data clustering. (2) the purpose of star sample exploration in SDSS survey is: Explore SDSS stellar samples, A pure sample of stars is established by identifying the non-stellar objects or special objects. We use AutoClass to cluster the photometric data of stars with spectral observations during the SDSS survey and obtain 991 outliers. These outliers are then authenticated in NED and SIMBAD, and for those that have been identified, most of them are found to be special objects, and the accuracy is as high as 90.7, while for those that are not identified, they want to be identified in telescopes with a larger aperture and higher accuracy. Some interesting celestial bodies or phenomena may be found. (3) Galaxy morphological classification galaxies are the constituent units of the universe and form is its basic characteristic. The study of galactic morphology is the first step in understanding the physical properties of galaxies. Galaxies are divided into early and late galaxies according to astronomical tasks. In this paper, the automatic classification of galactic morphology is studied by using SDSS-survey data, based on the parameters of five star sizes and four colors, and referring to different classification criteria. The two algorithms, AutoClass and k-means, are applied to the automatic classification of galactic morphology. The results show that for both AutoClass and k-means, the classification effect based on color is significantly higher than that based on magnitude. The classification efficiency of AutoClass and k-means is similar to that of autoClass and k-means, and the automatic algorithm is more efficient than the classification based on single parameter. Flexibility, the ability to handle high-dimensional data and other advantages. In the era of increasingly abundant data, the automatic clustering algorithm will show more and more advantages.
【學(xué)位授予單位】:河北師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2009
【分類號】:P152
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 嚴(yán)麗平;;基于數(shù)據(jù)挖掘的電信客戶細(xì)分模型的分析與設(shè)計(jì)[J];科技廣場;2007年05期
2 張維化;楊國林;;數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)抽取中的研究與應(yīng)用[J];內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版);2008年04期
3 許雪貴;;基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J];紹興文理學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年04期
4 郭麗蓉;陳立潮;葉樹華;;數(shù)據(jù)挖掘技術(shù)在入侵檢測中的應(yīng)用[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2006年24期
5 王鶴;;基于信息素的蟻群聚類算法[J];中國科技信息;2007年15期
6 李燕;;蟻群聚類算法研究現(xiàn)狀的分析[J];中國科技信息;2009年09期
7 史小松;黃勇杰;劉永革;;數(shù)據(jù)挖掘技術(shù)中聚類的幾種常用方法比較[J];中國科技信息;2009年20期
8 邢培;;數(shù)據(jù)挖掘的主要技術(shù)——聚類[J];科技信息;2010年20期
9 周穎;呂巍;井淼;;基于數(shù)據(jù)挖掘技術(shù)的移動(dòng)通信行業(yè)客戶細(xì)分[J];上海交通大學(xué)學(xué)報(bào);2007年07期
10 嚴(yán)仍榮;;數(shù)值型關(guān)聯(lián)規(guī)則挖掘在客戶關(guān)系管理中的應(yīng)用[J];皖西學(xué)院學(xué)報(bào);2007年05期
相關(guān)會(huì)議論文 前10條
1 馬洪杰;曲曉飛;;數(shù)據(jù)挖掘技術(shù)和過程的特點(diǎn)[A];面向21世紀(jì)的科技進(jìn)步與社會(huì)經(jīng)濟(jì)發(fā)展(上冊)[C];1999年
2 戈欣;吳曉芬;許建榮;;數(shù)據(jù)挖掘技術(shù)在放射科醫(yī)療管理中的潛在作用[A];2009中華醫(yī)學(xué)會(huì)影像技術(shù)分會(huì)第十七次全國學(xué)術(shù)大會(huì)論文集[C];2009年
3 宿愛霞;林滿山;;淺析數(shù)據(jù)挖掘技術(shù)在鋁電解槽槽況確定中的方法研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會(huì)議論文集(上冊)[C];2007年
4 魏昕路;洪志令;姜青山;;一種基于樣本縮減策略的新窗口式聚類算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
5 金妮;;一種基于數(shù)據(jù)倉庫和OLAP技術(shù)的聚類挖掘系統(tǒng)[A];中國儀器儀表學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2007年
6 魏元珍;楊沂鳳;;數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館中的應(yīng)用[A];網(wǎng)絡(luò)信息資源的搜集與應(yīng)用——全國高校社科信息資料研究會(huì)第十次年會(huì)論文集[C];2004年
7 肖健;沈彩霞;;淺談數(shù)據(jù)挖掘技術(shù)現(xiàn)狀[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
8 鞏耀亮;邱曉東;孫麗君;李樹強(qiáng);;數(shù)據(jù)挖掘技術(shù)在企業(yè)競爭情報(bào)系統(tǒng)中的應(yīng)用研究[A];信息時(shí)代——科技情報(bào)研究學(xué)術(shù)論文集(第三輯)[C];2008年
9 王守強(qiáng);朱大銘;史士英;;基于輸入點(diǎn)集求解k-Means聚類算法[A];第二十六屆中國控制會(huì)議論文集[C];2007年
10 李政濤;夏樹倩;王大玲;馮時(shí);張一飛;;一種基于語義引力及密度分布的聚類算法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 陳曉 山西財(cái)經(jīng)大學(xué)教師;數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[N];山西經(jīng)濟(jì)日報(bào);2010年
2 記者 呂賢如;大力加強(qiáng)數(shù)據(jù)挖掘技術(shù)研究應(yīng)用[N];光明日報(bào);2006年
3 主持人 李禾;數(shù)據(jù)挖掘技術(shù)如何驅(qū)動(dòng)經(jīng)濟(jì)車輪[N];科技日報(bào);2007年
4 首之;數(shù)據(jù)挖掘并不神秘[N];金融時(shí)報(bào);2006年
5 劉紅巖、何軍;利用數(shù)據(jù)挖掘技術(shù)獲得商業(yè)智能[N];中國計(jì)算機(jī)報(bào);2003年
6 ;IBM公司推出新型數(shù)據(jù)挖掘技術(shù)[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2001年
7 徐揚(yáng);如何從數(shù)據(jù)中“擠出”效益[N];中國計(jì)算機(jī)報(bào);2002年
8 山西銀行學(xué)校 王林芳;數(shù)據(jù)挖掘在銀行業(yè)務(wù)中的應(yīng)用[N];山西科技報(bào);2005年
9 任中華;財(cái)務(wù)數(shù)據(jù)挖掘六步走[N];中國計(jì)算機(jī)報(bào);2007年
10 ;數(shù)據(jù)挖掘阻止銀行客戶流失[N];計(jì)算機(jī)世界;2007年
相關(guān)博士學(xué)位論文 前10條
1 許增福;DL環(huán)境下的信息資源管理及知識發(fā)現(xiàn)研究[D];哈爾濱工程大學(xué);2005年
2 龐淑英;三江并流帶旅游地質(zhì)景觀數(shù)據(jù)挖掘及旅游價(jià)值評價(jià)研究[D];昆明理工大學(xué);2008年
3 趙晨;過程控制中的數(shù)據(jù)挖掘技術(shù)研究及其智能控制策略探討[D];浙江大學(xué);2005年
4 高清東;復(fù)雜供礦條件礦山技術(shù)指標(biāo)整體動(dòng)態(tài)優(yōu)化系統(tǒng)及應(yīng)用[D];北京科技大學(xué);2005年
5 李興;高光譜數(shù)據(jù)庫及數(shù)據(jù)挖掘研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2006年
6 王玉峰;變電站瞬態(tài)電磁環(huán)境及微機(jī)保護(hù)系統(tǒng)EMC研究[D];大連理工大學(xué);2007年
7 潘海天;數(shù)據(jù)挖掘技術(shù)在聚合過程建模與控制的應(yīng)用研究[D];浙江大學(xué);2003年
8 程其云;基于數(shù)據(jù)挖掘的電力短期負(fù)荷預(yù)測模型及方法的研究[D];重慶大學(xué);2004年
9 束志恒;化學(xué)化工數(shù)據(jù)挖掘技術(shù)的研究[D];浙江大學(xué);2005年
10 孫蕾;醫(yī)學(xué)圖像智能挖掘關(guān)鍵技術(shù)研究[D];西北大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 鄭仁毅;基于數(shù)據(jù)挖掘技術(shù)的入侵檢測系統(tǒng)研究與設(shè)計(jì)[D];廈門大學(xué);2007年
2 馬俊賢;數(shù)據(jù)挖掘算法在人才測評中的研究與應(yīng)用[D];中北大學(xué);2008年
3 孫業(yè)勤;基于數(shù)據(jù)分區(qū)的密度聚類算法應(yīng)用研究[D];大連理工大學(xué);2008年
4 尚俊平;基于距離的聚類和孤立點(diǎn)檢測算法研究[D];鄭州大學(xué);2005年
5 齊先鋒;數(shù)據(jù)挖掘在電信企業(yè)客戶細(xì)分中的應(yīng)用研究[D];江西理工大學(xué);2007年
6 金萍;調(diào)整學(xué)習(xí)聚類算法的研究[D];合肥工業(yè)大學(xué);2008年
7 李淵;基于K-means算法的數(shù)據(jù)挖掘可視化技術(shù)的應(yīng)用研究[D];北京交通大學(xué);2008年
8 童剛;數(shù)據(jù)挖掘在證券客戶關(guān)系管理中的應(yīng)用與實(shí)現(xiàn)[D];電子科技大學(xué);2007年
9 陳小輝;基于數(shù)據(jù)挖掘的入侵檢測技術(shù)研究[D];南京理工大學(xué);2008年
10 黎慧娟;校園網(wǎng)用戶行為的分析與研究[D];廣西大學(xué);2007年
,本文編號:2055190
本文鏈接:http://www.sikaile.net/kejilunwen/tianwen/2055190.html