一種集群監(jiān)控容錯系統(tǒng)的設計與實現(xiàn)
本文選題:集群 + 監(jiān)控 ; 參考:《電子科技大學》2012年碩士論文
【摘要】:目前,集群技術是當今高性能計算系統(tǒng)的一個重要研究方向,集群系統(tǒng)以其高性價比、高擴展性、高可用性的特點,迅速發(fā)展成為高性能計算的一個重要解決方案,在石油物探行業(yè)得到廣泛應用。 本文所研究的是面向地震數(shù)據(jù)處理的應用集群系統(tǒng),,隨著該集群中節(jié)點的數(shù)目和提交運行的作業(yè)數(shù)目越來越多,集群系統(tǒng)的監(jiān)控和管理成了一個重大問題。伴隨集群系統(tǒng)規(guī)模的不斷擴大,系統(tǒng)發(fā)生故障的概率也隨之增長,加上地震數(shù)據(jù)處理作業(yè)往往數(shù)據(jù)量都很大,作業(yè)執(zhí)行時間也很長,如果發(fā)生故障造成作業(yè)運行失敗,將會浪費大量的系統(tǒng)計算資源和時間資源。因此研究該應用集群系統(tǒng)的容錯技術具有十分重要的意義。 本文研究設計的集群監(jiān)控容錯系統(tǒng)是該地震數(shù)據(jù)處理應用集群系統(tǒng)的重要支持系統(tǒng),是專門針對地震數(shù)據(jù)處理特點開發(fā)的特殊輔助系統(tǒng)。針對上文提出的相關問題,本論文的主要工作包括: 第一,研究了現(xiàn)有的集群監(jiān)控系統(tǒng),設計并實現(xiàn)了面向地震數(shù)據(jù)處理平臺集群系統(tǒng)的監(jiān)控模塊,完成了對整個應用集群系統(tǒng)的監(jiān)控信息的采集、匯聚和顯示等應用的具體實現(xiàn)。監(jiān)控模塊主要包括對集群節(jié)點信息和作業(yè)信息的監(jiān)控,為系統(tǒng)管理員和用戶進行集群管理和監(jiān)控提供了方便。 第二,設計并實現(xiàn)了利用心跳包技術進行節(jié)點故障檢測的集群系統(tǒng)容錯功能,并且針對該地震數(shù)據(jù)處理的具體應用完成了節(jié)點故障后續(xù)處理的相關工作。該集群節(jié)點故障檢測和處理的功能為本文設計的利用應用級作業(yè)檢查點實現(xiàn)作業(yè)故障容錯功能提供了基礎。 第三,在研究現(xiàn)有檢查點技術的基礎上,并且針對地震數(shù)據(jù)處理作業(yè)的特點和地震數(shù)據(jù)處理流程的特殊性,設計并實現(xiàn)了基于地震數(shù)據(jù)單元的應用級作業(yè)檢查點設置與回卷恢復功能,該功能結(jié)合節(jié)點容錯功能,能夠?qū)崿F(xiàn)集群作業(yè)出現(xiàn)故障后的自動容錯。通過實驗測試驗證了該應用級作業(yè)檢查點的可行性,提高了集群系統(tǒng)的可用性,能夠使作業(yè)在遇到故障時從檢查點開始繼續(xù)執(zhí)行作業(yè),減少了作業(yè)重復執(zhí)行時間,避免了系統(tǒng)大量的計算資源和時間的浪費。
[Abstract]:At present, cluster technology is an important research direction of high performance computing system. With its high performance and price ratio, high scalability and high availability, cluster system has rapidly developed into an important solution for high performance computing. It is widely used in petroleum geophysical exploration industry. In this paper, an application cluster system for seismic data processing is studied. With the increasing number of nodes and jobs submitted to run in the cluster, the monitoring and management of cluster system becomes an important problem. With the continuous expansion of cluster system scale, the probability of system failure also increases, plus seismic data processing jobs are often very large data, job execution time is also very long, if failure caused by job failure, Will waste a lot of system computing resources and time resources. Therefore, it is of great significance to study the fault-tolerant technology of this application cluster system. The cluster monitoring and fault tolerant system studied in this paper is an important support system for the seismic data processing application cluster system. It is a special auxiliary system specially developed for the characteristics of seismic data processing. The main work of this paper is as follows: firstly, the existing cluster monitoring system is studied, and the monitoring module for the cluster system of seismic data processing platform is designed and implemented. The collection, aggregation and display of the monitoring information of the whole application cluster system are realized. Monitoring module mainly includes monitoring of cluster node information and job information, which provides convenience for system administrator and user to manage and monitor cluster. Secondly, the fault-tolerant function of cluster system using heartbeat packet technology to detect node fault is designed and implemented, and the related work of node fault follow-up processing is completed for the specific application of the seismic data processing. The function of the cluster node fault detection and processing provides the foundation for the application level job checkpoint to realize the job fault tolerance function designed in this paper. Thirdly, on the basis of studying the existing checkpoint technology, and aiming at the characteristics of seismic data processing and the particularity of seismic data processing process, An application level job checkpoint setting and rollback recovery function based on seismic data unit is designed and implemented. Combined with node fault-tolerant function, the automatic fault tolerance of cluster jobs is realized. The feasibility of the application level job checkpoint is verified by the experimental test, and the availability of the cluster system is improved, and the job can continue to execute from the checkpoint in the event of failure, thus reducing the time of repeated execution of the job. The waste of computing resources and time in the system is avoided.
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP338;TP302.8
【相似文獻】
相關期刊論文 前10條
1 尹國明,張強,朱耀明;CIMS物流系統(tǒng)及其作業(yè)管理[J];物流技術;2005年03期
2 郭改文;趙冰;;校園網(wǎng)格及其作業(yè)服務的研究[J];河南教育學院學報(自然科學版);2006年02期
3 ;日立JP1亮相2009金融展 展示安全高效的作業(yè)管理產(chǎn)品[J];計算機與網(wǎng)絡;2009年17期
4 夏鑫;ABC/ABM與ERP的集成研究[J];中國管理信息化;2005年01期
5 胡瑜,陳濤;專家系統(tǒng)在生產(chǎn)制造系統(tǒng)(MES)中的應用[J];冶金設備;2005年05期
6 郭廣軍;朱昭君;王劍波;;基于SSH架構的課程作業(yè)與成績管理系統(tǒng)[J];微電子學與計算機;2010年08期
7 王中生;錢衛(wèi)平;;基于QoS的網(wǎng)格作業(yè)調(diào)度研究與設計[J];國外電子測量技術;2008年11期
8 謝蕾;謝華;;計算機化制造網(wǎng)格的工作流管理研究[J];制造業(yè)自動化;2010年07期
9 莫曉莉;王汝傳;張琳;;基于移動代理和信任機制的網(wǎng)格作業(yè)管理[J];微電子學與計算機;2008年10期
10 曹榮強;遲學斌;武虹;肖海力;;基于Portlet的高性能計算Portal[J];計算機工程;2009年15期
相關會議論文 前10條
1 吳圯;;中小學教師如何加強學生作業(yè)管理[A];中國當代教育理論文獻——第四屆中國教育家大會成果匯編(上)[C];2007年
2 王永濱;石民勇;洪志國;;網(wǎng)絡環(huán)境下集群渲染技術綜述[A];2008年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2008年
3 葛自敏;;應用作業(yè)成本管理 加強煤炭成本控制[A];煤炭經(jīng)濟管理新論(第10輯)——第十一屆中國煤炭經(jīng)濟管理論壇暨2010年中國煤炭學會經(jīng)濟管理專業(yè)委員會年會論文集[C];2010年
4 楊敏;;論物流活動的作業(yè)分析與管理[A];首屆中國物流學會年會論文集[C];2002年
5 許保光;邢建民;王星原;梅強;;關于航空地面作業(yè)中同工種服務人員的安排問題[A];2003年中國管理科學學術會議論文集[C];2003年
6 郭廣軍;朱昭君;王劍波;;基于SSH架構的課程作業(yè)與成績管理系統(tǒng)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
7 王道堂;;計算機輔助設計中的繪圖作業(yè)管理[A];中國土木工程學會計算機應用學會學術報告會論文集(4)[C];1989年
8 陳娟;王汝傳;;基于移動代理的網(wǎng)格作業(yè)管理模型的研究[A];2005通信理論與技術新進展——第十屆全國青年通信學術會議論文集[C];2005年
9 莫曉莉;王汝傳;張琳;;基于移動代理和信任機制的網(wǎng)格作業(yè)管理[A];2008年全國開放式分布與并行計算機學術會議論文集(下冊)[C];2008年
10 楊繼張;;高性能計算軟硬件技術發(fā)展概述[A];首屆工程設計高性能計算(HPC)技術應用論壇論文集[C];2007年
相關重要報紙文章 前10條
1 呂慧;鑫達冶煉室全封閉改造完成[N];中國黃金報;2010年
2 記者 崔茉 通訊員 盧毅;魯邁拉油田作業(yè)管理權正式移交至ROO[N];中國石油報;2010年
3 王uG;黃金水道尚須精心打磨 參事聚會各陳意見建議[N];聯(lián)合時報;2007年
4 艾文;日立JP1從兩模塊切入[N];中國計算機報;2003年
5 許萍萍;無形文化 有形操作[N];盤錦日報;2009年
6 鵬飛;收銀員的作業(yè)管理[N];中國商報;2002年
7 記者 李颯;加強“三清”作業(yè) 提升保潔水平[N];鐵嶺日報;2010年
8 牡丹江市環(huán)衛(wèi)處 焦慶華;強化科學管理 提升環(huán)境質(zhì)量[N];牡丹江日報;2009年
9 本報記者 那忠郁;現(xiàn)場作業(yè)管理守住安全第1天[N];國家電網(wǎng)報;2010年
10 通訊員 劉振威 高軍;做強自身 聯(lián)手攻關[N];中國石油報;2006年
相關博士學位論文 前8條
1 陳軼西;戰(zhàn)略導向的商業(yè)銀行作業(yè)管理研究[D];暨南大學;2005年
2 方躍;作業(yè)管理新體系的研究[D];哈爾濱工程大學;2001年
3 楊冬菊;異構集群管理系統(tǒng)的關鍵技術研究[D];西北工業(yè)大學;2002年
4 張小芳;大規(guī)模分布式環(huán)境下集群管理系統(tǒng)的研究與實現(xiàn)[D];西北工業(yè)大學;2007年
5 趙晨陽;個性化旅游信息服務系統(tǒng)的基礎理論與關鍵技術研究[D];蘭州大學;2012年
6 劉士軍;制造網(wǎng)格架構與制造資源協(xié)同管理技術研究[D];山東大學;2006年
7 李瑾坤;知識作業(yè)過程及難度描述[D];電子科技大學;2009年
8 顧力剛;VDT作業(yè)及其管理研究[D];華中科技大學;2004年
相關碩士學位論文 前10條
1 張昕瑞;作業(yè)管理及基于作業(yè)的信息系統(tǒng)研究[D];南京航空航天大學;2002年
2 陳英;新課程背景下的優(yōu)化中學作業(yè)管理研究[D];華東師范大學;2005年
3 吳雨淋;網(wǎng)格資源與作業(yè)管理技術的研究[D];西北工業(yè)大學;2005年
4 張旭;企業(yè)作業(yè)成本法研究[D];暨南大學;2005年
5 茍艷潔;網(wǎng)絡作業(yè)管理系統(tǒng)的研究與實現(xiàn)——在Windows 2000平臺上的設計與實現(xiàn)作業(yè)管理與高性能集群計算的結(jié)合研究[D];西北工業(yè)大學;2002年
6 張馨;作業(yè)成本法相關問題的研究[D];天津大學;2007年
7 陳健忠;作業(yè)成本法在國際速遞公司的應用研究[D];暨南大學;2009年
8 許琳紅;作業(yè)成本法在我國商業(yè)銀行的應用分析[D];天津大學;2004年
9 廖艷琳;作業(yè)成本法在電信企業(yè)中的應用研究[D];南京航空航天大學;2006年
10 朱濤;基于ABM-BSC理念的企業(yè)預算管理改進的應用研究[D];電子科技大學;2007年
本文編號:2058298
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2058298.html