基于Hadoop的中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)研究與設(shè)計
發(fā)布時間:2017-12-20 22:08
本文關(guān)鍵詞:基于Hadoop的中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng)研究與設(shè)計 出處:《青島科技大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 中醫(yī)數(shù)據(jù)挖掘并行化 Apriori算法并行化 K近鄰算法 Webservice技術(shù)
【摘要】:現(xiàn)代科學(xué)技術(shù)的進(jìn)步與發(fā)展,加快了醫(yī)學(xué)信息的數(shù)字化,醫(yī)療系統(tǒng)包括中醫(yī)系統(tǒng)也在快速的健全和完備,隨之而來的是中醫(yī)病案數(shù)據(jù)量的急劇突增,如何利用這海量的中醫(yī)藥數(shù)據(jù)來防控疾病,診斷疾病,提供優(yōu)化方案,輔助診治,是當(dāng)前業(yè)內(nèi)專家高度關(guān)注的課題。傳統(tǒng)單機(jī)平臺下對大數(shù)據(jù)集的挖掘處理常受困于數(shù)據(jù)存儲和計算空間不足的窘境,其計算效率無法明顯提高。在此背景下,本文提出了基于Hadoop平臺的兩種中醫(yī)數(shù)據(jù)挖掘方案來處理龐大的中醫(yī)數(shù)據(jù),采用并行化Apriori算法對中藥、癥狀和證型混合數(shù)據(jù)進(jìn)行挖掘;采用并行化K近鄰分類算法對未知的癥狀群進(jìn)行分類,預(yù)測其歸屬證型。同時基于Hadoop平臺搭建了中醫(yī)病案數(shù)據(jù)挖掘系統(tǒng),主要研究內(nèi)容如下。首先對兩種經(jīng)典數(shù)據(jù)挖掘算法進(jìn)行并行化改造,針對Apriori算法并行計算過程中會產(chǎn)生大量鍵值對以及節(jié)點IO頻繁讀寫等不足之處,設(shè)計優(yōu)化方案,借助Hbase存儲中間過程數(shù)據(jù),同時以迭代組合遞歸的方式代替?zhèn)鹘y(tǒng)的自連接方式來產(chǎn)生候選項集,從而有效的提高迭代計算速率,加速頻繁項集的產(chǎn)生;對K近鄰算法進(jìn)行并行化設(shè)計,對癥狀等級量化取值,并歸一化處理,減少由于癥狀域值不同對距離計算的影響,進(jìn)而更加客觀的對癥狀組進(jìn)行分類。然后在搭建好的Hadoop2.0集群中,利用并行化改造后的Apriori算法,對中醫(yī)哮喘病案數(shù)據(jù)進(jìn)行挖掘分析,獲得了中藥配伍規(guī)律、用藥與證型、癥狀的配伍規(guī)律以及癥狀與證型之間關(guān)聯(lián)關(guān)系,同時基于KNN分類算法對癥狀群進(jìn)行預(yù)測歸屬的證型。實驗結(jié)果表明,其挖掘結(jié)果與理論基本匹配,具有一定的實際指導(dǎo)意義。最后系統(tǒng)借助Webservice技術(shù),實現(xiàn)以Hadoop集群作為服務(wù)端,以Swing技術(shù)構(gòu)建客戶端界面進(jìn)行交互的C/S架構(gòu)方案,建立基于Hadoop的中醫(yī)病案挖掘系統(tǒng)。該系統(tǒng)主要集成了集群配置、病案數(shù)據(jù)管理和數(shù)據(jù)挖掘三大功能模塊。通過對系統(tǒng)的各個功能模塊的測試,結(jié)果表明該系統(tǒng)具有良好的交互性和較完備的功能。
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:R249;TP311.13
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張建英;何建成;;大數(shù)據(jù)在中醫(yī)學(xué)中應(yīng)用的可行性分析與展望[J];中華中醫(yī)藥雜志;2017年01期
2 夏中尚;杜正彩;鄧家剛;李楊;韋林W,
本文編號:1313577
本文鏈接:http://www.sikaile.net/shoufeilunwen/mpalunwen/1313577.html
最近更新
教材專著