基于PCA-集成學(xué)習(xí)的甲狀腺結(jié)節(jié)輔助診斷決策研究
發(fā)布時間:2021-08-12 00:38
甲狀腺癌是人體內(nèi)分泌系統(tǒng)中患病率最高的疾病之一,近年來發(fā)病率逐年上升。超聲檢查可以識別觸診較難發(fā)現(xiàn)的甲狀腺結(jié)節(jié)可疑病灶,是實現(xiàn)早期甲狀腺癌篩查的有效手段。醫(yī)院超聲科信息系統(tǒng)中儲存了大量的甲狀腺患者就診數(shù)據(jù),蘊藏著豐富的醫(yī)療信息。通過科學(xué)的方法對超聲科甲狀腺數(shù)據(jù)進行挖掘與分析,獲取有效信息,對輔助醫(yī)生提高診斷精確性具有重要的現(xiàn)實意義。本研究面向甲狀腺結(jié)節(jié)輔助診斷決策問題,基于合作醫(yī)院信息系統(tǒng)中的甲狀腺超聲數(shù)據(jù),以輔助醫(yī)生提高對甲狀腺結(jié)節(jié)良惡性診斷的精度和效率為目標(biāo),研究內(nèi)容主要包括以下幾點。首先,基于超聲科甲狀腺數(shù)據(jù),結(jié)合醫(yī)生專業(yè)知識對原始數(shù)據(jù)進行預(yù)處理得到標(biāo)準(zhǔn)有效數(shù)據(jù),并從整體描述、單個指標(biāo)與病理結(jié)果、多個指標(biāo)與病理結(jié)果、指標(biāo)與指標(biāo)四個維度對甲狀腺有效數(shù)據(jù)進行綜合分析,初步了解甲狀腺數(shù)據(jù)特點。其次,根據(jù)甲狀腺數(shù)據(jù)特點,使用PCA消除甲狀腺指標(biāo)間的相關(guān)性并降低輸入項的維度,并使用個體分類器與集成學(xué)習(xí)算法對比,從二分類和多分類相結(jié)合的角度,提出基于PCA-集成學(xué)習(xí)的甲狀腺結(jié)節(jié)輔助診斷模型。最后,基于甲狀腺有效數(shù)據(jù),從分類效果和運算效率兩個角度,對邏輯回歸、支持向量機、K近鄰法、決策樹、隨機...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【圖文】:
論文主要內(nèi)容框架圖
第二章研究基礎(chǔ)與相關(guān)理論82.2.1邏輯回歸算法Martin于1977年首次使用邏輯回歸(LogisticRegression,LR)模型對58家金融危機公司進行財務(wù)預(yù)警[52]。LR屬于最優(yōu)化算法,它預(yù)測因變量發(fā)生的概率,通過區(qū)分預(yù)測的概率達(dá)到分類的效果[53]。當(dāng)因變量是二分類問題時,通常采用二元LR。采用二元LR時,通常設(shè)因變量Y只有兩個狀態(tài),分別用0和1表示,則因變量Y發(fā)生的概率p=P(Y=1)。假設(shè)有k個影響Y取值的影響因素,分別為x0,x1,…,xk,并且p的取值始終在0到1之間,由此可構(gòu)造sigmoid函數(shù):11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知參數(shù),z是關(guān)于x的表達(dá)式,由此可得LR函數(shù)為:0111kkplnxxp(2.3)sigmoid函數(shù)的曲線圖如圖2.1所示,當(dāng)x等于0時,函數(shù)值等于0.5;隨著x的減小,函數(shù)值減小且無限趨近于0;隨著x的增大,函數(shù)的值增加并無限趨近于1[54]。圖2.1sigmoid函數(shù)曲線圖Fig2.1Graphofsigmoidfunction根據(jù)式2.3可知,LR函數(shù)中含有未知參數(shù)β0,β1,…,βk,可以使用極大似然值法求解未知參數(shù)。設(shè)y是0-1類型的二分類變量,x0,x1,…,xk是與y相關(guān)的變量,n組觀測的數(shù)據(jù)為(xi1,xi2,…,xik;yi)(i=1,2,…n),則yi與xi1,xi2,…,xik的關(guān)系可以表達(dá)為:
第二章研究基礎(chǔ)與相關(guān)理論10哪個類別的元素最多,由此將xq分入所屬類別最多的類。根據(jù)以上操作過程可知,執(zhí)行KNN算法時關(guān)鍵的三點分別為:K值的選擇、距離的計算以及分類規(guī)則的制定。在實際工作中,K值選擇可使用交叉驗證來進行優(yōu)化,計算距離可使用歐氏距離、曼哈頓距離等,分類規(guī)則的設(shè)置時可采用平均加權(quán)法或其他權(quán)重調(diào)配方法。KNN算法操作簡單、分類效果較好,而且最突出的特點是不需要預(yù)計參數(shù),也不需要訓(xùn)練,因此運算效率較高。2.2.4決策樹算法決策樹是一種以樹的結(jié)構(gòu)將展現(xiàn)分類過程的個體學(xué)習(xí)器算法,在分類和回歸問題中有廣泛的應(yīng)用,其目標(biāo)是建立一個可以預(yù)測目標(biāo)變量的類或值的訓(xùn)練模型,與其他分類算法相比。決策樹通過樹的形式來解決問題,樹內(nèi)的每個節(jié)點表示一個屬性,每個葉節(jié)點表示一類標(biāo)簽。采用自上而下的遞歸方式,在決策樹的內(nèi)部節(jié)點比較屬性值,并根據(jù)不同屬性判斷從該節(jié)點下的分支方向,最后在葉節(jié)點得到結(jié)論。圖2.2為決策樹的運算示意圖。圖2.2決策樹結(jié)構(gòu)示意圖Fig2.2Structurediagramofdecisiontree決策樹的預(yù)測方面功能強大,常作為集成學(xué)習(xí)的弱學(xué)習(xí)器,目前比較常用的有ID3、C4.5、CART、SLIQ、SPRINT等。決策樹通過樹的形式展現(xiàn)運算過程,因此具有一定的可解釋性。2.3集成學(xué)習(xí)以上是個體分類器算法,在實際應(yīng)用中常用集成學(xué)習(xí)(EnsembleLearning)解決復(fù)雜問題。集成學(xué)習(xí)可分為同質(zhì)集成和異質(zhì)集成,同質(zhì)集成通常使用一個弱分類器做集成,對應(yīng)的異質(zhì)集成則采用多個學(xué)習(xí)器。隨著弱學(xué)習(xí)器的增加,集成學(xué)習(xí)
【參考文獻】:
期刊論文
[1]甲狀腺結(jié)節(jié)和分化型甲狀腺癌診治指南[J]. 中華內(nèi)分泌代謝雜志. 2012 (10)
[2]主成分分析原始數(shù)據(jù)的預(yù)處理問題[J]. 萬星火,檀亦麗. 中國衛(wèi)生統(tǒng)計. 2005(05)
[3]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學(xué). 2000(04)
博士論文
[1]基于電子病歷數(shù)據(jù)的臨床決策支持研究[D]. 王昱.浙江大學(xué) 2016
碩士論文
[1]面向臨床決策支持的貝葉斯網(wǎng)絡(luò)醫(yī)囑推薦方法研究[D]. 劉文洋.北京理工大學(xué) 2016
[2]基于隨機森林的指數(shù)化投資組合構(gòu)建研究[D]. 韓燕龍.華南理工大學(xué) 2015
[3]術(shù)前血清促甲狀腺激素水平與分化型甲狀腺癌的發(fā)病風(fēng)險[D]. 王方梅.上海交通大學(xué) 2014
[4]基于人工智能機器學(xué)習(xí)的文字識別方法研究[D]. 李雷.電子科技大學(xué) 2013
本文編號:3337219
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【圖文】:
論文主要內(nèi)容框架圖
第二章研究基礎(chǔ)與相關(guān)理論82.2.1邏輯回歸算法Martin于1977年首次使用邏輯回歸(LogisticRegression,LR)模型對58家金融危機公司進行財務(wù)預(yù)警[52]。LR屬于最優(yōu)化算法,它預(yù)測因變量發(fā)生的概率,通過區(qū)分預(yù)測的概率達(dá)到分類的效果[53]。當(dāng)因變量是二分類問題時,通常采用二元LR。采用二元LR時,通常設(shè)因變量Y只有兩個狀態(tài),分別用0和1表示,則因變量Y發(fā)生的概率p=P(Y=1)。假設(shè)有k個影響Y取值的影響因素,分別為x0,x1,…,xk,并且p的取值始終在0到1之間,由此可構(gòu)造sigmoid函數(shù):11zpe(2.1)011kkzxx(2.2)其中β0,β1,…,βk是未知參數(shù),z是關(guān)于x的表達(dá)式,由此可得LR函數(shù)為:0111kkplnxxp(2.3)sigmoid函數(shù)的曲線圖如圖2.1所示,當(dāng)x等于0時,函數(shù)值等于0.5;隨著x的減小,函數(shù)值減小且無限趨近于0;隨著x的增大,函數(shù)的值增加并無限趨近于1[54]。圖2.1sigmoid函數(shù)曲線圖Fig2.1Graphofsigmoidfunction根據(jù)式2.3可知,LR函數(shù)中含有未知參數(shù)β0,β1,…,βk,可以使用極大似然值法求解未知參數(shù)。設(shè)y是0-1類型的二分類變量,x0,x1,…,xk是與y相關(guān)的變量,n組觀測的數(shù)據(jù)為(xi1,xi2,…,xik;yi)(i=1,2,…n),則yi與xi1,xi2,…,xik的關(guān)系可以表達(dá)為:
第二章研究基礎(chǔ)與相關(guān)理論10哪個類別的元素最多,由此將xq分入所屬類別最多的類。根據(jù)以上操作過程可知,執(zhí)行KNN算法時關(guān)鍵的三點分別為:K值的選擇、距離的計算以及分類規(guī)則的制定。在實際工作中,K值選擇可使用交叉驗證來進行優(yōu)化,計算距離可使用歐氏距離、曼哈頓距離等,分類規(guī)則的設(shè)置時可采用平均加權(quán)法或其他權(quán)重調(diào)配方法。KNN算法操作簡單、分類效果較好,而且最突出的特點是不需要預(yù)計參數(shù),也不需要訓(xùn)練,因此運算效率較高。2.2.4決策樹算法決策樹是一種以樹的結(jié)構(gòu)將展現(xiàn)分類過程的個體學(xué)習(xí)器算法,在分類和回歸問題中有廣泛的應(yīng)用,其目標(biāo)是建立一個可以預(yù)測目標(biāo)變量的類或值的訓(xùn)練模型,與其他分類算法相比。決策樹通過樹的形式來解決問題,樹內(nèi)的每個節(jié)點表示一個屬性,每個葉節(jié)點表示一類標(biāo)簽。采用自上而下的遞歸方式,在決策樹的內(nèi)部節(jié)點比較屬性值,并根據(jù)不同屬性判斷從該節(jié)點下的分支方向,最后在葉節(jié)點得到結(jié)論。圖2.2為決策樹的運算示意圖。圖2.2決策樹結(jié)構(gòu)示意圖Fig2.2Structurediagramofdecisiontree決策樹的預(yù)測方面功能強大,常作為集成學(xué)習(xí)的弱學(xué)習(xí)器,目前比較常用的有ID3、C4.5、CART、SLIQ、SPRINT等。決策樹通過樹的形式展現(xiàn)運算過程,因此具有一定的可解釋性。2.3集成學(xué)習(xí)以上是個體分類器算法,在實際應(yīng)用中常用集成學(xué)習(xí)(EnsembleLearning)解決復(fù)雜問題。集成學(xué)習(xí)可分為同質(zhì)集成和異質(zhì)集成,同質(zhì)集成通常使用一個弱分類器做集成,對應(yīng)的異質(zhì)集成則采用多個學(xué)習(xí)器。隨著弱學(xué)習(xí)器的增加,集成學(xué)習(xí)
【參考文獻】:
期刊論文
[1]甲狀腺結(jié)節(jié)和分化型甲狀腺癌診治指南[J]. 中華內(nèi)分泌代謝雜志. 2012 (10)
[2]主成分分析原始數(shù)據(jù)的預(yù)處理問題[J]. 萬星火,檀亦麗. 中國衛(wèi)生統(tǒng)計. 2005(05)
[3]數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J]. 劉明吉,王秀峰,黃亞樓. 計算機科學(xué). 2000(04)
博士論文
[1]基于電子病歷數(shù)據(jù)的臨床決策支持研究[D]. 王昱.浙江大學(xué) 2016
碩士論文
[1]面向臨床決策支持的貝葉斯網(wǎng)絡(luò)醫(yī)囑推薦方法研究[D]. 劉文洋.北京理工大學(xué) 2016
[2]基于隨機森林的指數(shù)化投資組合構(gòu)建研究[D]. 韓燕龍.華南理工大學(xué) 2015
[3]術(shù)前血清促甲狀腺激素水平與分化型甲狀腺癌的發(fā)病風(fēng)險[D]. 王方梅.上海交通大學(xué) 2014
[4]基于人工智能機器學(xué)習(xí)的文字識別方法研究[D]. 李雷.電子科技大學(xué) 2013
本文編號:3337219
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3337219.html
最近更新
教材專著