基于文本挖掘的在線煤礦事故案例分類方法研究
發(fā)布時間:2020-07-29 21:23
【摘要】:信息技術(shù)的快速發(fā)展,促使煤礦企業(yè)積累了大量煤礦數(shù)據(jù)資源。閱讀煤礦數(shù)據(jù)挖掘相關(guān)文獻可以發(fā)現(xiàn):當前煤礦數(shù)據(jù)挖掘?qū)ο笾饕性陔[患數(shù)據(jù)、監(jiān)測數(shù)據(jù),而對在線煤礦事故案例的研究較少,造成數(shù)據(jù)資源的浪費。在線煤礦事故案例作為對事故時間、原因等多個方面總結(jié)的非結(jié)構(gòu)化數(shù)據(jù),在處理的過程中具有一定的難度。但是,數(shù)據(jù)內(nèi)部包含的信息對于煤礦安全生產(chǎn)、安全管理具有重要意義。因此,本論文選取在線煤礦事故案例作為研究對象,構(gòu)建煤礦事故案例自動分類模型,挖掘煤礦事故案例中包含的信息。本論文為了研究在線煤礦事故案例自動分類方法,對相關(guān)理論技術(shù)進行研究。常見的文本表示模型為基于統(tǒng)計語言的詞袋模型、Tf-idf模型表示方法。W-ord2-vec作為基于神經(jīng)網(wǎng)絡(luò)語言的文本表示方法,能夠?qū)⒅形奈臋n中的詞語轉(zhuǎn)換成詞語向量。為了構(gòu)建自動分類模型,本論文對Word2vec進行改進,將輸出的詞語向量轉(zhuǎn)換成文檔向量,實現(xiàn)中文文本數(shù)據(jù)到計算機語言的轉(zhuǎn)換。支持向量機分類器的分類效果受到參數(shù)的影響,為了選用最優(yōu)模型參數(shù)構(gòu)建分類模型,本論文將網(wǎng)格法與支持向量機結(jié)合構(gòu)建cgSVM分類模型,運用cgSVM實現(xiàn)在線煤礦事故案例自動分類。為了研究在線煤礦事故案例自動分類方法,將3種文本表示方法與不同分類器進行結(jié)合共構(gòu)建word-SVM,word-Mul-NB,word-DTC,Tf-idf-SVM,Tf-idf-MulNB,Tf-idf-DTC,Word2vec-SVM,Word2vec-cgSVM8 種文本自動分類模型。比較煤礦監(jiān)測網(wǎng)以及煤礦安全網(wǎng)網(wǎng)站中與煤礦事故案例相關(guān)的內(nèi)容,爬取煤礦安全網(wǎng)對應(yīng)的煤礦事故案例作為實驗數(shù)據(jù)驗證自動分類模型的性能。從比較模型的預(yù)測值與實際值以及性能評價指標值兩個方面評價8種模型的分類效果。得出Word2vec-cgSVM模型的預(yù)測結(jié)果與實際值更加接近的結(jié)論,對應(yīng)的精確率、召回率、fl-score 分別為 0.977、0.976、0.976。通過研究,本論文構(gòu)建了煤礦事故案例自動分類模型,經(jīng)過模型性能分析得出構(gòu)建的Word2vec-cgSVM對在線煤礦事故案例分類的精確率能夠達到97.7%。將Word2vec-cgSVM自動分類模型運用到在線煤礦事故案例分類中,能夠節(jié)約分類的人力、時間,對提高企業(yè)的分類效率具有實際意義。對Word2vec和支持向量機進行改進,提出了改進的Word2vec和cgSVM模型,豐富了文本表示和文本分類模型,對后續(xù)的中文文本分類研究具有理論意義。圖14 表17 參67
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TD79
【圖文】:
處理后應(yīng)用到對已經(jīng)構(gòu)建的自動分類模型的性能驗證、分析中。分析模型性能,逡逑選取性能較好的模型運用到煤礦事故案例自動分類中。具體實驗和本文研宄的過逡逑程如圖1-2的技術(shù)路線圖所示。逡逑-6邋-逡逑
分類模型構(gòu)建以及根據(jù)分類結(jié)果的評價指標對己經(jīng)構(gòu)建的模型性能進行逡逑評價等一系列過程。在了解了文本分類從數(shù)學(xué)角度的定義以及文本分類的運用領(lǐng)逡逑域之后,本研宄對文本數(shù)據(jù)分類的整個流程進行了梳理,具體的流程如圖2-1所逡逑示。觀察圖2-1能夠發(fā)現(xiàn),文本分類由兩個部分組成。分別為將文本數(shù)據(jù)進行一逡逑系列處理之后,通過訓(xùn)練特征,使用特定的算法進行模型構(gòu)建以及使用測試集樣逡逑本數(shù)據(jù)對模型的性能進行評價兩個部分。因此,模型構(gòu)建的成功與否需要根據(jù)性逡逑能分析結(jié)果進行評價。逡逑r邐1逡逑!邋,邐^邐丨分類算丨!逡逑|邋口訓(xùn)練標簽邐1邐^法模型邐!逡逑!邋I邐y邐(S\TH,邐!逡逑i邋邐7邐rr^n邐支持向逡逑丨邐1U邐1邐量機,隨逡逑i邋L訓(xùn)練文檔邐f邋?邐|訓(xùn)練邐機森林逡逑I邋1邐(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1邐邐邐逡逑!邋邐7邐5邋表邐 ̄ ̄ ̄逡逑I邋—運^i]邐I逡逑!邋[邋邐邐邋j,邋丨邋i逡逑;L測試文a邐J邋1邐?涯性能評估.邐[1sE囩果邋^邋!逡逑圖2-1文本分類模型構(gòu)建流程圖逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本數(shù)據(jù)處理逡逑數(shù)據(jù)分類效果的優(yōu)劣主要取決于樣本數(shù)據(jù)的質(zhì)量
圖2-2分類算法和回歸算法模型結(jié)構(gòu)逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑觀察圖2-2中繪制的分類、回歸模型能夠發(fā)現(xiàn)兩者存在本質(zhì)的區(qū)別。分類模逡逑型的主要思想為:尋找一條線或者平面區(qū)分樣本中的不同的樣本類別。逡逑Classification模型中實心圓和實心三角形分別代表樣本數(shù)據(jù)中對應(yīng)的兩個類別。逡逑回歸的主要思想:求取一條線或者二次曲線等對樣本數(shù)據(jù)進行擬合,使得樣本數(shù)逡逑據(jù)盡可能多的分布在求取的線上。Regression模型中表示數(shù)據(jù)集中的樣本數(shù)據(jù)。逡逑為了展示回歸分析和分類問題在數(shù)據(jù)類型、應(yīng)用和對應(yīng)算法之間的差異,將分類逡逑算法與回歸算法進行匯總,詳細結(jié)果如表2-4。逡逑表2>4回歸與分類算法比較逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑數(shù)據(jù)類型邐應(yīng)用邐對應(yīng)算法邐—逡逑樣本數(shù)據(jù)中給定的娜立圾郵件以及邏輯回歸、決策樹、逡逑回歸分析邐輸出變量的為離散樸素貝葉斯算法、支逡逑榐的~忓緯窒蛄炕儒義戲擲轡侍忮窩臼葜惺涑霰浞考、税务、产屏Pゅ沃С窒蛄炕儒義希掊瘟課當淞垮我舛仍げ獾儒義希玻矗逼鈾乇匆端狗擲嗥麇義媳匆端估礪凼怯⒐Ъ冶匆端褂冢保罰叮襯晏岢齙,秵T匆端雇臣評礪垡約板義賢臣仆貧系染鞒雋司藪蟮墓畢祝永礪凵俠唇,贝叶斯赖Z壑傅氖竊諞桓鍪錄義戲⑸那疤嵯攏硪桓鍪錄餐狽⑸目贍芐雜卸啻螅雜Φ氖П澩鍤餃縭藉義希玻乘盡e義廈麇問劍玻沖義鮮劍玻持
本文編號:2774510
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TD79
【圖文】:
處理后應(yīng)用到對已經(jīng)構(gòu)建的自動分類模型的性能驗證、分析中。分析模型性能,逡逑選取性能較好的模型運用到煤礦事故案例自動分類中。具體實驗和本文研宄的過逡逑程如圖1-2的技術(shù)路線圖所示。逡逑-6邋-逡逑
分類模型構(gòu)建以及根據(jù)分類結(jié)果的評價指標對己經(jīng)構(gòu)建的模型性能進行逡逑評價等一系列過程。在了解了文本分類從數(shù)學(xué)角度的定義以及文本分類的運用領(lǐng)逡逑域之后,本研宄對文本數(shù)據(jù)分類的整個流程進行了梳理,具體的流程如圖2-1所逡逑示。觀察圖2-1能夠發(fā)現(xiàn),文本分類由兩個部分組成。分別為將文本數(shù)據(jù)進行一逡逑系列處理之后,通過訓(xùn)練特征,使用特定的算法進行模型構(gòu)建以及使用測試集樣逡逑本數(shù)據(jù)對模型的性能進行評價兩個部分。因此,模型構(gòu)建的成功與否需要根據(jù)性逡逑能分析結(jié)果進行評價。逡逑r邐1逡逑!邋,邐^邐丨分類算丨!逡逑|邋口訓(xùn)練標簽邐1邐^法模型邐!逡逑!邋I邐y邐(S\TH,邐!逡逑i邋邐7邐rr^n邐支持向逡逑丨邐1U邐1邐量機,隨逡逑i邋L訓(xùn)練文檔邐f邋?邐|訓(xùn)練邐機森林逡逑I邋1邐(II邋fS邋^邋特征邋| ̄1邋等)邋!逡逑1邐邐邐逡逑!邋邐7邐5邋表邐 ̄ ̄ ̄逡逑I邋—運^i]邐I逡逑!邋[邋邐邐邋j,邋丨邋i逡逑;L測試文a邐J邋1邐?涯性能評估.邐[1sE囩果邋^邋!逡逑圖2-1文本分類模型構(gòu)建流程圖逡逑Fig邋2-1邋Text邋classification邋model邋construction邋flow邋chart逡逑2.2文本數(shù)據(jù)處理逡逑數(shù)據(jù)分類效果的優(yōu)劣主要取決于樣本數(shù)據(jù)的質(zhì)量
圖2-2分類算法和回歸算法模型結(jié)構(gòu)逡逑Fig邋2-2Classification邋algorithm邋and邋regression邋algorithm邋model逡逑觀察圖2-2中繪制的分類、回歸模型能夠發(fā)現(xiàn)兩者存在本質(zhì)的區(qū)別。分類模逡逑型的主要思想為:尋找一條線或者平面區(qū)分樣本中的不同的樣本類別。逡逑Classification模型中實心圓和實心三角形分別代表樣本數(shù)據(jù)中對應(yīng)的兩個類別。逡逑回歸的主要思想:求取一條線或者二次曲線等對樣本數(shù)據(jù)進行擬合,使得樣本數(shù)逡逑據(jù)盡可能多的分布在求取的線上。Regression模型中表示數(shù)據(jù)集中的樣本數(shù)據(jù)。逡逑為了展示回歸分析和分類問題在數(shù)據(jù)類型、應(yīng)用和對應(yīng)算法之間的差異,將分類逡逑算法與回歸算法進行匯總,詳細結(jié)果如表2-4。逡逑表2>4回歸與分類算法比較逡逑Table邋2-4Comparison邋of邋regression邋and邋classification邋algorithms逡逑數(shù)據(jù)類型邐應(yīng)用邐對應(yīng)算法邐—逡逑樣本數(shù)據(jù)中給定的娜立圾郵件以及邏輯回歸、決策樹、逡逑回歸分析邐輸出變量的為離散樸素貝葉斯算法、支逡逑榐的~忓緯窒蛄炕儒義戲擲轡侍忮窩臼葜惺涑霰浞考、税务、产屏Pゅ沃С窒蛄炕儒義希掊瘟課當淞垮我舛仍げ獾儒義希玻矗逼鈾乇匆端狗擲嗥麇義媳匆端估礪凼怯⒐Ъ冶匆端褂冢保罰叮襯晏岢齙,秵T匆端雇臣評礪垡約板義賢臣仆貧系染鞒雋司藪蟮墓畢祝永礪凵俠唇,贝叶斯赖Z壑傅氖竊諞桓鍪錄義戲⑸那疤嵯攏硪桓鍪錄餐狽⑸目贍芐雜卸啻螅雜Φ氖П澩鍤餃縭藉義希玻乘盡e義廈麇問劍玻沖義鮮劍玻持
本文編號:2774510
本文鏈接:http://www.sikaile.net/kejilunwen/kuangye/2774510.html
最近更新
教材專著