天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語言特征的中文微博自殺意念檢測方法研究

發(fā)布時間:2024-02-19 23:02
  自殺是導(dǎo)致當(dāng)近人類死亡的三大因素之一。因此,自殺意念識別已刻不容緩。而傳統(tǒng)的自殺意念檢測方法大都基于n-gram特征,此后為提升模型檢測的準(zhǔn)確率,在原輸入特征中加入了基于訓(xùn)練數(shù)據(jù)的自殺詞典,但其所得模型的準(zhǔn)確率仍不理想。針對自殺意念識別準(zhǔn)確率不理想的狀況,建立一個可遷移性強(qiáng)的自殺詞典,以該自殺詞典與詞性特征組成的語言特征為新式特征加入模型,以期提高模型的識別準(zhǔn)確率。采用對比試驗(yàn)與控制變量的形式,將n-gram特征、語言特征作為模型輸入,以隨機(jī)森林、邏輯回歸、支持向量機(jī)和樸素貝葉斯算法構(gòu)建分類模型,重點(diǎn)研究語言特征對原模型性能的影響。通過比較發(fā)現(xiàn):語言特征對原模型性能的提升是顯著的,在隨機(jī)森林算法下,這種提升達(dá)到了20%左右。貢獻(xiàn):(1)本論文提供了一個領(lǐng)域內(nèi)的、且可遷移性強(qiáng)的自殺詞典;(2)提出了語言特征,并證明了語言特征對基于n-gram特征與基于n-gram特征和詞典模型的性能有所提高;(3)試驗(yàn)了不同分類算法在n-gram特征、詞典特征、語言特征下的模型性能,為特征與算法的選擇提供了一定的依據(jù)。

【文章頁數(shù)】:79 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2-1.Logisticdistribution的密度函數(shù)與分布函數(shù)圖形

圖2-1.Logisticdistribution的密度函數(shù)與分布函數(shù)圖形

歸又被稱為對率回歸、邏輯斯蒂回歸,是一種經(jīng)典的機(jī)器學(xué)習(xí)分類算法介紹該分類算法的數(shù)學(xué)原理、特點(diǎn)及其優(yōu)缺點(diǎn)。ticDistribution1(LogisticDistribution)設(shè)X是連續(xù)隨機(jī)變量,X服從邏輯斯蒂分布是布函數(shù)和密度函數(shù):1exp(()/)1()()....


圖2-2.支持向量與間隔(1)學(xué)習(xí)策略

圖2-2.支持向量與間隔(1)學(xué)習(xí)策略

ii)0,then按如下規(guī)則更新參數(shù)iiwyx,ibby;直至訓(xùn)練集中沒有誤分類點(diǎn).量機(jī)分支持向量機(jī))給定線性可分的訓(xùn)練數(shù)據(jù)集二次規(guī)劃問題學(xué)習(xí)得到的分離超平面為0**wxb函數(shù)為()()**fxsigwnxb向量機(jī)[44]。


圖4-1正樣例“文心”語言分析結(jié)果

圖4-1正樣例“文心”語言分析結(jié)果

中北大學(xué)學(xué)位論文LinguisticInquiryandWordCount)的語言分析軟件。它可分析出包含表4-1的詞性在內(nèi)的102項(xiàng)特征,可對句子中的詞性成分進(jìn)行分析,計算出其在句子中所占的比圖4-1、4-2為正負(fù)樣本使用“文心”軟件進(jìn)行語言分析的結(jié)果。具體的....


圖4-2負(fù)樣例“文心”語言分析結(jié)果

圖4-2負(fù)樣例“文心”語言分析結(jié)果

Step1將數(shù)據(jù)輸入“文心”軟件中,選擇LTP模式,輸出分析結(jié)果;Step2從Step1的結(jié)果中選取實(shí)驗(yàn)所需的詞性特征,記錄該值;Step3使用式(3.4)對數(shù)值進(jìn)行歸一化處理;Step4對詞性特征中的句子長度(詞數(shù))根據(jù)所有數(shù)據(jù)的長度做歸一化處理。圖....



本文編號:3903458

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3903458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17435***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com