基于文本分類的果農短信分類
本文關鍵詞:基于文本分類算法的短信用戶興趣分層算法研究,由筆耕文化傳播整理發(fā)布。
當前所在位置:中國論文網 > 科技論文發(fā)表 > 基于文本分類的果農短信分類
基于文本分類的果農短信分類
發(fā)布日期: 2015-01-29 發(fā)布:
2014年23期目錄 本期共收錄文章20篇
摘要:將手機短信平臺中的短信轉化為文本的特性,把文本分類算法運用到短信處理技術之中,通過對短信文本進行預處理、特征選擇及分類器等步驟,,將果農短信文本按不同果業(yè)信息類別進行分類,根據分類結果,有針對性地向果農提供有效的果業(yè)信息服務。
中國論文網
關鍵詞:文本挖掘;短信分類;果農
中圖分類號:TP311.5 文獻標識碼:A 文章編號:0439-8114(2014)23-5864-04
DOI:10.14088/j.cnki.issn0439-8114.2014.23.062
短信是依托現代通信技術手段為農民提供即時通信服務,實現信息進村入戶的重要手段。手機短信平臺為果農提供果業(yè)信息,幫助他們及時、準確地掌握科技技術信息,了解市場行情,為其決策提供相關的依據。目前,農村存在短信服務平臺,如移動“農信通”、聯通“電子農務”、“12316”農業(yè)短信平臺等,實現短信預訂、接受、推送等短信服務。為了向果農更有針對性地推送果業(yè)相關信息,提高農業(yè)短信平臺的應用功能,需要對果農按照所發(fā)短信內容類型的不同進行分類。
果農向農業(yè)短信平臺發(fā)送的咨詢短信中,80%左右的電子化信息都是以無結構自由文本的形式存在的,具有模糊性和歧義性,人或者計算機都難以使用這些未經整理的信息。于是就需要文本挖掘技術來對這些短信內容進行分類篩選。
為此,主要針對以短信形式提交的果業(yè)問題,根據短信可轉化為文本這一特性,憑借對短信文本相關特性和相關技術的研究了解,將文本分類算法運用到短信處理技術之中。通過對短信文本進行預處理、特征選擇及分類器等步驟,分析推理果農所提問題涉及的領域分類,從而針對性地為果農提供果業(yè)信息。
1 基于文本分類的短信處理過程
1.1 文本分類研究現狀
Feldman等[1]在1995年正式提出文本挖掘的概念,到現在共有不到20年的時間,相對于國外的快速發(fā)展,文本挖掘在中國的研究尚處于起步階段。文本分類是文本挖掘的主要技術之一,它是根據給定的文本內容,將其判定為事先已經確定的若干個文本類別中的一類或者幾類的過程。
在短信分類研究方面,相關文獻相對較少,其中涉及文本分類算法原理及改進的很多。王忠軍[2]、陳功平等[3]、賀曼麗[4]研究了一種基于改進貝葉斯算法的短信分類方法,設計并實現了一種基于改進貝葉斯的垃圾短信過濾系統(tǒng)。劉金嶺[5]提出同義概念歸并、上下位概念的聚焦以及短信文本重點詞匯的確定方法,利用主題句選取算法獲取短信文本的主題,采用KNN算法將短信文本的主題進行分類。朱伙[6]在文本分類的基礎上設計一個基于文本分類算法的中文短信用戶興趣分層算法。龔壘[7]利用支持向量機算法對短信文本進行分類識別,進而完成對垃圾短信的過濾。雷楊[8]以Stacking作為短信過濾系統(tǒng)的集成學習算法,得到了一個比較有效的短信分類系統(tǒng)。崔彩霞[9]提出了一種基于字特征的短信分類方法,該方法有效地降低了使有用短信的錯判率。在應用方面,主要研究集中在手機短信監(jiān)控[10]和垃圾短信處理[7,11]上。
從目前研究現狀來看,文本挖掘在短信分類中的研究主要是短信分類技術及改進的研究,涉及的技術比較分散,而在技術應用方面的介紹缺很少,可以說文本挖掘在農業(yè)短信分類方面的應用在國內還處于空白階段。
1.2 基于文本分類的短信處理
文本分類是一個映射的過程,它將未標明類別的文本映射到已有的類別中,映射規(guī)則是系統(tǒng)根據已分類好的分類樣本總結出分類的規(guī)則,建立分類的判別公式和規(guī)則,在新文本到來時,根據總結出來的判別規(guī)則確定文本相關的類別[12]。對短信進行分類的過程如圖1,主要分為三部分。
1)建立分類模型。分類模型由訓練模塊和分類模塊構成。在訓練模塊,先抽取訓練樣本中的關鍵詞集合;建立關鍵詞字典;建立訓練樣本詞頻,訓練分類器,建立基于K-近鄰文本分類器。在分類模塊,根據訓練模塊建立的關鍵詞字典,將測試文本向量化,用特征子集表示。
2)分類模型的評價。測試分類模型的分類效果,修正分類模型,提高分類模型的分類效果。
3)測試階段。輸入未知類別的文檔向量,利用分類器,經由分類模型得到測試文檔的類別。
在這里只針對文本如何進行預處理、K鄰近算法原理及應用進行具體描述,即建立分類模型部分;分類模型評價及測試階段部分省去。
1.2.1 短信預處理 ①中文文本分詞處理。中文分詞就是將連續(xù)的中文字序列按照一定的規(guī)范重新組合詞序列的過程。由于中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標記,中文詞語分析即是中文信息處理的基礎與關鍵,因此選擇較好的分詞模塊非常重要。此研究采用的是基于多層隱馬模型的漢語詞法分析系統(tǒng)ICTCLAS[13]。
ICTCLAS分詞系統(tǒng)在切分排歧方面,提出了一種基于N-最短路徑的策略,即在早期階段召回N個最佳結果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結果會在未登錄詞識別和詞性標注之后,從N個最有潛力的候選結果中選優(yōu)得到。該算法實現了漢語詞匯切分結果在核心詞庫盡可能小的前提下達到最優(yōu)。
、谌コnD詞及禮貌用語停頓詞通常指在各類文檔中都頻繁出現的詞,這些詞一般是代詞、介詞、連詞等高頻詞。它們不具有任何類別信息,不能作為特征使用。停用詞過濾首先要構造停用詞表,在文本校對處理后把校對后的會話中的各詞條分別和停用詞表中詞進行比較,如果該詞條在停用詞表中,則刪除該詞條。基于這一原理將短信中的冠詞、助詞、感嘆詞、禮貌用語等沒有實際意義的詞語去掉,只剩下具有實際意義的詞組。
1.2.2 短信分類 K近鄰法屬于懶惰學習方法,其基本思想是:給出測試文檔,系統(tǒng)在已經分類好的訓練集中查找與其最近的K個鄰居,根據這些鄰居的類別分布情況獲得測試文檔的類別。其中可以用這些鄰居與測試文檔的相似度進行加權,從而獲得較好的分類效果[14,15]。其分類過程如下: 1)計算詞頻(TF)。詞頻是指詞組t在文檔中出現的次數?梢杂霉剑1)計算詞頻:
TF(t,d)=0.5+■(1)
式中,f(t,d)指的是t詞組在d類別中出現的次數。MaxFreq(d)指的是在類別中所有的詞組出現次數最多的類別的f(t,d)。
2)計算逆文檔頻率IDF。逆文檔頻率是指在所有的文檔中某詞語出現的次數。可以用公式(2)計算逆文檔頻率:
IDF=1+log(■)(2)
式中,n是指所有的類別數目,k是指出現關鍵詞t的類別總數。
3)計算weight。使用公式(3)來計算weight:
weight(t,d)=TF(t,d)IDF(t)(3)
4)計算短信內容與各個細分類別的相似度。根據上一步算出的14個細分類別下每個關鍵詞的weight,可以表示為
Di=(Wi1,Wi2,…,WiN),其中i=1,2,3。(4)
同時也能計算出新短信內容中每個關鍵詞的Weight,可以表示為D=(W1,W2,…,Wn)。然后根據以下相似度的計算公式(5)可以得出新短信與各細分類別之間的相似度[16]。
Sim(Di,Dj)=■WitWjt(5)
根據最后計算出的相似度,可以比較新短信與各細分類別的相似度哪個更高一些,從而確定該短信應歸屬的類別。若出現了相似度相等的情況,該短信則同時歸屬于相應的類別,可重復出現。
2 基于文本分類的果農短信分類
果農短信內容為“您好,我家水蜜桃今年豐收了,能幫忙提供下市場參考價格,以便我定價銷售嗎?謝謝!”根據KNN算法的步驟介紹,將要對該評論應該屬于哪個類別進行判斷。
2.1 分詞、去除停頓詞、禮貌用語及單詞衍生形態(tài)查詢
首先,通過ICTCLAS分詞系統(tǒng)經過分詞,結果如下:
您/r 好/a ,/w 我家/r 水蜜桃/n 今年/t 豐收/v 了/y ,/w 能/v 幫忙/v 提供/v 下/v 市場/n 參考/v 價格/n ,/w 以便/d 我/r 定價/n 銷售/v 嗎/y ?/w 謝謝/v !/w
將這條內容中的虛詞、助詞、禮貌用語等無實際意義的詞(您、好、了、能、下、以便、嗎、謝謝等)去掉,并進行單詞衍生形態(tài)查詢,將零散的詞組規(guī)范化,最終得到詞組“我家、水蜜桃、今年、豐收、幫忙、提供、市場、參考、價格、我、定價、銷售”。
2.2 果業(yè)短信詞庫構建
2.2.1 果業(yè)信息概況 現階段中國果業(yè)數據和農村信息具有季節(jié)性、地區(qū)性、時效性、真實性和引導性等五大特點,信息的內容大致包含四大類:①科技類信息:種植技術、新品種、病蟲害防治、農產品加工以及林業(yè)、氣象、水利、環(huán)境和建筑等信息;②市場價格行情類信息:農產品供求與價格、成交量和國際貿易等方面信息;③政策信息類:政策、法規(guī)、法律等方面的問題;④科普信息:農業(yè)科學常識,文化教育知識類信息[17,18]。
2.2.2 果業(yè)信息的關鍵詞庫 通過對農業(yè)短信平臺的研究及查閱相關資料,從果農的短信中總結出各類信息的關鍵詞,以此為參照文檔構建果業(yè)信息的關鍵詞庫。果業(yè)信息劃分為四個大類別,各類別下劃分了小類別,每個小類別分別對應一些關鍵詞,由于關鍵詞太多,在這里只是簡單列舉一下,關鍵詞詞庫設定如表1所示,當然在提取信息類別關鍵詞之前,要先確定所詢問果類品種,再基于此進行表1的短信分類。
2.3 果業(yè)信息分類
2.3.1 計算詞頻(TF) 因為本研究中14個細分類別是建立的果業(yè)信息的關鍵詞詞庫,所以每個詞語均只出現了一次,所有各個關鍵詞的TF=1。
2.3.2 計算逆文檔頻率 各詞組在14個細分類別中只出現一次,所以,計算的IDF=1+lg(14/1)=2.146 1,這個值都是相同的,具體見表2。
2.3.3 計算weight weight(t,d)=TF(t,d)×IDF(t),如表2中括號內的數值所示。
2.3.4 計算新評論與Doc1、Doc2以及Doc3的相似度 Sim(新短信,D2-1)=2.146 1×2.146 1=4.605 8
Sim(新短信,D2-2)=2.146 1×2.146 1+2.146 1×2.146 1=9.211 5
根據以上的計算結果可知,新短信內容與市場價格行情類信息下的兩個細分類別有關,相似度分別為4.605 8、9.211 5,通過比較可知,新短信與D2-2的相似度最高,即“農產品價格”的關鍵詞庫,于是就可以把這條新內容歸類為“農產品價格”。
3 小結與討論
對果農短信進行分類的目的就是可以對果農所關心的問題的不同進行歸類,這樣可以有針對性地提供相應的果業(yè)信息服務。這個功能的實現,減少了農戶搜索相關果業(yè)信息的時間和精力,可以更方便、及時地了解到自己需要的信息,同樣也提高了果業(yè)信息推廣的實用性和便捷性。
此外,研究只是針對一條短信進行了分類算法如何具體應用的演示,并沒有針對大規(guī)模果業(yè)相關短信進行測試試驗,對分類器效果的驗證還需進一步研究。
參考文獻:
[1] FELDMAN R, DAGAN I. Knowledge discovery in textual databases (KDT)[Z]. In: proceedings of the First International Conference in Knowledge Discovery and Date Mining (KDD-95). Montreal, Canada. August 20-21,1995:112-117. [2] 王忠軍.文本分類在短信過濾中的應用[D].遼寧大連:大連理工大學,2006.
[3] 陳功平,沈明玉,王 紅,等.基于內容的短信分類技術[J].華東理工大學學報(自然科學版),2011,37(6):770-774.
[4] 賀曼麗.基于內容挖掘的垃圾短信過濾分類方法研究[D].長沙;湖南大學,2007.
[5] 劉金嶺.基于主題的中文短信文本分類研究[J].計算機工程,2010,36(4):30-32.
[6] 朱 伙.基于文本分類算法的短信用戶興趣分層算法研究[D].廣州:中山大學,2011.
[7] 龔 壘.基于支持向量機的垃圾短信過濾方法研究[D].河南焦作:河南理工大學,2011.
[8] 雷 楊.基于集成學習的垃圾短信多級分類技術研究[D].成都:電子科技大學,2009.
[9] 崔彩霞.基于字特征的短信分類方法研究[J].太原師范學院學報(自然科學版),2011,10(1):103-105.
[10] 李 凡.基于內容的短信智能分類系統(tǒng)的設計與實現[D].沈陽:東北大學,2010.
[11] 鐘延輝.基于文本挖掘的垃圾短信過濾方法[D].成都:電子科技大學,2009.
[12] 周 茜,趙明生,扈 昊.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(3):17-23.
[13] 何元嬌.基于本體的語義文本分類研究[D].北京:北京化工大學,2008.
[14] 劉 鋒,白 凡.一種改進的K近鄰算法在網頁分類中的應用[J].電子技術,2010(7):30-31.
[15] 劉開,江志雄.基于K-近鄰方法的網絡信息文本分類[J].貴州大學學報(自然科學版),2009,26(3):60-63.
[16] 孔 靜.基于語義和領域相關的文本聚類研究[D].東營:中國石油大學(華東),2009.
[17] 孫 燕.重慶果農適用的果業(yè)信息手機查詢平臺研究[D].重慶:西南大學,2011.
[18] 楊木容.果農視角下的果業(yè)信息需求和服務開展的調查研究[J].安徽農業(yè)科學,2011,39(2):7455-7456,7459.
本文關鍵詞:基于文本分類算法的短信用戶興趣分層算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:76155
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/76155.html