社保審計領域語料庫構建研究
本文關鍵詞:社保審計領域語料庫構建研究 出處:《哈爾濱工程大學》2011年碩士論文 論文類型:學位論文
更多相關文章: 社保審計領域 信息動態(tài)管理 智能化審計 語料分類 細語料提取
【摘要】:社會保障體系的正常運行關系到廣大人民的切身利益,如何能在信息爆炸時代的今天有效的利用領域信息,來指導社保審計體系的調整是領域內急待解決的問題。社保審計語料庫用于社保審計領域語言處理,管理領域信息,進而支持領域審計方法的優(yōu)化。 本文對社保審計領域信息進行分析,并根據領域信息的特征提出采用原始語料和處理后語料不斷更新的半自動管理方式來構建領域語料庫,通過語料信息的評價評定領域中語料源和領域細語料集。采用半自動網絡搜索下載的方式從指定的領域語料源獲取不斷更新的領域粗語料。在領域細語料集的支持下采用迭代的方式應用雙詞典回溯遍歷算法不斷提取領域細語料,豐富領域細語料集,同時給出了領域細語料集的組織結構和更新管理方式。在細語料表示領域語料時以語料的時間、頻度、流通度、語料源等級作為特征值,采用基于向量支持的方式對領域語料進行分類管理。 在獲得大規(guī)模領域語料庫的同時,本文應用語料信息與社保審計領域審計方法進行信息對比,根據領域細語料的更新和領域語料的分類情況動態(tài)的監(jiān)測不斷更新的領域語料,發(fā)掘語料所包含領域信息的變化,通過反饋領域信息的變化指導社保審計方法體系的調整,以最終實現(xiàn)領域語料庫支持下的社保智能化審計。
【學位授予單位】:哈爾濱工程大學
【學位級別】:碩士
【學位授予年份】:2011
【分類號】:F239.6;TP391.1
【參考文獻】
相關期刊論文 前10條
1 丁信善;語料庫語言學的發(fā)展及研究現(xiàn)狀[J];當代語言學;1998年01期
2 趙世奇;劉挺;李生;;基于自動構建語料庫的詞匯級復述研究[J];電子學報;2009年05期
3 王繼成,潘金貴,張福炎;Web文本挖掘技術研究[J];計算機研究與發(fā)展;2000年05期
4 崔世起;劉群;孟遙;于浩;西野文人;;基于大規(guī)模語料庫的新詞檢測[J];計算機研究與發(fā)展;2006年05期
5 周強;;基于語料庫和面向統(tǒng)計學的自然語言處理技術[J];計算機科學;1995年04期
6 馮永;李華;鐘將;葉春曉;;基于自適應中文分詞和近似SVM的文本分類算法[J];計算機科學;2010年01期
7 張晶,趙鐵軍,姚建民,李生;基于語料庫的英語從句識別研究[J];中文信息學報;2000年06期
8 金翔宇,孫正興,張福炎;一種中文文檔的非受限無詞典抽詞方法[J];中文信息學報;2001年06期
9 俞士汶,段慧明,朱學鋒,孫斌;北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J];中文信息學報;2002年05期
10 俞士汶,段慧明,朱學鋒,孫斌;北京大學現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J];中文信息學報;2002年06期
相關會議論文 前3條
1 張普;;關于大規(guī)模真實文本語料庫的幾點理論思考[A];世紀之交的中國應用語言學研究——第二屆全國語言文字應用學術研討會論文集[C];1998年
2 尹斌庸;方世增;;詞頻統(tǒng)計的新概念和新方法[A];語言文字應用研究論文集(Ⅱ)[C];2004年
3 柏曉靜;常寶寶;詹衛(wèi)東;吳擁華;;構建大規(guī)模的漢英雙語平行語料庫[A];機器翻譯研究進展——2002年全國機器翻譯研討會論文集[C];2002年
,本文編號:1333384
本文鏈接:http://www.sikaile.net/guanlilunwen/shenjigli/1333384.html