中文農業(yè)搜索引擎字符編碼識別
本文關鍵詞:中文農業(yè)搜索引擎字符編碼識別
更多相關文章: 編碼識別 卡方檢驗 多元線性回歸 GB Big
【摘要】:針對農業(yè)網(wǎng)頁中漢字編碼標識混亂的情況,提出了一種綜合運用編碼規(guī)則和網(wǎng)頁文本特征的字符編碼識別模型。利用卡方檢驗算法,結合最小二乘多元線性回歸方法,得到了基于網(wǎng)頁文本特征的字符識別模型。實驗結果顯示,在適當?shù)倪x取閾值(r=1,閾值=屬于某一編碼的字符數(shù)/網(wǎng)頁總字符數(shù))和文本特征數(shù)(≥65)的基礎上,模型準確率達到100%,且結果穩(wěn)定。
【作者單位】: 新疆農業(yè)大學計算機與信息工程學院;
【基金】:新疆維吾爾自治區(qū)科技攻關項目(200931103)
【分類號】:TP393.092;TP391.3
【正文快照】: 隨著農業(yè)信息化建設的不斷推進,農業(yè)網(wǎng)站數(shù)量增長迅速[1]。隨著網(wǎng)頁數(shù)量的增長,人們查找真正需要信息的難度也相應增加了。這就催生了人們對信息查找工具——搜素引擎的需求。通過搜索引擎人們可以更加有效率的獲得信息、產品和服務。由于中文網(wǎng)頁使用的漢字編碼種類眾多,如果
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機工程與應用;2003年22期
2 熊忠陽;張鵬招;張玉芳;;基于χ~2統(tǒng)計的文本分類特征選擇方法的研究[J];計算機應用;2008年02期
3 李培峰,朱巧明,錢培德;多文種環(huán)境下漢字內碼識別算法的研究[J];中文信息學報;2004年02期
4 謝謙;芮建武;吳健;;編碼字符集標準及分類研究[J];中文信息學報;2006年05期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學報;2009年S1期
2 李玉擰;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應用[J];北京工業(yè)大學學報;2008年09期
3 付雪峰;劉邱云;;不確定性推理在文本分類上的應用研究[J];江西師范大學學報(自然科學版);2007年04期
4 江祥奎,原思聰;中文網(wǎng)頁分類中的網(wǎng)頁特征提取方法[J];電腦開發(fā)與應用;2005年10期
5 張東娜;劉博;;一個基于加權和組合降維的web文本分類系統(tǒng)[J];電腦知識與技術;2008年07期
6 朱坤紅;鄧蓉;;基于知識樹的文本自動分類方法探索[J];電腦知識與技術;2010年22期
7 盛魁;趙鵬;;中文網(wǎng)頁自動分類綜述[J];電腦知識與技術;2010年27期
8 張瑜;張德賢;;基于類別比例因子和類內均分度的χ~2統(tǒng)計改進[J];電子科技;2010年12期
9 劉巧英;楊天朋;孫玉強;;基于網(wǎng)站結構和內容的Web Server加速技術研究[J];福建電腦;2009年07期
10 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預警[J];系統(tǒng)工程;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 侯松;周斌;賈焰;;分詞結果的再搭配對文本分類效果的增強[A];全國計算機安全學術交流會論文集(第二十四卷)[C];2009年
2 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 崔磊;陳清才;郭鴻志;王曉龍;;HowNet與維基百科知識融合中的義類屬性自動構建方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
中國博士學位論文全文數(shù)據(jù)庫 前9條
1 張翔;文本挖掘技術研究及其在綜合風險信息網(wǎng)絡中的應用[D];西北大學;2011年
2 祝翠玲;基于類別結構的文本層次分類方法研究[D];山東大學;2011年
3 李培峰;基于語義的多文種信息處理平臺SMIPP的研究[D];蘇州大學;2006年
4 龔才春;短文本語言計算的關鍵技術研究[D];中國科學院研究生院(計算技術研究所);2008年
5 劉林泉;水聲綜合測控系統(tǒng)關鍵技術研究[D];哈爾濱工程大學;2008年
6 黃永文;中文產品評論挖掘關鍵技術研究[D];重慶大學;2009年
7 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學;2012年
8 劉楠;面向微博短文本的情感分析研究[D];武漢大學;2013年
9 薛利;面向證券應用的WEB主題觀點挖掘若干關鍵問題研究[D];復旦大學;2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 程澤凱,陸小藝;文本分類中的特征選擇方法[J];安徽工業(yè)大學學報(自然科學版);2004年03期
2 徐鳳亞,羅振聲;文本自動分類中特征權重算法的改進研究[J];計算機工程與應用;2005年01期
3 魯松,李曉黎,白碩,王實;文檔中詞語權重計算方法的改進[J];中文信息學報;2000年06期
4 陳治綱,何丕廉,孫越恒,鄭小慎;基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn)[J];中文信息學報;2005年01期
5 李凡,魯明羽,陸玉昌;關于文本特征抽取新方法的研究[J];清華大學學報(自然科學版);2001年07期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 何香玲,張躍,鄭鋼;串行通信中的字節(jié)與字符[J];工業(yè)控制計算機;2002年03期
2 小金;字符引發(fā)的信息安全問題 來自字符的威脅[J];新電腦;2004年09期
3 李喜宇;;編程中字符編碼的兼容問題[J];山西財經大學學報(高等教育版);2008年S1期
4 黃明志;閆大順;;頁面字符編碼的分析及其應用[J];仲愷農業(yè)工程學院學報;2009年03期
5 洪漢妮;;字符編碼即將統(tǒng)一[J];電子測試;2000年05期
6 劉志基;簡說“古文字三級字符全拼編碼檢字系統(tǒng)”[J];辭書研究;2002年01期
7 魏再超;;計算機字符編碼問題[J];福建電腦;2012年07期
8 陸明真;宋國文;蔣林濤;;Telematic業(yè)務的發(fā)展趨向及規(guī)程變化(續(xù))[J];電信科學;1993年05期
9 李瑩;字符的顯示途徑及直接寫屏技術[J];電腦技術;1998年03期
10 金永濤;顯示屏幕上任意字符編碼[J];電腦;1994年08期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 馬麗;馬寧;王燕鳳;;民文版軟件的國際化與本地化[A];第三屆全國軟件測試會議與移動計算、柵格、智能化高級論壇論文集[C];2009年
2 莊仁峰;王健平;原軼;;短信端口字符化技術的應用研究[A];2007年中國通信學會“移動增值業(yè)務與應用”學術年會論文集[C];2007年
3 當周才讓(趙維納);德熙嘉措·趙晨星;;藏文吾美長腿體字庫的設計與實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
4 范顯鑌;;漢語編碼文字的定義、特點和用途[A];中國中文信息學會漢字編碼專業(yè)委員會第九屆年會暨學術研討會論文集[C];2011年
5 契嘎·德熙嘉措;當周才讓;;基于信息處理的藏文字的結構[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 記者 尚明洲邋通訊員 朱慧瑜;廣東移動“短信端口字符化技術”獲專利[N];人民郵電;2008年
2 ;施樂PARC四十年大事記[N];網(wǎng)絡世界;2010年
3 中國科學院軟件研究所 副所長 中科紅旗軟件技術有限公司 董事長 孫玉芳;信息社會的靈魂[N];科技日報;2001年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 芮建武;操作系統(tǒng)國際化基礎的研究與實踐[D];中國科學院研究生院(軟件研究所);2005年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王甜甜;基于關鍵字符的Word文檔脆弱水印算法[D];西南交通大學;2013年
2 周珩珩;藏語言文字信息化處理與未收錄字符的動態(tài)實現(xiàn)[D];中國人民解放軍信息工程大學;2002年
3 徐彩虹;字符二維條碼的編解碼技術研究[D];浙江工業(yè)大學;2012年
4 楊俊燕;中文互聯(lián)網(wǎng)數(shù)據(jù)壓縮的單字符編碼優(yōu)化方法研究和實現(xiàn)[D];電子科技大學;2012年
5 陳炳煌;具有字符疊加和測距功能的車載視頻檢測裝置的研發(fā)[D];中南大學;2008年
6 劉小兵;視頻字符疊加與短距離紅外無線傳輸技術研究[D];南京理工大學;2004年
7 新吉勒吐;嵌入式蒙文信息處理系統(tǒng)中名義字符到顯現(xiàn)字形算法的研究與實現(xiàn)[D];內蒙古大學;2010年
8 余繼東;軟件產品的全球化測試研究[D];北京郵電大學;2009年
9 王守華;基于GB18030編碼標準的中文Linux系統(tǒng)[D];中國科學院軟件研究所;2001年
10 舒若;機載電子綜合顯示系統(tǒng)圖形反走樣技術的研究[D];南京航空航天大學;2003年
,本文編號:1144855
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1144855.html