PDF格式網(wǎng)絡中文學術文獻的識別與檢索——基于學術文獻文體特征的研究
發(fā)布時間:2018-04-30 07:10
本文選題:網(wǎng)絡學術文獻 + 文體特征。 參考:《圖書情報工作》2011年09期
【摘要】:學術文獻具有鮮明的文體特征,且部分特征能夠用于PDF格式網(wǎng)絡中文學術文獻的自動識別與檢索。提取學術文獻在特有表述、句子平均長度、中西文比例等方面存在的特征,用來識別PDF格式的中文學術文獻,對Google通用搜索引擎的搜索結果進行重新排序。結果顯示文體特征的運用能夠在一定程度上提高網(wǎng)絡PDF學術文獻的檢準率。
[Abstract]:The academic literature has distinct stylistic features, and some features can be used in the automatic identification and retrieval of Chinese academic documents in PDF format network. The characteristics of extracting academic literature in the specific expressions, the average length of the sentence and the proportion of Chinese and Western languages are used to identify the literature of the Chinese Literature in the PDF format and the search for the Google general search engine. The results show that the use of stylistic features can improve the accuracy rate of online PDF academic literature to a certain extent.
【作者單位】: 中山大學資訊管理系;深圳圖書館;
【基金】:國家社會科學基金項目“網(wǎng)絡中文學術文獻的自動識別與檢索研究——基于學術文獻文體、鏈接及圖文相關度的研究與系統(tǒng)開發(fā)”(項目編號:10BTQ049)研究成果之一
【分類號】:G252.7
【相似文獻】
相關期刊論文 前10條
1 鄒永利;何侃;徐健;;文體特征在網(wǎng)絡學術文獻檢索中的意義與應用[J];情報理論與實踐;2008年04期
2 勝成居士;;文體特征助校讎——玄奘法師《謝高昌王啟》?庇沎J];文史雜志;2009年02期
3 莫山洪;;從《欽定四庫全書總日》看清代中葉的駢文文體觀念[J];東方叢刊;2007年02期
4 張少成;;析文酌義校標點——《東京夢華錄箋注》校勘選錄[J];文史雜志;2008年03期
5 鐘書林;;敦煌寫本《茶酒論》文體考論[J];圖書館理論與實踐;2011年07期
6 馬世年;;關于《韓非子》篇目真?zhèn)慰急娴膸c思考[J];圖書與情報;2007年06期
7 鄒永利;;學術文獻的非主題特征及其意義[J];中國圖書館學報;2011年03期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
,本文編號:1823583
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1823583.html
最近更新
教材專著