天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 語言藝術論文 >

藏文歷史文獻中粘連字丁串的切分與識別

發(fā)布時間:2020-03-25 20:51
【摘要】:在人類發(fā)展的歲月長河里,各族人民留下了彌足珍貴的歷史足跡。歷史文獻作為重要的信息載體,對研究人們早期的生產(chǎn)、生活方式具有極其重要的價值和深遠意義。藏族是我國擁有悠久歷史文化,并且擁有本民族語言和文字的少數(shù)民族之一。藏族人民創(chuàng)造了極具特色的高原文化,在多個領域留下了豐富的文化遺產(chǎn)。藏文歷史文獻是研究藏族歷史文化和藏傳佛教的重要途徑,近年來受到了眾多學者的廣泛關注。但由于藏文歷史文獻歷史悠久,每一次的查閱都可能會對文獻造成毀滅性的破壞。對藏文歷史文獻進行數(shù)字化保護,不僅能夠保護紙質(zhì)脆弱的歷史文獻,也能夠提高文獻的利用率。早期的藏文歷史文獻多采用木刻板印刷,隨著墨跡擴散、潮濕等因素的影響,文獻中產(chǎn)生了大量的粘連字丁串。針對英語、漢語、日語和阿拉伯數(shù)字等粘連字丁串的研究已經(jīng)卓有成效,但尚未有針對藏文歷史文獻粘連字丁串的相關研究。為了探索藏文歷史文獻中粘連字丁串的切分和識別任務,本文作了如下研究工作:首先,本文介紹了國內(nèi)外對于其他語言的粘連字丁串切分與識別以及藏文歷史文獻的研究現(xiàn)狀和前沿動態(tài),分析了學者對該課題的研究工作,總結了在處理該問題時常用方法和技巧,對本文關于藏文歷史文獻中粘連字丁串的切分與識別研究工作提供了很好的借鑒和幫助。其次,由于對藏文歷史文獻粘連字丁串的研究非常匱乏,該領域并沒有任何公開發(fā)表的數(shù)據(jù)庫。本文在藏文歷史文獻圖像中利用連通區(qū)域分析的方式篩選了7,500張粘連字丁串,并使用XML文件對粘連字丁串的粘連點坐標、粘連字丁類別等進行了標注,構建了第一個藏文歷史文獻粘連字丁串數(shù)據(jù)庫。本文通過對經(jīng)典的滴水算法利用最短路徑進行了改進,使算法對藏文粘連字丁串形成的切分路徑更加合理。經(jīng)過試驗分析,本文發(fā)現(xiàn)改進后的滴水算法在粘連模式簡單的藏文粘連字丁串中召回率達到73.02%。再次,經(jīng)過對藏文文字結構的分析,本文提出了一種基于輪廓特征點檢測的過切分算法。該算法首先通過藏文基線將藏文字丁分成上元音區(qū)域和輔音字母區(qū)域兩部分;然后對于上元音區(qū)域,利用SVM-上元音分類器對上元音區(qū)域的特征點進行篩選,對于輔音字母區(qū)域,利用規(guī)則進行特征點篩選;最后利用特征點構建切分路徑。本方法在粘連模式復雜的藏文粘連字丁串中召回率達到了81.42%。最后,本文利用深度學習框架,分別開發(fā)了復雜藏文歷史文獻文本和藏文拉丁轉(zhuǎn)寫文本的識別系統(tǒng),實現(xiàn)了圖像文本識別功能。
【圖文】:

輔音字母,元音字母


北京工業(yè)大學工程碩士專業(yè)學位論文上進行了初步的實驗;在 3.5 節(jié),對本章進行了總結。3.2 數(shù)據(jù)集的收集藏文文字是一種拼寫型文字,包含 30 個輔音字母和 4 個元音,如圖 3-1(a)和(b)所示。從字形上來說,存在很大的相似性,再加上時間因素造成的字丁粘連,對藏文歷史文獻進行數(shù)字化任務有很大困難。

藏文,歷史文獻,版面分析


- 13 -圖 3-3 藏文歷史文獻中的一頁Figure 3-3 A page in the Tibetan historical document藏文粘連字丁串的收集工作包括預處理、版面分析、行切分、連通區(qū)域分析、后處理等步驟。在預處理階段,本文主要針對粘連字丁串進行了二值化和降噪操作,目的是為了使原始數(shù)據(jù)盡可能的不失真。在進行版面分析時,本文使用了張西群[47]等人的方法對掃描的圖像進行了版面分析,該方法是通過連通區(qū)域分析和角點檢測而進行的。首先對掃面后圖像進行角點檢測,文中利用伽馬變換對圖像進行了圖像增強,,接著使用大津算法對圖像進行二值化處理,最后使用 Harris檢點檢測算法檢測角點;然后使用設定閾值初步得到文本區(qū)域;最后對圖像進行后處理,對文本區(qū)域的邊緣進行提取和矯正,我們使用紅色線條對文本區(qū)域進行了標記,如圖 3-4(a)所示。
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:H214;TP391.41

【相似文獻】

相關期刊論文 前10條

1 陳晰;;近代初期臺灣史學界的重要工具書——《早期臺灣歷史文獻研究書目》[J];中國索引;2011年01期

2 陳慶英;楊潔;;評《清代藏學歷史文獻研究》[J];西藏研究;2018年01期

3 趙鳳華;;淺析歷史文獻在歷史教學中的作用[J];中華少年;2017年19期

4 張子剛;;碑刻:研究地方社會發(fā)展不可或缺的歷史文獻[J];人口·社會·法制研究;2016年Z2期

5 劉敬林;《英藏敦煌社會歷史文獻釋錄》(第一卷)補校[J];敦煌研究;2004年02期

6 葉貴良;《英藏敦煌社會歷史文獻釋錄·斯63號〈太上洞玄靈寶無量度人上品妙經(jīng)〉》校正[J];敦煌學輯刊;2002年02期

7 ;上圖新館將舉辦 “歷史文獻的開發(fā)與利用”學術研討會[J];圖書館雜志;1997年03期

8 王繼光;;蒙、藏、維吾爾族歷史文獻舉要[J];史學史研究;1987年02期

9 ;歷史文獻[J];黨史縱橫;1988年07期

10 顧志華;;祁承r在歷史文獻整理工作中的貢獻[J];華中師范大學學報(哲學社會科學版);1988年04期

相關會議論文 前10條

1 向燕南;;古城的保護與其可持續(xù)發(fā)展不應忽視歷史文獻的研究[A];《中國長城博物館》2012年第3期[C];2012年

2 趙婭麗;范勝麗;;現(xiàn)代思維科學與東北地方歷史文獻研究[A];耕耘錄:吉林省博物院學術文集(2003-2010)[C];2010年

3 張丕遠;葛全勝;鄭景云;;從歷史文獻、檔案中提取自然環(huán)境信息的研究[A];中國經(jīng)濟史上的天人關系學術討論會論文集[C];1999年

4 陳志根;;論湘湖歷史文獻的整理與研究[A];蕭山記憶(第四輯)[C];2011年

5 林永祥;;福建省圖書館歷史文獻信息的收集與利用[A];福建省社會科學信息中心2005年年會論文集[C];2005年

6 周衛(wèi)榮;;“搉石”考[A];面向21世紀的科技進步與社會經(jīng)濟發(fā)展(下冊)[C];1999年

7 陳立;;載籍聚珍,含英咀華:南京圖書館歷史文獻閱讀推廣之路[A];中國圖書館學會年會論文集(2014年卷)[C];2014年

8 田玉南;;探析煙臺地區(qū)歷史文獻開發(fā)利用的價值及其舉措[A];文化研究論壇[C];2011年

9 張立憲;;溥儀珍寶迷蹤[A];溥儀研究 創(chuàng)刊號[C];2011年

10 舒大剛;;漢代儒學文獻的發(fā)展與演變[A];歷史文獻研究(總第31輯)[C];2012年

相關重要報紙文章 前10條

1 杭州師范大學馬克思主義學院 方勇駿;加強民間歷史文獻研究[N];中國社會科學報;2019年

2 孫昌武;一部歷史文獻拾遺補缺之作[N];中華讀書報;2018年

3 新鄉(xiāng)市圖書館 吳敏卿;河南歷史文獻的整理與開發(fā)利用[N];新鄉(xiāng)日報;2009年

4 記者葛銳;歷史文獻畫冊《中國衛(wèi)生防疫50年》正式出版[N];中國中醫(yī)藥報;2002年

5 記者 章紅雨;國圖社40年披露5萬余種珍稀歷史文獻[N];中國新聞出版廣電報;2019年

6 廈門大學歷史系 張侃;田野工作、歷史文獻與史學研究[N];光明日報;2007年

7 高放;珍貴革命歷史文獻的生動展現(xiàn)[N];人民日報;2007年

8 國家社科基金重大項目“英藏敦煌社會歷史文獻整理與研究”首席專家 首都師范大學教授 郝春文;《英藏敦煌社會歷史文獻釋錄》(1—11卷)出版[N];光明日報;2015年

9 記者 姜小玲;6700余種15000余冊革命歷史文獻整理完成[N];解放日報;2011年

10 記者 莊建;新疆歷史文獻現(xiàn)“真身”[N];光明日報;2010年

相關博士學位論文 前1條

1 馮法強;近代江淮官話語音演變研究[D];南開大學;2014年

相關碩士學位論文 前10條

1 趙全超;藏文歷史文獻中粘連字丁串的切分與識別[D];北京工業(yè)大學;2019年

2 張西群;面向藏文歷史文獻的版面分割方法研究[D];北京工業(yè)大學;2018年

3 肖s

本文編號:2600429


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanyishu/2600429.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f4e10***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com