天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)構(gòu)建研究

發(fā)布時(shí)間:2017-11-24 22:02

  本文關(guān)鍵詞:面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)構(gòu)建研究


  更多相關(guān)文章: 漢語(yǔ)辭典編纂 大型 通用 語(yǔ)料庫(kù) 設(shè)想


【摘要】:本文通過對(duì)國(guó)外面向辭書編纂的語(yǔ)料庫(kù)成功經(jīng)驗(yàn)的學(xué)習(xí),結(jié)合我國(guó)語(yǔ)言研究和辭書編纂的實(shí)際,選取適合我國(guó)語(yǔ)料庫(kù)建設(shè)的方法和途徑,制定出一個(gè)大型通用的語(yǔ)料庫(kù)建設(shè)方案。論文共分六章,各章節(jié)的內(nèi)容安排如下: 第一章緒論。主要介紹了國(guó)內(nèi)外語(yǔ)料庫(kù)建設(shè)的研究現(xiàn)狀,并明確了我們建設(shè)語(yǔ)料庫(kù)的意義和價(jià)值,以及研究方法和研究思路。國(guó)外對(duì)于語(yǔ)料庫(kù)建設(shè)早有研究,且已有較為豐富的理論成果和完整科學(xué)的系統(tǒng)結(jié)構(gòu);而我國(guó)對(duì)于語(yǔ)料庫(kù)建設(shè)的研究起步較晚,同時(shí)基本上還局限于專用型語(yǔ)料庫(kù),適用范圍較小,只為特定詞典編纂服務(wù)。因而在我國(guó)詞典學(xué)領(lǐng)域急需一個(gè)面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)。它有助于填補(bǔ)了漢語(yǔ)辭書理論的空白,推進(jìn)中文信息處理的發(fā)展,提高辭書編纂的客觀性、準(zhǔn)確性和科學(xué)性。 第二章面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的設(shè)計(jì)理念。在Chomsky的理性主義占主導(dǎo)地位的二十世紀(jì)中后期,語(yǔ)料庫(kù)研究方法深得人心。隨著WordNet、知網(wǎng)、FrameNet的成功建立,關(guān)于大型通用型語(yǔ)料庫(kù)的設(shè)計(jì)理念也浮出水面。我們要建立的面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的設(shè)計(jì)理念是大規(guī)模和多語(yǔ)體、深度加工和監(jiān)控語(yǔ)料庫(kù)。 第三章面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的語(yǔ)料采集。語(yǔ)料的采集是建設(shè)語(yǔ)料庫(kù)的一個(gè)重要環(huán)節(jié),我們先回顧了COBUILD語(yǔ)料庫(kù)、朗文語(yǔ)料庫(kù)網(wǎng)絡(luò)、英國(guó)國(guó)家語(yǔ)料庫(kù)、劍橋國(guó)際語(yǔ)料庫(kù)、Sinica語(yǔ)料庫(kù)五個(gè)語(yǔ)料庫(kù)在語(yǔ)料采集時(shí)的成功經(jīng)驗(yàn),結(jié)合我國(guó)實(shí)際,明確了面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的語(yǔ)料采集分五種語(yǔ)體:口語(yǔ)、小說、新聞、雜志和學(xué)術(shù)期刊,每種體裁所占比例均為20%。各收7千萬(wàn)字左右,計(jì)劃建成一個(gè)3.5億字左右的大型通用語(yǔ)料庫(kù)。 第四章面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的語(yǔ)料加工處理。我們采用XML格式將文本收錄進(jìn)語(yǔ)料庫(kù),對(duì)每篇文章的類別、來源、作者、出版時(shí)間、標(biāo)題和正文內(nèi)容這些信息加以標(biāo)注。分詞系統(tǒng)選擇,,采用北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制的漢語(yǔ)語(yǔ)料庫(kù)多機(jī)加工系統(tǒng);詞語(yǔ)切分與詞性標(biāo)注,采用北京大學(xué)2003版詞語(yǔ)切分和詞性標(biāo)注規(guī)范(俞士汶等,2003)的標(biāo)準(zhǔn);詞法標(biāo)注,采用最大匹配法;句法標(biāo)注,采用邱立坤(2012)提出的依存句法的標(biāo)注體系規(guī)范;語(yǔ)義標(biāo)注,采用Mel’ uk等人創(chuàng)立的語(yǔ)義-篇章理論。 第五章面向漢語(yǔ)辭書編纂的大型通用語(yǔ)料庫(kù)的功能。管理功能、檢索功能、統(tǒng)計(jì)功能、詞義更新功能、輔助釋義功能。第六章結(jié)論。對(duì)本文的研究工作進(jìn)行了總結(jié),指出了進(jìn)一步研究的方向。
【學(xué)位授予單位】:魯東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:H16

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條

1 陸汝占;漢語(yǔ)詞典編纂一體化環(huán)境(上)[J];辭書研究;2000年02期

2 王躍龍;姬東鴻;;漢語(yǔ)樹庫(kù)綜述[J];當(dāng)代語(yǔ)言學(xué);2009年01期

3 丁信善;語(yǔ)料庫(kù)語(yǔ)言學(xué)的發(fā)展及研究現(xiàn)狀[J];當(dāng)代語(yǔ)言學(xué);1998年01期

4 楊翼;李紹林;郭穎雯;田清源;;建立漢語(yǔ)學(xué)習(xí)者口語(yǔ)語(yǔ)料庫(kù)的基本設(shè)想[J];漢語(yǔ)學(xué)習(xí);2006年03期

5 李斌;;中介語(yǔ)語(yǔ)料庫(kù)建設(shè)中的語(yǔ)言錯(cuò)誤標(biāo)注方法[J];暨南大學(xué)華文學(xué)院學(xué)報(bào);2007年03期

6 俞士汶,段慧明,朱學(xué)鋒,孫斌;北京大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)基本加工規(guī)范[J];中文信息學(xué)報(bào);2002年05期

7 蔡蓮紅;崔丹丹;蔡銳;;漢語(yǔ)普通話語(yǔ)音合成語(yǔ)料庫(kù)TH-CoSS的建設(shè)和分析[J];中文信息學(xué)報(bào);2007年02期

8 劉耀;段慧明;王惠臨;周揚(yáng);王振國(guó);李宏展;;中醫(yī)藥古文獻(xiàn)語(yǔ)料庫(kù)設(shè)計(jì)與開發(fā)研究[J];中文信息學(xué)報(bào);2008年04期

9 趙守輝;劉永兵;;新加坡華族學(xué)前兒童口語(yǔ)語(yǔ)料庫(kù)的生成[J];世界漢語(yǔ)教學(xué);2007年02期



本文編號(hào):1223719

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/1223719.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e18e2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com