天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 語言藝術(shù)論文 >

基于語料庫的漢語歷時高頻詞對比研究

發(fā)布時間:2017-04-06 07:17

  本文關(guān)鍵詞:基于語料庫的漢語歷時高頻詞對比研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:詞頻統(tǒng)計是一種詞匯分析研究方法,通過統(tǒng)計一定容量的語料庫中每個詞出現(xiàn)的次數(shù),計算得到它們出現(xiàn)的頻率,用以了解用詞規(guī)律。詞頻統(tǒng)計在語言學(xué)、情報學(xué)、信息學(xué)和文獻(xiàn)計量學(xué)等領(lǐng)域都有所運(yùn)用。而在詞頻統(tǒng)計中,高頻詞是尤為重要的一類詞。高頻詞是指在實(shí)際生活中使用頻繁的一類詞,它對于了解一種語言的使用和發(fā)展有著重要作用,具有一定的研究價值。本文所做工作,主要是根據(jù)不同的時間段建立不同的語料庫,通過統(tǒng)計不同時間段語料庫中的高頻詞,對比分析高頻詞的使用和發(fā)展情況,了解漢語發(fā)展的規(guī)律,并且嘗試解釋高頻詞使用情況的個別差異,以驗(yàn)證漢語發(fā)展的延續(xù)性和傳承性,從而進(jìn)一步揭示中文詞頻歷時分布機(jī)理。文本一共分為六章:第一章為緒論,主要介紹了國內(nèi)外關(guān)于語料庫和詞頻研究的現(xiàn)狀,簡單介紹了本文的選題緣由、研究目的、意義、研究方法和研究思路以及文章組織結(jié)構(gòu)。第二章主要介紹了漢語詞語切分,包括它的基本定義,切分的重難點(diǎn)以及主要算法。同時,介紹了評價切分效果的三個標(biāo)準(zhǔn):正確率,召回率,F指標(biāo),并以此為標(biāo)準(zhǔn)證明本文選擇使用的分詞軟件準(zhǔn)確性較高,具有可操作性。第三章主要介紹了如何實(shí)現(xiàn)詞頻統(tǒng)計,由于本文所使用的漢語語料庫具有一定的時間跨度,根據(jù)漢語發(fā)展的規(guī)律將語料庫分為兩個時間段,根據(jù)兩者的不同情況,使用不同的詞頻統(tǒng)計方法。第一個時間段為先秦到宋代,文言詞多以單音節(jié)形式出現(xiàn),字即是詞,該時段中語料使用MyZiCiFrep字詞頻率統(tǒng)計工具,該統(tǒng)計工具能自動統(tǒng)計語料庫中每個字出現(xiàn)的次數(shù)并且按頻次的大小輸出結(jié)果。第二個時間段為明清及明清以后,雙音節(jié)詞使用率提高,該時間段語料使用程序算法來統(tǒng)計詞頻,同時也通過算法來實(shí)現(xiàn)詞頻排序。本章最后介紹了本文所使用的相關(guān)詞頻算法。第四章是本論文的重點(diǎn),也是本文的主要部分。本章首先簡要介紹了本文語料庫的語料來源,全部語料根據(jù)作品時期的順序,分成先秦,兩漢,魏晉南北朝,唐,宋,明清等六個不同的部分。選擇TONP方法來確定本文高頻詞低頻詞分界。然后分析了從先秦到宋代的數(shù)據(jù),制成一張詞頻對比表,通過全距對比和方差對比等方法發(fā)現(xiàn)大部分的高頻詞在語言發(fā)展中較穩(wěn)定,波動較小。最后加入明清數(shù)據(jù),對比從先秦到明清的高頻詞,利用EXCEL自帶的數(shù)據(jù)分析工具中的“方差分析”,分析得出高頻詞序號與時間段的關(guān)聯(lián)較小的結(jié)論,說明大部分高頻詞不會隨著時間的變化有較大的變化,這也就能證明語言的發(fā)展具有一定的傳承性和延續(xù)性,高頻詞的使用情況具有一定的相似性。第五章主要將英語和漢語兩種不同的語種做了個簡單的相關(guān)分析,發(fā)現(xiàn)英漢使用率前1000個詞之間存在著一定的線性關(guān)系,兩者之間有一定的正相關(guān)性,從而驗(yàn)證了語言的發(fā)展具有一定的相似性和共同點(diǎn)。第六章為總結(jié)與展望,總結(jié)了本論文的主要內(nèi)容結(jié)論,并指出本文中存在的不足以及對將來的進(jìn)一步研究的展望。
【關(guān)鍵詞】:語料庫 漢語 高頻詞 詞頻
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:H13
【目錄】:
  • 摘要3-5
  • Abstract5-10
  • 第一章 緒論10-17
  • 第一節(jié) 寫作緣由10
  • 第二節(jié) 相關(guān)研究簡述10-14
  • (一) 關(guān)于語料庫的研究現(xiàn)狀10-12
  • (二) 關(guān)于漢語詞頻統(tǒng)計的研究現(xiàn)狀12-14
  • 第三節(jié) 論文研究的目的、意義和研究方法14-15
  • (一) 研究的目的和意義14
  • (二) 研究的方法及研究思路14-15
  • 第四節(jié) 論文的組織結(jié)構(gòu)15-17
  • 第二章 漢語詞語切分17-24
  • 第一節(jié) 漢語詞語切分的定義及重要性17-18
  • 第二節(jié) 漢語詞語切分的算法18
  • 第三節(jié) 漢語詞語切分的技術(shù)難點(diǎn)18-20
  • (一) 歧義識別18-19
  • (二) 未登錄詞識別19-20
  • 第四節(jié) 漢語詞語切分軟件評測20-23
  • (一) 評測標(biāo)準(zhǔn)20-21
  • (二) 實(shí)驗(yàn)及測評結(jié)果21-23
  • 第五節(jié) 小結(jié)23-24
  • 第三章 詞頻統(tǒng)計24-32
  • 第一節(jié) 先秦到宋代詞頻統(tǒng)計24
  • 第二節(jié) 明清以及明清之后詞頻統(tǒng)計24-31
  • (一) 統(tǒng)計詞頻的算法25-29
  • (二) 詞頻排序算法29-31
  • 第三節(jié) 小結(jié)31-32
  • 第四章 漢語歷時詞頻對比分析實(shí)驗(yàn)32-54
  • 第一節(jié) 語料庫語料說明32-33
  • 第二節(jié) 數(shù)據(jù)統(tǒng)計33-50
  • (一) 先秦到宋代數(shù)據(jù)33-47
  • (二) 明清時期數(shù)據(jù)47-50
  • 第三節(jié) 漢語歷時詞頻對比50-53
  • (一) 實(shí)驗(yàn)數(shù)據(jù)選取原則50-51
  • (二) 數(shù)據(jù)分析51-53
  • 第四節(jié) 小結(jié)53-54
  • 第五章 英漢詞頻對比54-68
  • 第一節(jié) 實(shí)驗(yàn)數(shù)據(jù)54-58
  • 第二節(jié) 數(shù)據(jù)分析58-66
  • (一) 利用序號差分析數(shù)據(jù)58-61
  • (二) 利用相關(guān)分析分析數(shù)據(jù)61-66
  • 第三節(jié) 小結(jié)66-68
  • 第六章 總結(jié)與展望68-71
  • 第一節(jié) 本文研究總結(jié)68-69
  • 第二節(jié) 不足和展望69-71
  • 參考文獻(xiàn)71-74
  • 致謝74-75
  • 攻讀碩士學(xué)位期間發(fā)表的論文75

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 羅黎麗;;五周歲兒童高頻詞的個案和群案比較研究[J];大家;2012年05期

2 畢淑敏;;教養(yǎng)的證據(jù)[J];刊授黨校;2009年02期

3 岳立靜;錢曾怡;;口語高頻詞比較的方言分區(qū)意義[J];文史哲;2012年03期

4 畢淑敏;;教養(yǎng)的證據(jù)[J];成才之路;2008年25期

5 王保平;;你“爽”嗎? 我很“郁悶”![J];會計之友(中旬刊);2007年06期

6 趙予;;語義遷移假設(shè)下的高頻詞非核心義項習(xí)得研究[J];西安外國語大學(xué)學(xué)報;2011年03期

7 馬園藝;;高職高專新生高頻詞表學(xué)習(xí)效果研究[J];英語廣場(學(xué)術(shù)研究);2013年03期

8 曹津源,楚女;生命的舞蹈[J];中學(xué)生讀寫;2005年04期

9 佚名;生命的高度[J];中學(xué)生讀寫;2005年04期

10 史春柳;;英語高頻詞的搭配習(xí)得研究[J];牡丹江教育學(xué)院學(xué)報;2009年01期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 高海洋;;北京話高頻詞使用狀況分析[A];中國社會語言學(xué)(2013年第1期)[C];2003年

2 劉榮;王麗娟;張志平;劉健文;胡竟偉;;面向特定領(lǐng)域的多字詞表達(dá)式的提取[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年

中國重要報紙全文數(shù)據(jù)庫 前10條

1 記者 劉敏 侯大偉 趙仁偉;高頻詞“公平”,勾勒深化改革走向[N];新華每日電訊;2013年

2 歐甸丘;“老板跑路”成高頻詞 企業(yè)如何健康成長引關(guān)注[N];企業(yè)家日報;2014年

3 孟然;《歷史轉(zhuǎn)折中的鄧小平》三個高頻詞[N];組織人事報;2014年

4 本報記者 楊祖榮邋錢曉虎;“高頻詞”背后的深情關(guān)注[N];解放軍報;2008年

5 陳志龍;“高頻詞”點(diǎn)出的新思維[N];新華日報;2006年

6 本報記者 高淵采集;兩會高頻詞[N];人民日報;2003年

7 朱艷冰 趙兵 曹陽葵;創(chuàng)新:成就報道的“活力突破口”[N];中華新聞報;2002年

8 本報記者 賀駿;阿里加速打造云計算生態(tài)圈 阿里云成IPO后第一高頻詞[N];證券日報;2014年

9 本報記者 朱殿勇 王屹立 趙力文 陳小平;關(guān)愛民生 傾情百姓[N];河南日報;2006年

10 李亮 李力軒 本報記者 辛士紅;別拿“模糊詞匯”打馬虎眼[N];解放軍報;2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條

1 高榛英;《人民日報》國慶社論(1978-2014)話語變遷研究[D];河北大學(xué);2015年

2 劉曉麗;《人民日報》社論詞匯統(tǒng)計與分析[D];廣西師范學(xué)院;2015年

3 董競;用高頻詞提高小學(xué)生英語閱讀能力的實(shí)踐研究[D];浙江大學(xué);2016年

4 程玨;基于語料庫的漢語歷時高頻詞對比研究[D];安徽大學(xué);2016年

5 金羅成;從高頻詞看中國義務(wù)教育課程政策的變遷(1978-2010)[D];寧波大學(xué);2013年

6 任日方;大學(xué)生英語演講中高頻詞的研究[D];湖南大學(xué);2011年

7 廖良敏;基于語料庫的《政府工作報告》高頻詞英譯實(shí)證研究[D];湖南師范大學(xué);2013年

8 夏忠燕;二語核心概念共享詞的表征質(zhì)量對其在漢英翻譯中詞匯提取的影響[D];揚(yáng)州大學(xué);2010年


  本文關(guān)鍵詞:基于語料庫的漢語歷時高頻詞對比研究,由筆耕文化傳播整理發(fā)布。



本文編號:288484

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanyishu/288484.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶786bb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com