基于語料庫的漢語歷時高頻詞對比研究
本文關(guān)鍵詞:基于語料庫的漢語歷時高頻詞對比研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:詞頻統(tǒng)計是一種詞匯分析研究方法,通過統(tǒng)計一定容量的語料庫中每個詞出現(xiàn)的次數(shù),計算得到它們出現(xiàn)的頻率,用以了解用詞規(guī)律。詞頻統(tǒng)計在語言學(xué)、情報學(xué)、信息學(xué)和文獻(xiàn)計量學(xué)等領(lǐng)域都有所運(yùn)用。而在詞頻統(tǒng)計中,高頻詞是尤為重要的一類詞。高頻詞是指在實(shí)際生活中使用頻繁的一類詞,它對于了解一種語言的使用和發(fā)展有著重要作用,具有一定的研究價值。本文所做工作,主要是根據(jù)不同的時間段建立不同的語料庫,通過統(tǒng)計不同時間段語料庫中的高頻詞,對比分析高頻詞的使用和發(fā)展情況,了解漢語發(fā)展的規(guī)律,并且嘗試解釋高頻詞使用情況的個別差異,以驗(yàn)證漢語發(fā)展的延續(xù)性和傳承性,從而進(jìn)一步揭示中文詞頻歷時分布機(jī)理。文本一共分為六章:第一章為緒論,主要介紹了國內(nèi)外關(guān)于語料庫和詞頻研究的現(xiàn)狀,簡單介紹了本文的選題緣由、研究目的、意義、研究方法和研究思路以及文章組織結(jié)構(gòu)。第二章主要介紹了漢語詞語切分,包括它的基本定義,切分的重難點(diǎn)以及主要算法。同時,介紹了評價切分效果的三個標(biāo)準(zhǔn):正確率,召回率,F指標(biāo),并以此為標(biāo)準(zhǔn)證明本文選擇使用的分詞軟件準(zhǔn)確性較高,具有可操作性。第三章主要介紹了如何實(shí)現(xiàn)詞頻統(tǒng)計,由于本文所使用的漢語語料庫具有一定的時間跨度,根據(jù)漢語發(fā)展的規(guī)律將語料庫分為兩個時間段,根據(jù)兩者的不同情況,使用不同的詞頻統(tǒng)計方法。第一個時間段為先秦到宋代,文言詞多以單音節(jié)形式出現(xiàn),字即是詞,該時段中語料使用MyZiCiFrep字詞頻率統(tǒng)計工具,該統(tǒng)計工具能自動統(tǒng)計語料庫中每個字出現(xiàn)的次數(shù)并且按頻次的大小輸出結(jié)果。第二個時間段為明清及明清以后,雙音節(jié)詞使用率提高,該時間段語料使用程序算法來統(tǒng)計詞頻,同時也通過算法來實(shí)現(xiàn)詞頻排序。本章最后介紹了本文所使用的相關(guān)詞頻算法。第四章是本論文的重點(diǎn),也是本文的主要部分。本章首先簡要介紹了本文語料庫的語料來源,全部語料根據(jù)作品時期的順序,分成先秦,兩漢,魏晉南北朝,唐,宋,明清等六個不同的部分。選擇TONP方法來確定本文高頻詞低頻詞分界。然后分析了從先秦到宋代的數(shù)據(jù),制成一張詞頻對比表,通過全距對比和方差對比等方法發(fā)現(xiàn)大部分的高頻詞在語言發(fā)展中較穩(wěn)定,波動較小。最后加入明清數(shù)據(jù),對比從先秦到明清的高頻詞,利用EXCEL自帶的數(shù)據(jù)分析工具中的“方差分析”,分析得出高頻詞序號與時間段的關(guān)聯(lián)較小的結(jié)論,說明大部分高頻詞不會隨著時間的變化有較大的變化,這也就能證明語言的發(fā)展具有一定的傳承性和延續(xù)性,高頻詞的使用情況具有一定的相似性。第五章主要將英語和漢語兩種不同的語種做了個簡單的相關(guān)分析,發(fā)現(xiàn)英漢使用率前1000個詞之間存在著一定的線性關(guān)系,兩者之間有一定的正相關(guān)性,從而驗(yàn)證了語言的發(fā)展具有一定的相似性和共同點(diǎn)。第六章為總結(jié)與展望,總結(jié)了本論文的主要內(nèi)容結(jié)論,并指出本文中存在的不足以及對將來的進(jìn)一步研究的展望。
【關(guān)鍵詞】:語料庫 漢語 高頻詞 詞頻
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:H13
【目錄】:
- 摘要3-5
- Abstract5-10
- 第一章 緒論10-17
- 第一節(jié) 寫作緣由10
- 第二節(jié) 相關(guān)研究簡述10-14
- (一) 關(guān)于語料庫的研究現(xiàn)狀10-12
- (二) 關(guān)于漢語詞頻統(tǒng)計的研究現(xiàn)狀12-14
- 第三節(jié) 論文研究的目的、意義和研究方法14-15
- (一) 研究的目的和意義14
- (二) 研究的方法及研究思路14-15
- 第四節(jié) 論文的組織結(jié)構(gòu)15-17
- 第二章 漢語詞語切分17-24
- 第一節(jié) 漢語詞語切分的定義及重要性17-18
- 第二節(jié) 漢語詞語切分的算法18
- 第三節(jié) 漢語詞語切分的技術(shù)難點(diǎn)18-20
- (一) 歧義識別18-19
- (二) 未登錄詞識別19-20
- 第四節(jié) 漢語詞語切分軟件評測20-23
- (一) 評測標(biāo)準(zhǔn)20-21
- (二) 實(shí)驗(yàn)及測評結(jié)果21-23
- 第五節(jié) 小結(jié)23-24
- 第三章 詞頻統(tǒng)計24-32
- 第一節(jié) 先秦到宋代詞頻統(tǒng)計24
- 第二節(jié) 明清以及明清之后詞頻統(tǒng)計24-31
- (一) 統(tǒng)計詞頻的算法25-29
- (二) 詞頻排序算法29-31
- 第三節(jié) 小結(jié)31-32
- 第四章 漢語歷時詞頻對比分析實(shí)驗(yàn)32-54
- 第一節(jié) 語料庫語料說明32-33
- 第二節(jié) 數(shù)據(jù)統(tǒng)計33-50
- (一) 先秦到宋代數(shù)據(jù)33-47
- (二) 明清時期數(shù)據(jù)47-50
- 第三節(jié) 漢語歷時詞頻對比50-53
- (一) 實(shí)驗(yàn)數(shù)據(jù)選取原則50-51
- (二) 數(shù)據(jù)分析51-53
- 第四節(jié) 小結(jié)53-54
- 第五章 英漢詞頻對比54-68
- 第一節(jié) 實(shí)驗(yàn)數(shù)據(jù)54-58
- 第二節(jié) 數(shù)據(jù)分析58-66
- (一) 利用序號差分析數(shù)據(jù)58-61
- (二) 利用相關(guān)分析分析數(shù)據(jù)61-66
- 第三節(jié) 小結(jié)66-68
- 第六章 總結(jié)與展望68-71
- 第一節(jié) 本文研究總結(jié)68-69
- 第二節(jié) 不足和展望69-71
- 參考文獻(xiàn)71-74
- 致謝74-75
- 攻讀碩士學(xué)位期間發(fā)表的論文75
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 羅黎麗;;五周歲兒童高頻詞的個案和群案比較研究[J];大家;2012年05期
2 畢淑敏;;教養(yǎng)的證據(jù)[J];刊授黨校;2009年02期
3 岳立靜;錢曾怡;;口語高頻詞比較的方言分區(qū)意義[J];文史哲;2012年03期
4 畢淑敏;;教養(yǎng)的證據(jù)[J];成才之路;2008年25期
5 王保平;;你“爽”嗎? 我很“郁悶”![J];會計之友(中旬刊);2007年06期
6 趙予;;語義遷移假設(shè)下的高頻詞非核心義項習(xí)得研究[J];西安外國語大學(xué)學(xué)報;2011年03期
7 馬園藝;;高職高專新生高頻詞表學(xué)習(xí)效果研究[J];英語廣場(學(xué)術(shù)研究);2013年03期
8 曹津源,楚女;生命的舞蹈[J];中學(xué)生讀寫;2005年04期
9 佚名;生命的高度[J];中學(xué)生讀寫;2005年04期
10 史春柳;;英語高頻詞的搭配習(xí)得研究[J];牡丹江教育學(xué)院學(xué)報;2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 高海洋;;北京話高頻詞使用狀況分析[A];中國社會語言學(xué)(2013年第1期)[C];2003年
2 劉榮;王麗娟;張志平;劉健文;胡竟偉;;面向特定領(lǐng)域的多字詞表達(dá)式的提取[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 劉敏 侯大偉 趙仁偉;高頻詞“公平”,勾勒深化改革走向[N];新華每日電訊;2013年
2 歐甸丘;“老板跑路”成高頻詞 企業(yè)如何健康成長引關(guān)注[N];企業(yè)家日報;2014年
3 孟然;《歷史轉(zhuǎn)折中的鄧小平》三個高頻詞[N];組織人事報;2014年
4 本報記者 楊祖榮邋錢曉虎;“高頻詞”背后的深情關(guān)注[N];解放軍報;2008年
5 陳志龍;“高頻詞”點(diǎn)出的新思維[N];新華日報;2006年
6 本報記者 高淵采集;兩會高頻詞[N];人民日報;2003年
7 朱艷冰 趙兵 曹陽葵;創(chuàng)新:成就報道的“活力突破口”[N];中華新聞報;2002年
8 本報記者 賀駿;阿里加速打造云計算生態(tài)圈 阿里云成IPO后第一高頻詞[N];證券日報;2014年
9 本報記者 朱殿勇 王屹立 趙力文 陳小平;關(guān)愛民生 傾情百姓[N];河南日報;2006年
10 李亮 李力軒 本報記者 辛士紅;別拿“模糊詞匯”打馬虎眼[N];解放軍報;2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 高榛英;《人民日報》國慶社論(1978-2014)話語變遷研究[D];河北大學(xué);2015年
2 劉曉麗;《人民日報》社論詞匯統(tǒng)計與分析[D];廣西師范學(xué)院;2015年
3 董競;用高頻詞提高小學(xué)生英語閱讀能力的實(shí)踐研究[D];浙江大學(xué);2016年
4 程玨;基于語料庫的漢語歷時高頻詞對比研究[D];安徽大學(xué);2016年
5 金羅成;從高頻詞看中國義務(wù)教育課程政策的變遷(1978-2010)[D];寧波大學(xué);2013年
6 任日方;大學(xué)生英語演講中高頻詞的研究[D];湖南大學(xué);2011年
7 廖良敏;基于語料庫的《政府工作報告》高頻詞英譯實(shí)證研究[D];湖南師范大學(xué);2013年
8 夏忠燕;二語核心概念共享詞的表征質(zhì)量對其在漢英翻譯中詞匯提取的影響[D];揚(yáng)州大學(xué);2010年
本文關(guān)鍵詞:基于語料庫的漢語歷時高頻詞對比研究,由筆耕文化傳播整理發(fā)布。
本文編號:288484
本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanyishu/288484.html