多語言社會化標(biāo)簽聚類及可視化研究
發(fā)布時間:2017-05-02 21:07
本文關(guān)鍵詞:多語言社會化標(biāo)簽聚類及可視化研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:協(xié)同標(biāo)注系統(tǒng)(folksonomy)是Web2.0網(wǎng)站中由相互關(guān)聯(lián)的用戶、資源和標(biāo)簽組成的注釋結(jié)果的一個集合,其重要基礎(chǔ)是:一個用戶可以自定義多個用戶標(biāo)簽來描述網(wǎng)絡(luò)資源。通常的社會化標(biāo)簽系統(tǒng)中標(biāo)簽是用戶標(biāo)注的結(jié)果,也有一些網(wǎng)站提供抽取標(biāo)簽的自動推薦功能(本文定義為機(jī)器生成標(biāo)簽)。當(dāng)前的標(biāo)簽生成研究對其內(nèi)容與社會化屬性的結(jié)合研究仍不夠深入。標(biāo)簽的個性化和模糊化特征使得社會化標(biāo)簽系統(tǒng)中存在大量無用、冗余以及語義不明確的標(biāo)簽。同時,標(biāo)簽在Web文本的聚類方面的應(yīng)用多為單語言Web文本聚類且只把標(biāo)簽作為聚類的補(bǔ)充。針對以上問題,本文以多語言的社會化標(biāo)簽聚類及可視化為研究目標(biāo),從社會化標(biāo)簽提取、聚類與可視化以及社會化標(biāo)簽在文本聚類中的應(yīng)用等幾個方面進(jìn)行了研究。具體研究內(nèi)容包括如下三個方面:首先,在社會化標(biāo)簽屬性的研究中,本文將標(biāo)簽分為兩類,用戶標(biāo)注標(biāo)簽和機(jī)器抽取標(biāo)簽,并分別對結(jié)合內(nèi)容屬性與社會化屬性的兩類標(biāo)簽的聚類結(jié)果進(jìn)行分析與討論。實驗結(jié)果表明內(nèi)容與用戶特征的結(jié)合能夠在用戶分類的情況下能夠提高標(biāo)簽聚類結(jié)果,滿足對用戶的個性化標(biāo)簽聚類結(jié)果的需要!浯,在多語言標(biāo)簽聚類與可視化研究中,本文采用更全面的標(biāo)簽特征抽取方法,即通過內(nèi)容與社會化屬性的結(jié)合來提高抽取標(biāo)簽的質(zhì)量,結(jié)合用戶標(biāo)注標(biāo)簽,優(yōu)化最終的標(biāo)簽聚類效果,并對網(wǎng)絡(luò)資源進(jìn)行多語言標(biāo)簽映射,并實現(xiàn)其可視化。實驗結(jié)果表明對于平行語料的兩種多語言標(biāo)簽聚類方法,單語言二次聚類結(jié)果優(yōu)于混合標(biāo)簽的一次聚類結(jié)果。平行語料的多語言標(biāo)簽聚類結(jié)果優(yōu)于可比語料基于雙語詞典映射的多語言標(biāo)簽聚類結(jié)果。最后,在社會化標(biāo)簽的應(yīng)用研究中,本文針對傳統(tǒng)文本聚類的不足,將社會化標(biāo)簽引入到文本聚類中。比較基于文本內(nèi)容、基于用戶標(biāo)簽及不同的加權(quán)算法的結(jié)合,分析不同語言文本聚類結(jié)果的差異,實驗結(jié)果表明選用不同的特征抽取方法和不同的加權(quán)方法中的文本聚類結(jié)果表現(xiàn)不同。在Web文本聚類中,內(nèi)容特征與社會化特征的結(jié)合能夠?qū)ξ谋揪垲惼鸬礁纳谱饔?應(yīng)重視社會化特征在Web文本聚類中的作用和意義。另外通過機(jī)器翻譯和二次聚類的方法,得到多語言文本的聚類結(jié)果。通過以上三個方面的研究,本文基本實現(xiàn)了多語言社會化標(biāo)簽聚類及可視化,該研究對在多語言網(wǎng)站上的標(biāo)簽聚類及應(yīng)用研究具有參考價值。
【關(guān)鍵詞】:社會化標(biāo)簽 標(biāo)簽抽取 標(biāo)簽聚類 聚類結(jié)果可視化 Web文本聚類
【學(xué)位授予單位】:南京理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;G252.7
【目錄】:
- 摘要5-6
- Abstract6-13
- 1 緒論13-20
- 1.1 研究背景與意義13-17
- 1.2 本文主要研究內(nèi)容17-19
- 1.3 本文創(chuàng)新點19
- 1.4 本文組織結(jié)構(gòu)19-20
- 2 相關(guān)文獻(xiàn)綜述20-31
- 2.1 關(guān)鍵詞與標(biāo)簽自動抽取研究概述20-23
- 2.1.1 關(guān)鍵詞自動抽取研究概述20-22
- 2.1.2 標(biāo)簽自動抽取研究概述22-23
- 2.2 標(biāo)簽相似度研究概述23-24
- 2.2.1 基于標(biāo)簽與外部資源的相似度23
- 2.2.2 基于標(biāo)簽所標(biāo)注資源的相似度23-24
- 2.2.3 標(biāo)簽和資源構(gòu)成的關(guān)系圖24
- 2.3 聚類分析研究概述24-26
- 2.3.1 聚類方法概述24-26
- 2.3.2 標(biāo)簽聚類概述26
- 2.4 標(biāo)簽云圖生成研究概述26-29
- 2.4.1 標(biāo)簽云圖的表現(xiàn)方法26-27
- 2.4.2 標(biāo)簽云圖的表現(xiàn)形式27-29
- 2.5 標(biāo)簽在文本聚類中的應(yīng)用研究概述29-30
- 2.5.1 基于用戶標(biāo)簽的文本聚類方法29-30
- 2.5.2 基于內(nèi)容和標(biāo)簽的文本聚類方法30
- 2.6 本章小結(jié)30-31
- 3 標(biāo)簽屬性對標(biāo)簽聚類的影響研究31-43
- 3.1 用戶標(biāo)注標(biāo)簽的特征研究31-39
- 3.1.1 研究流程圖31-32
- 3.1.2 關(guān)鍵技術(shù)說明32-34
- 3.1.3 實驗結(jié)果與分析34-39
- 3.2 機(jī)器抽取標(biāo)簽的特征研究39-42
- 3.2.1 研究流程圖39-40
- 3.2.2 關(guān)鍵技術(shù)說明40
- 3.2.3 實驗結(jié)果與分析40-42
- 3.3 本章小結(jié)42-43
- 4 中英文標(biāo)簽聚類及標(biāo)簽云圖生成研究43-55
- 4.1 研究流程圖43-44
- 4.2 關(guān)鍵技術(shù)說明44-46
- 4.2.1 數(shù)據(jù)預(yù)處理44
- 4.2.2 標(biāo)簽特征選擇44
- 4.2.3 中英文標(biāo)簽聚類及映射44-45
- 4.2.4 標(biāo)簽云圖生成45-46
- 4.3 實驗結(jié)果與分析46-53
- 4.3.1 實驗數(shù)據(jù)概述46-47
- 4.3.2 實驗結(jié)果分析47-49
- 4.3.3 標(biāo)簽云圖展示49-53
- 4.4 本章小節(jié)53-55
- 5 標(biāo)簽在中英文文本聚類中的應(yīng)用研究55-61
- 5.1 研究流程圖55-56
- 5.2 關(guān)鍵技術(shù)說明56-58
- 5.2.1 數(shù)據(jù)預(yù)處理56-57
- 5.2.2 文本表達(dá)和特征抽取57
- 5.2.3 文本相似度計算與加權(quán)及聚類實現(xiàn)57-58
- 5.3 實驗結(jié)果與評測58-60
- 5.3.1 實驗數(shù)據(jù)58
- 5.3.2 實驗結(jié)果與分析58-60
- 5.4 本章小結(jié)60-61
- 6 結(jié)論與展望61-63
- 6.1 研究總結(jié)61-62
- 6.2 研究展望62-63
- 致謝63-64
- 參考文獻(xiàn)64-71
- 附錄A:個人簡介71-72
- 附錄B:平行語料多語言標(biāo)簽聚類結(jié)果72-78
- 附錄C:可比語料多語言標(biāo)簽聚類結(jié)果78-82
- 附錄D:多語言文檔聚類結(jié)果82-88
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 徐少同;;網(wǎng)絡(luò)信息自組織視角下的Folksonomy優(yōu)化[J];圖書情報工作;2009年10期
2 鐘青燕;蘇一丹;梁勝勇;;基于層次聚類和語義的標(biāo)簽推薦研究[J];微計算機(jī)信息;2010年36期
3 周津;陳超;俞能海;;采用對象特征向量表示法的標(biāo)簽聚類算法[J];小型微型計算機(jī)系統(tǒng);2012年03期
本文關(guān)鍵詞:多語言社會化標(biāo)簽聚類及可視化研究,由筆耕文化傳播整理發(fā)布。
本文編號:341685
本文鏈接:http://www.sikaile.net/tushudanganlunwen/341685.html
最近更新
教材專著