基于博文質(zhì)量評估的微博過濾研究
本文關(guān)鍵詞:基于博文質(zhì)量評估的微博過濾研究
更多相關(guān)文章: 微博過濾 模型 分解 性約束 約束
【摘要】:目前社交網(wǎng)絡(luò)媒體已逐漸取代傳統(tǒng)新聞媒體,成為人們獲取信息、交流觀點(diǎn)、發(fā)表意見的主要平臺。但是隨著微博參與者數(shù)量的爆發(fā)式增長,用戶面臨“信息過載,知識缺乏”的窘境。微博過濾技術(shù)能夠幫助用戶過濾無關(guān)垃圾信息,并根據(jù)用戶興趣挖掘相關(guān)內(nèi)容,因而得到研究者的廣泛關(guān)注。已有的研究表明,將微博過濾建模成簡單信息檢索問題無助于提高微博過濾性能。這主要是因?yàn)槲⒉┳鳛榈湫偷亩涛谋?微博過濾面臨極端的詞稀疏問題,導(dǎo)致傳統(tǒng)檢索模型無法有效估計(jì)參數(shù)而失效。有鑒于此,本文通過引入了微博博文質(zhì)量模型,將微博過濾問題建模成根據(jù)博文質(zhì)量,對檢索出的相關(guān)博文進(jìn)行深化排序的問題,提出了一種新穎的微博信息過濾處理框架。本文的主要貢獻(xiàn)包括:首先,本文給出了基于質(zhì)量模型的微博過濾系統(tǒng)設(shè)計(jì)。在對研究涉及的相關(guān)知識進(jìn)行綜述的基礎(chǔ)上,將微博過濾任務(wù)建模成依據(jù)博文質(zhì)量進(jìn)行的博文排序問題,提出了一種新穎的微博信息過濾處理框架,并詳細(xì)介紹了微博過濾系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)、關(guān)鍵模塊和功能描述。其次,本文研究了基于同質(zhì)性約束的微博內(nèi)容最優(yōu)低秩表達(dá)方法。考慮到微博內(nèi)容表達(dá)的不規(guī)范性,微博內(nèi)容特征往往很高但特征極其稀疏,給微博的分析和研究帶來了很大的不便;谏鲜隹紤],對微博“內(nèi)容—文檔”矩陣進(jìn)行因子化分解,用分解得到的低秩矩陣和微博檢索特征矩陣綜合得到了微博內(nèi)容特征表達(dá),并通過引入同質(zhì)性系數(shù)約束進(jìn)一步優(yōu)化表達(dá)矩陣。再次,本文研究了基于稀疏特征約束的博文質(zhì)量評估模型方法。我們根據(jù)微博內(nèi)容最優(yōu)低秩表達(dá),建立了微博博文質(zhì)量評估模型,根據(jù)博文質(zhì)量實(shí)現(xiàn)相關(guān)博文推薦和無關(guān)博文過濾。同時為了減少微博質(zhì)量評估模型的復(fù)雜度、降低回歸模型的分類風(fēng)險,使用基于稀疏特征約束的廣義線性回歸模型,進(jìn)一步降低微博博文質(zhì)量評估模型函數(shù)的特征變量依賴性。最后,本文在公開數(shù)據(jù)集上驗(yàn)證了算法的有效性,在TREC Microblog Track2015實(shí)驗(yàn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,和現(xiàn)有的微博過濾方法相比,本文提出的微博質(zhì)量模型可以對微博過濾系統(tǒng)的排序性能進(jìn)行優(yōu)化,平均NDCG值有了一定提高。
【關(guān)鍵詞】:微博過濾 模型 分解 性約束 約束
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.3
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-15
- 1.1. 研究背景以及意義9-10
- 1.2. 研究現(xiàn)狀10-12
- 1.2.1 國內(nèi)外研究現(xiàn)狀10-11
- 1.2.2 國內(nèi)研究現(xiàn)狀11-12
- 1.2.3 現(xiàn)有研究存在的問題12
- 1.3. 主要研究內(nèi)容12-13
- 1.4. 論文結(jié)構(gòu)13-15
- 第2章 相關(guān)技術(shù)研究綜述15-25
- 2.1. 微博過濾系統(tǒng)綜述15-17
- 2.1.1 信息檢索模型15-17
- 2.1.2 微博過濾17
- 2.2. 查詢擴(kuò)展技術(shù)17-20
- 2.2.1 基于近義詞詞典的查詢擴(kuò)展18
- 2.2.2 基于文檔集分析的查詢擴(kuò)展18-19
- 2.2.3 基于外部源查詢擴(kuò)展技術(shù)19-20
- 2.3. 矩陣分解20-22
- 2.3.1 奇異值分解20-21
- 2.3.2 非負(fù)矩陣分解21-22
- 2.4. 稀疏特征約束的正則化理論22-23
- 2.5. 本章小結(jié)23-25
- 第3章 基于博文質(zhì)量的微博過濾系統(tǒng)25-35
- 3.1. 問題建模25-26
- 3.2. 系統(tǒng)結(jié)構(gòu)26-29
- 3.3. 基于維基百科的查詢擴(kuò)展模塊29
- 3.4. 微博過濾系統(tǒng)29-31
- 3.5. 微博博文質(zhì)量模型31-33
- 3.6. 本章小結(jié)33-35
- 第4章 基于同質(zhì)性約束的微博內(nèi)容最優(yōu)低秩表達(dá)方法研究35-43
- 4.1. 相關(guān)知識理論35-38
- 4.1.1 非負(fù)矩陣分解技術(shù)35-37
- 4.1.2 同質(zhì)性系數(shù)37-38
- 4.2. 基于同質(zhì)性約束的微博內(nèi)容最優(yōu)低秩表達(dá)方法模型建模38
- 4.3. 基于同質(zhì)性約束的微博內(nèi)容最優(yōu)低秩表達(dá)方法求解38-41
- 4.4. 本章小結(jié)41-43
- 第5章 基于稀疏特征約束的博文質(zhì)量評估模型方法43-49
- 5.1. 基于稀疏特征約束的博文質(zhì)量評估模型建模43
- 5.2. 模型參數(shù)正則化43-45
- 5.3. L1-范數(shù)正則化45-46
- 5.4. 正則化優(yōu)化問題求解46-48
- 5.5. 本章小結(jié)48-49
- 第6章 實(shí)驗(yàn)設(shè)計(jì)以及結(jié)果分析49-59
- 6.1. 實(shí)驗(yàn)環(huán)境以及評價方法49
- 6.2. 數(shù)據(jù)組織49-50
- 6.3. 實(shí)驗(yàn)設(shè)計(jì)50-51
- 6.4. 實(shí)驗(yàn)結(jié)果51-56
- 6.5. 實(shí)驗(yàn)結(jié)果分析56-57
- 6.6. 實(shí)驗(yàn)總結(jié)57-59
- 結(jié)論59-61
- 參考文獻(xiàn)61-65
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文65-67
- 致謝67
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 詹旭;王岳秀;謝千河;;郵件病毒及過濾系統(tǒng)研究[J];成都信息工程學(xué)院學(xué)報;2009年01期
2 黃文良;陳純;羅云彬;;一種高效垃圾短信過濾系統(tǒng)的實(shí)現(xiàn)[J];電信科學(xué);2008年05期
3 陳麗萍;趙利平;陳新敏;;基于自學(xué)習(xí)規(guī)避庫的短消息過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2011年31期
4 楊濤;郭慶;;網(wǎng)絡(luò)通信中內(nèi)容過濾系統(tǒng)的重要性分析[J];數(shù)字化用戶;2013年03期
5 鄒鈺;;基于邏輯回歸模型的垃圾短信過濾系統(tǒng)的研究[J];數(shù)字技術(shù)與應(yīng)用;2013年02期
6 杜淑琴;肖杰浩;;基于神經(jīng)網(wǎng)絡(luò)的智能過濾系統(tǒng)的研究與設(shè)計(jì)[J];現(xiàn)代計(jì)算機(jī);2006年05期
7 黃文良;李石堅(jiān);劉菊新;徐從富;;一個大規(guī)模垃圾短信實(shí)時過濾系統(tǒng)[J];北京郵電大學(xué)學(xué)報;2008年03期
8 利娜;;基于云模式的新型過濾系統(tǒng)的研究[J];電腦知識與技術(shù);2013年02期
9 劉志英;;網(wǎng)絡(luò)通信中內(nèi)容過濾系統(tǒng)的重要性分析[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年22期
10 胡日勒;蔡潔;鐘義信;;短信過濾系統(tǒng)設(shè)計(jì)分析[J];計(jì)算機(jī)應(yīng)用研究;2008年08期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許方強(qiáng);;書畫展柜空氣凈化過濾系統(tǒng)的研究[A];面向21世紀(jì)的科技進(jìn)步與社會經(jīng)濟(jì)發(fā)展(上冊)[C];1999年
2 黃文良;李石堅(jiān);劉菊新;徐從富;;大規(guī)模垃圾短信實(shí)時過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
3 黃文良;李石堅(jiān);陸冠中;;大規(guī)模實(shí)時垃圾短信過濾系統(tǒng)[A];2007年中國通信學(xué)會“移動增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會論文集[C];2007年
4 婁奇襲;葉永生;;不銹鋼酸洗酸過濾系統(tǒng)功能淺析[A];2007中國鋼鐵年會論文集[C];2007年
5 謝國雄;;芒硝過濾系統(tǒng)運(yùn)行狀態(tài)淺析[A];全國制漿造紙行業(yè)國產(chǎn)二氧化氯裝備及節(jié)能減排新技術(shù)應(yīng)用推介會論文集[C];2011年
6 楊建紅;;網(wǎng)站過濾系統(tǒng)及其關(guān)鍵技術(shù)研究與開發(fā)[A];12省區(qū)市機(jī)械工程學(xué)會2006年學(xué)術(shù)年會湖北省論文集[C];2006年
7 吳志中;吳曉鈴;;液壓過濾系統(tǒng)的設(shè)計(jì)[A];第八屆全國設(shè)備與維修工程學(xué)術(shù)會議、第十三屆全國設(shè)備監(jiān)測與診斷學(xué)術(shù)會議論文集[C];2008年
8 李治國;;濕法煉鋅渣過濾系統(tǒng)改造實(shí)踐[A];全國“十二五”鉛鋅冶金技術(shù)發(fā)展論壇暨馳宏公司六十周年大慶學(xué)術(shù)交流會論文集[C];2010年
9 江濤;于洪志;徐濤;;互聯(lián)網(wǎng)藏文內(nèi)容安全檢測過濾系統(tǒng)研究[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
10 豆風(fēng)雷;蔡永泉;;互聯(lián)網(wǎng)WEB信息內(nèi)容過濾系統(tǒng)[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會論文集[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 記者 劉鋼;德將建立互聯(lián)網(wǎng)過濾系統(tǒng)[N];新華每日電訊;2000年
2 記者 劉鋼;德國將建立互聯(lián)網(wǎng)過濾系統(tǒng)[N];人民日報;2000年
3 本報記者 周昆;人造霧景兩大認(rèn)識誤區(qū)[N];中國花卉報;2009年
4 本報記者 那罡;新應(yīng)用為URL過濾系統(tǒng)帶來新挑戰(zhàn)[N];中國計(jì)算機(jī)報;2009年
5 記者 吳月輝;50層的樓安全又經(jīng)濟(jì)[N];新華每日電訊;2002年
6 記者 孟朝紅;三聚氰胺過濾系統(tǒng)瓶頸問題有望解決[N];中國化工報;2005年
7 葛秋芳;英國:放松并不放任[N];新華每日電訊;2007年
8 淡然;日本:“網(wǎng)絡(luò)威嚇”困擾年輕一代,單靠技術(shù)難解決[N];新華每日電訊;2007年
9 吳鳴剛;柴油顆粒過濾系統(tǒng)研發(fā)現(xiàn)狀[N];今日信息報;2003年
10 張旌;美國熱門大眾點(diǎn)評網(wǎng)疑敲詐企業(yè)[N];新華每日電訊;2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 米婧;基于文本內(nèi)容的垃圾短信過濾系統(tǒng)[D];北京理工大學(xué);2016年
2 劉陸陽;基于博文質(zhì)量評估的微博過濾研究[D];北京工業(yè)大學(xué);2016年
3 關(guān)婧;基于內(nèi)容的客戶端垃圾短信過濾系統(tǒng)的研究[D];北京郵電大學(xué);2008年
4 郭禎;基于客戶端的手機(jī)短信過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];海南大學(xué);2010年
5 張沛強(qiáng);未成年人上網(wǎng)內(nèi)容過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2008年
6 梁威;基于海量數(shù)據(jù)的內(nèi)容過濾系統(tǒng)的研究[D];武漢郵電科學(xué)研究院;2012年
7 高瑋;雨水過濾系統(tǒng)的建模與仿真實(shí)現(xiàn)[D];青島大學(xué);2007年
8 陳獻(xiàn)慶;應(yīng)用層協(xié)議過濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2010年
9 陸彩萍;前置式電子郵件過濾系統(tǒng)的性能改進(jìn)研究[D];上海交通大學(xué);2007年
10 張家勇;基于鏈路層數(shù)據(jù)的中文信息智能過濾系統(tǒng)研究[D];遼寧工程技術(shù)大學(xué);2007年
,本文編號:603937
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/603937.html