基于描述和用戶評(píng)論的App應(yīng)用市場(chǎng)信息挖掘
發(fā)布時(shí)間:2022-01-22 06:54
隨著移動(dòng)互聯(lián)網(wǎng)的不斷發(fā)展,各類應(yīng)用市場(chǎng)上出現(xiàn)了種類繁多的各種App,并包含了海量的用戶評(píng)論信息。提供一個(gè)合理的App的分類方案將會(huì)方便用戶按需選擇,從App的評(píng)論中發(fā)掘用戶的需求和反饋,將會(huì)幫助App開(kāi)發(fā)者更好地改進(jìn)服務(wù)。本文基于App的描述信息構(gòu)建了一個(gè)新的App功能分類體系,并且從用戶的評(píng)論中抽取用戶觀點(diǎn)匯聚出App的評(píng)論觀點(diǎn)標(biāo)簽并且挖掘出用戶的心理需求。以App開(kāi)發(fā)者對(duì)App的描述作為語(yǔ)料信息,基于主題模型構(gòu)建了一個(gè)新的App功能分類體系。針對(duì)華為應(yīng)用市場(chǎng)上2萬(wàn)款A(yù)pp,提取出了 12個(gè)App功能類別標(biāo)簽,并且得到了每款A(yù)pp在這12個(gè)功能標(biāo)簽下的分布。這樣的分類體系,可以更全面地展示出App的功能,方便用戶按需選用。用戶評(píng)論中觀點(diǎn)的自動(dòng)提取和聚合是對(duì)海量用戶評(píng)論進(jìn)行自動(dòng)分析的關(guān)鍵技術(shù)。本文設(shè)計(jì)了一種基于初始觀點(diǎn)詞性規(guī)則自動(dòng)迭代發(fā)現(xiàn)新的用戶觀點(diǎn)詞性規(guī)則的方法,來(lái)抽取用戶評(píng)論觀點(diǎn),比傳統(tǒng)的抽取方案能更加全面準(zhǔn)確地抽取出用戶觀點(diǎn)。并設(shè)計(jì)了一種新的評(píng)論觀點(diǎn)的聚類方法,對(duì)觀點(diǎn)按照極性進(jìn)行匯聚,最終生成每款A(yù)pp正面和負(fù)面的用戶評(píng)論觀點(diǎn)標(biāo)簽。按照心理學(xué)的觀點(diǎn),用戶對(duì)App的選擇體現(xiàn)了用戶的...
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.?1?Af)p評(píng)論條數(shù)分布圖??6??
?布場(chǎng)?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個(gè)主題,這三個(gè)主題的分布是{教育:0.2,經(jīng)??濟(jì):0.5,交通:0.3},每一個(gè)主題下面包含三個(gè)單詞,以交通為例,在該主題下??的詞分布為{飛機(jī):0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個(gè)層次化的表示方式,將上述過(guò)程進(jìn)行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個(gè)詞的生成方式:??(1)以先驗(yàn)概率p(di)選擇一篇文章di;??10??
?布場(chǎng)?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個(gè)主題,這三個(gè)主題的分布是{教育:0.2,經(jīng)??濟(jì):0.5,交通:0.3},每一個(gè)主題下面包含三個(gè)單詞,以交通為例,在該主題下??的詞分布為{飛機(jī):0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個(gè)層次化的表示方式,將上述過(guò)程進(jìn)行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個(gè)詞的生成方式:??(1)以先驗(yàn)概率p(di)選擇一篇文章di;??10??
【參考文獻(xiàn)】:
期刊論文
[1]基于句法分析的評(píng)價(jià)搭配抽取及其傾向性分析[J]. 張鐸,朱征宇. 世界科技研究與發(fā)展. 2013 (04)
[2]基于詞頻統(tǒng)計(jì)的中文分詞的研究[J]. 費(fèi)洪曉,康松林,朱小娟,謝文彪. 計(jì)算機(jī)工程與應(yīng)用. 2005(07)
碩士論文
[1]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
本文編號(hào):3601742
【文章來(lái)源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.?1?Af)p評(píng)論條數(shù)分布圖??6??
?布場(chǎng)?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個(gè)主題,這三個(gè)主題的分布是{教育:0.2,經(jīng)??濟(jì):0.5,交通:0.3},每一個(gè)主題下面包含三個(gè)單詞,以交通為例,在該主題下??的詞分布為{飛機(jī):0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個(gè)層次化的表示方式,將上述過(guò)程進(jìn)行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個(gè)詞的生成方式:??(1)以先驗(yàn)概率p(di)選擇一篇文章di;??10??
?布場(chǎng)?貨癤?道路?高鐵??圖3.2主題模型示意圖??以圖3.2為例,該文章包括了三個(gè)主題,這三個(gè)主題的分布是{教育:0.2,經(jīng)??濟(jì):0.5,交通:0.3},每一個(gè)主題下面包含三個(gè)單詞,以交通為例,在該主題下??的詞分布為{飛機(jī):0.1,道路:0.2,高鐵:0.7},則這篇文章生成單詞高鐵的概率就是:??p(高鐵|doc)?=?p(交通|doc)?*?p(高鐵丨交通)=0.21?(3.1)??主題模型找到了文檔的一個(gè)層次化的表示方式,將上述過(guò)程進(jìn)行抽象,就可??以得到pLSA[33]模型。pLSA模型的算法模型示意圖如圖3.3所示。pLSA模型中??一篇文章中的某個(gè)詞的生成方式:??(1)以先驗(yàn)概率p(di)選擇一篇文章di;??10??
【參考文獻(xiàn)】:
期刊論文
[1]基于句法分析的評(píng)價(jià)搭配抽取及其傾向性分析[J]. 張鐸,朱征宇. 世界科技研究與發(fā)展. 2013 (04)
[2]基于詞頻統(tǒng)計(jì)的中文分詞的研究[J]. 費(fèi)洪曉,康松林,朱小娟,謝文彪. 計(jì)算機(jī)工程與應(yīng)用. 2005(07)
碩士論文
[1]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
本文編號(hào):3601742
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3601742.html
最近更新
教材專著