在線評(píng)論的個(gè)性化選擇算法研究
發(fā)布時(shí)間:2021-01-09 00:33
大量網(wǎng)絡(luò)平臺(tái)為了吸引更多的用戶和提高網(wǎng)站閱讀量而進(jìn)行有目的性的選擇評(píng)論,然而篩選出來的評(píng)論集合信息冗余問題非常嚴(yán)重。因此,為了滿足網(wǎng)站和用戶的雙重需求,選擇出與用戶偏好最為相似的個(gè)性化評(píng)論顯得尤為重要。最近研究表明,用戶在網(wǎng)站瀏覽和體驗(yàn)中,更關(guān)注與自身更相關(guān)的評(píng)論。針對(duì)上述問題,本文提出一種基于挖掘用戶個(gè)人偏好的個(gè)性化選擇算法,并將該算法應(yīng)用于餐館評(píng)論中。本文完成了以下主要工作:(1)通過對(duì)文本數(shù)據(jù)的處理,將利用深度學(xué)習(xí)中基于注意力機(jī)制的關(guān)鍵詞提取方法和層次聚類算法進(jìn)行組合,對(duì)用戶的歷史評(píng)論內(nèi)容進(jìn)行挖掘,以考慮用戶自身的關(guān)注度表示用戶的偏好。通過該組合進(jìn)行實(shí)驗(yàn),以向量形式表示用戶偏好。(2)定義評(píng)論選擇問題,除了考慮評(píng)論選擇的覆蓋率(即選擇出的評(píng)論在評(píng)論集合中的占比),還引入了評(píng)論的相似性和用戶個(gè)性化兩個(gè)選擇標(biāo)準(zhǔn)。在此基礎(chǔ)上,本文設(shè)計(jì)了個(gè)性化選擇算法并解決個(gè)性化評(píng)論選擇的問題,設(shè)置覆蓋率、相似性和用戶個(gè)性化為評(píng)論選擇的標(biāo)準(zhǔn),然后進(jìn)行個(gè)性化選擇,對(duì)不同的用戶選擇出一組K條評(píng)論。為了評(píng)估算法的優(yōu)化性能,使用調(diào)和平均值對(duì)相似性和用戶個(gè)性化進(jìn)行評(píng)估。(3)將本文的算法應(yīng)用于在線餐館評(píng)論進(jìn)行個(gè)性...
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學(xué)碩士學(xué)位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預(yù)處理文本處理的前面都要進(jìn)行文本預(yù)處理,本文的文本預(yù)處理包括以下幾個(gè)操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會(huì)有一些html標(biāo)簽或者是一些非英文的符號(hào)等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對(duì)于每個(gè)分句要進(jìn)行關(guān)鍵詞提取,因此對(duì)于長文本數(shù)據(jù),要進(jìn)行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會(huì)更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個(gè)短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標(biāo)點(diǎn)符號(hào),在文本分析和后面的關(guān)鍵詞提取時(shí)不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預(yù)處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進(jìn)行下面的關(guān)鍵詞提齲3.3關(guān)鍵詞提取關(guān)鍵詞提取是分析用戶偏好的至關(guān)重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應(yīng)用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會(huì)產(chǎn)生高度相關(guān)的關(guān)鍵詞。為了提取相關(guān)性高且精煉的關(guān)鍵系,通過神經(jīng)網(wǎng)絡(luò)的詞嵌入來獲取關(guān)鍵詞的分布。因此,本文利用基于深度學(xué)習(xí)的注意力機(jī)制的關(guān)鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關(guān)鍵詞。ABAE模型的最終目標(biāo)是通過引入注意力機(jī)制的方法從文檔中提取一組關(guān)鍵詞,且這組關(guān)鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個(gè)詞都表示為一個(gè)維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關(guān)鍵詞是從語料庫的單詞中獲取的,因此關(guān)鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個(gè)空間,關(guān)鍵詞的向量化矩陣是,表示定義的關(guān)鍵詞的數(shù)目,。關(guān)鍵詞向量化是在語料庫的詞匯中與關(guān)鍵詞近似的詞,而關(guān)鍵詞是通過注意力機(jī)制過濾出來的。ABAE有多個(gè)輸入,且每個(gè)輸入都對(duì)應(yīng)句子中的每個(gè)詞的索引列,進(jìn)行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機(jī)制降低非關(guān)鍵詞的權(quán)重,然后基于加權(quán)后的單詞向量構(gòu)建句子向量;第二步,用語料庫中關(guān)鍵詞向量化矩陣的線性組合,進(jìn)行降維并重新構(gòu)建句子向量化。ABAE重新構(gòu)建,使用最少的變化盡可能保存更多個(gè)關(guān)鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機(jī)制深度學(xué)習(xí)的研究在自然語言處理中,引入注意力機(jī)制(AttentionMechanism)就類
本文編號(hào):2965615
【文章來源】:西安石油大學(xué)陜西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
研究方法流程圖
西安石油大學(xué)碩士學(xué)位論文16圖3-1用戶偏好模型的創(chuàng)建流程圖3.2文本數(shù)據(jù)的預(yù)處理文本處理的前面都要進(jìn)行文本預(yù)處理,本文的文本預(yù)處理包括以下幾個(gè)操作:(1)除去數(shù)據(jù)中非文本部分:獲取到的英文文本中會(huì)有一些html標(biāo)簽或者是一些非英文的符號(hào)等,需要去掉。(2)拼寫檢查更正。(3)詞干提取和詞形還原:表示所有的詞匯為詞干形式。(4)分句:對(duì)于每個(gè)分句要進(jìn)行關(guān)鍵詞提取,因此對(duì)于長文本數(shù)據(jù),要進(jìn)行分句。(5)轉(zhuǎn)化為小寫:英文單詞有大小寫區(qū)分,因此將所有的詞都轉(zhuǎn)換為小寫會(huì)更好處理。(6)刪除停用詞組成的句子:刪除一些停用詞組成的某一個(gè)短分句,例如一些感嘆詞、停頓語氣詞等等。(7)引入停用詞:文本數(shù)據(jù)中,如“the”,“a”等這些無效詞匯及一些詞組中的多余標(biāo)點(diǎn)符號(hào),在文本分析和后面的關(guān)鍵詞提取時(shí)不需要,因此需要去掉這些。完成了上面的操作,就完成了文本預(yù)處理的基本步驟,得到?jīng)]有噪聲的文本數(shù)據(jù),然后進(jìn)行下面的關(guān)鍵詞提齲3.3關(guān)鍵詞提取關(guān)鍵詞提取是分析用戶偏好的至關(guān)重要的步驟之一,現(xiàn)有的研究中多數(shù)傾向于應(yīng)用
第三章用戶偏好模型的創(chuàng)建17主題模型的變體。然而,主題模型通常不會(huì)產(chǎn)生高度相關(guān)的關(guān)鍵詞。為了提取相關(guān)性高且精煉的關(guān)鍵系,通過神經(jīng)網(wǎng)絡(luò)的詞嵌入來獲取關(guān)鍵詞的分布。因此,本文利用基于深度學(xué)習(xí)的注意力機(jī)制的關(guān)鍵詞提。ˋttention-basedAspectExtraction,ABAE)來提取關(guān)鍵詞。ABAE模型的最終目標(biāo)是通過引入注意力機(jī)制的方法從文檔中提取一組關(guān)鍵詞,且這組關(guān)鍵詞可以通過查看它上下文的單詞來解釋。詞匯表中每個(gè)詞都表示為一個(gè)維的向量,所有的詞的向量化矩陣是,表示詞的數(shù)目。關(guān)鍵詞是從語料庫的單詞中獲取的,因此關(guān)鍵詞的向量維數(shù)和單詞的向量的維數(shù)是同一個(gè)空間,關(guān)鍵詞的向量化矩陣是,表示定義的關(guān)鍵詞的數(shù)目,。關(guān)鍵詞向量化是在語料庫的詞匯中與關(guān)鍵詞近似的詞,而關(guān)鍵詞是通過注意力機(jī)制過濾出來的。ABAE有多個(gè)輸入,且每個(gè)輸入都對(duì)應(yīng)句子中的每個(gè)詞的索引列,進(jìn)行以下兩步的操作,如圖3-2所示。主要步驟:第一步,通過注意力機(jī)制降低非關(guān)鍵詞的權(quán)重,然后基于加權(quán)后的單詞向量構(gòu)建句子向量;第二步,用語料庫中關(guān)鍵詞向量化矩陣的線性組合,進(jìn)行降維并重新構(gòu)建句子向量化。ABAE重新構(gòu)建,使用最少的變化盡可能保存更多個(gè)關(guān)鍵詞中的信息。圖3-2ABAE(Attention-basedAspectExtraction)模型3.3.1注意力機(jī)制深度學(xué)習(xí)的研究在自然語言處理中,引入注意力機(jī)制(AttentionMechanism)就類
本文編號(hào):2965615
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2965615.html
最近更新
教材專著