天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

短文本相似性的改進及其在電商評論推薦中的應用

發(fā)布時間:2021-11-22 20:47
  在常用評論特征的基礎上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評論與產(chǎn)品標題之間的相似性,并作為新的評論特征建立評論推薦模型。實驗證明,引入評論與產(chǎn)品相似性特征可明顯改進評論推薦機制的有效性,同時文本相似性評價的準確性可以借助搜索引擎得到較大提升。 

【文章來源】:工業(yè)工程與管理. 2019,24(05)北大核心CSSCI

【文章頁數(shù)】:7 頁

【部分圖文】:

短文本相似性的改進及其在電商評論推薦中的應用


圖3主題數(shù)目與對數(shù)似然率關系圖

關系圖,特征詞,主題,標題


應用3.3獲取特征向量(1)評論主題特征采用TF-IDF方法獲取評論關鍵詞后,應用LDA[15]方法,對整個評論集進行主題分析。本文以對數(shù)似然率為縱軸,得到其與評論集主題數(shù)量的關系如圖3所示,由此確定當前語料庫最佳主題數(shù)量為8。對每個主題下的特征詞進行總結并命名,依次為:服務、功能、聲音、使用、外觀、物流、性價比、質量,LDA得到的詞語交叉較為嚴重,借助word2vec[16]修正后結果如圖4所示。圖3主題數(shù)目與對數(shù)似然率關系圖圖4主題及部分特征詞圖(2)評論與產(chǎn)品標題相似性選擇SimSE、Simhash[17]、基于《現(xiàn)代漢語分類詞典》的相似性評價(SimilarityMeasurebasedonCidian,CD_Sim)[18]三種方法分別求解評論與產(chǎn)品標題相似性特征值,以作對比。(3)其余特征值選用漢語詞法分析系統(tǒng)對文本進行分析,統(tǒng)計詞性相關特征變量6個(名詞數(shù)量、動詞數(shù)量、形容詞數(shù)量、副詞數(shù)量、副形詞數(shù)量、詞性復雜度)。獲取情感極性分值變量2個(積極情感分值、消極情感分值)。(4)向量歸一化獲取評論的各維度特征后,選擇“最大值-最小值”歸一化,消除量綱的影響。加入評論的獲贊數(shù)作為預測變量,所得數(shù)據(jù)集示例如表2所示,示例中的相似性計算方法為SimSE方法。表2歸一化后數(shù)據(jù)集示例特征評論1評論2評論3評論長度0.2310.2250.0

變量,實驗結果


工業(yè)工程與管理第5期率、功能、圖片數(shù)量、形容詞數(shù)量、副形詞數(shù)量、詞性復雜度、評論長度、與產(chǎn)品標題相似性、性價比均對評論有效性有顯著的正向作用,表明評論內容越豐富深刻,獲贊數(shù)可能越高。評論時間對評論的有效性有顯著的負向作用,意味著評論時間越早,獲贊數(shù)具備越高的可能。圖5LASSO變量壓縮結果3.5實驗結果對比以是否加入三種方法所得評論與產(chǎn)品標題相似性特征為變量,隨機多次選取單個產(chǎn)品相關評論的80%(向下取整)作為訓練集,其余評論作為預測集。對評論集中11個產(chǎn)品分別建立4種支持向量機模型,模型含義如表3所示。對于每個產(chǎn)品的評論集,將點贊數(shù)去重后降序排列,選擇第10個值為邊界將評論集分為兩個子集,記為高贊評論集和其他評論集。由于點贊數(shù)與評論并非一一對應,因此,高贊評論集的元素個數(shù)一般大于10。表3四種模型的含義模型是否有相似性特征計算相似性的方法SVM否/SimSE-SVM是SimSESimhash-SVM是SimhashCD_Sim-SVM是CD_Sim選擇平均絕對誤差(MAE)、均方根誤差(RMSE)、模型對高贊評論的預測查準率(P)及召回率(R)作為評價指標,取每種模型對11個產(chǎn)品相關評論多次K-折交叉驗證的最優(yōu)結果的均值,對比如表4所示。P=TPTP+FP(17)R=TPTP+FN(18)其中,TP表示“預測為高贊評論,實際為高贊評論”,FP表示“

【參考文獻】:
期刊論文
[1]用戶評論信息特征與信息采納——產(chǎn)品涉入與社區(qū)涉入的不同調節(jié)作用[J]. 李雪,劉益,高偉.  情報科學. 2018(11)
[2]在線產(chǎn)品評論有用性識別方法研究[J]. 單曉紅,張曉月,劉曉燕,賈盼盼.  北京工業(yè)大學學報(社會科學版). 2018(05)
[3]服務型產(chǎn)品在線評論信息特征對評論感知有用性與購買意愿的影響[J]. 李啟庚,趙曉虹,余明陽.  工業(yè)工程與管理. 2017(06)
[4]基于分類詞典的文本相似性度量方法[J]. 李海林,鄒金串.  智能系統(tǒng)學報. 2017(04)
[5]基于奇異值分解的個性化評論推薦[J]. 余剛,王知衍,邵璐,胡舒悅,蔡毅.  電子科技大學學報. 2015(04)
[6]考慮觀點多樣性的評論選擇問題[J]. 余文喆,沙朝鋒,何曉豐,張蓉.  計算機研究與發(fā)展. 2015(05)
[7]供應商與客戶智能協(xié)同決策規(guī)則識別研究[J]. 劉翔,范嬌嬌.  中國商貿. 2013(06)
[8]圖像-文本相關性挖掘的Web圖像聚類方法[J]. 吳飛,韓亞洪,莊越挺,邵健.  軟件學報. 2010(07)

博士論文
[1]基于語義理解的意見挖掘研究[D]. 曹高輝.武漢大學 2010

碩士論文
[1]基于語義分析的文本相似性度量研究及應用[D]. 周萍.武漢工程大學 2017
[2]基于大數(shù)據(jù)平臺的在線評論有效性模型的研究與實現(xiàn)[D]. 李凱.北京郵電大學 2017



本文編號:3512416

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3512416.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f3a6d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com