天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

產(chǎn)品屬性挖掘及應(yīng)用

發(fā)布時(shí)間:2017-05-04 02:11

  本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:基于互聯(lián)網(wǎng)發(fā)展起來(lái)的電子商務(wù)引領(lǐng)了消費(fèi)的新潮流,致使網(wǎng)絡(luò)中產(chǎn)品評(píng)論數(shù)據(jù)驟然增長(zhǎng),由于這些消費(fèi)者評(píng)論中包含用戶(hù)對(duì)產(chǎn)品功能屬性、部件屬性等有價(jià)值的評(píng)價(jià)信息,因此產(chǎn)品屬性挖掘技術(shù)應(yīng)運(yùn)而生。目前已有產(chǎn)品屬性挖掘技總結(jié)為人工定義和機(jī)器自動(dòng)識(shí)別兩種。人工定義的方法,是由領(lǐng)域?qū)<覛w納總結(jié)出屬性,方法雖然很準(zhǔn)確,但只能針對(duì)該領(lǐng)域進(jìn)行產(chǎn)品屬性提取,沒(méi)有通用性,可移植性不強(qiáng),無(wú)監(jiān)督的機(jī)器自動(dòng)識(shí)別方法,主要是利用自然語(yǔ)言處理技術(shù),但會(huì)增加品屬性的冗余度,降低準(zhǔn)確率。 本文針對(duì)以上研究存在的不足,以電子商務(wù)網(wǎng)站中的產(chǎn)品評(píng)論信息為研究對(duì)象,提出并實(shí)現(xiàn)了一種基于詞性模板的產(chǎn)品屬性挖掘方法,并將該方法針對(duì)復(fù)雜觀點(diǎn)句加以改進(jìn)。第一,通過(guò)分析電子商務(wù)網(wǎng)站的標(biāo)簽規(guī)則,爬取消費(fèi)者產(chǎn)品評(píng)論,建立原始評(píng)論數(shù)據(jù)庫(kù),得到產(chǎn)品屬性挖掘的數(shù)據(jù)語(yǔ)料庫(kù);第二,通過(guò)分句處理、詞性標(biāo)注對(duì)產(chǎn)品評(píng)論進(jìn)行預(yù)處理;第三,深入分析已完成詞性序列標(biāo)注的產(chǎn)品評(píng)論,利用詞性模板進(jìn)行特征歸類(lèi),最終得到“候選產(chǎn)品評(píng)論”、“無(wú)屬性評(píng)論”、“無(wú)觀點(diǎn)評(píng)論”、“非候選標(biāo)簽”四類(lèi)詞性序列特征;第四,通過(guò)窗口臨近原則,比較屬性值距屬性的距離向量大小,識(shí)別出候選產(chǎn)品評(píng)論的屬性和屬性值,得到正確的搭配關(guān)系;第五,對(duì)識(shí)別出的屬性進(jìn)行置信度計(jì)算,置信度越高是正確屬性的準(zhǔn)確率越大;第六,通過(guò)設(shè)置停用詞,進(jìn)一步降低地候選產(chǎn)品屬性的冗余度,提高屬性識(shí)別的準(zhǔn)確度。 本文對(duì)識(shí)別出的產(chǎn)品屬性的應(yīng)用進(jìn)行研究,首先,從消費(fèi)者的角度出發(fā),通過(guò)識(shí)別出的屬性以及屬性占比可得出產(chǎn)品最受消費(fèi)者關(guān)注的熱門(mén)屬性,已達(dá)到幫助潛在消費(fèi)者做出購(gòu)買(mǎi)決策的目的;其次,從企業(yè)的角度出發(fā),通過(guò)從已成交的消費(fèi)者評(píng)論中識(shí)別出的產(chǎn)品屬性,明確該類(lèi)產(chǎn)品的優(yōu)勢(shì)屬性和劣勢(shì)屬性,從而幫助企業(yè)改進(jìn)產(chǎn)品、提高質(zhì)量,及時(shí)修復(fù)潛在可能惡化的客戶(hù)關(guān)系。再次,從運(yùn)營(yíng)商的角度出發(fā),通過(guò)識(shí)別出第三方電子商務(wù)網(wǎng)站的屬性,可提高客戶(hù)對(duì)電商網(wǎng)站的依賴(lài)性,增加電商網(wǎng)站的用戶(hù)群。 本文的主要研究貢獻(xiàn):第一,通過(guò)改進(jìn)屬性提取分類(lèi)器架構(gòu),與基于名詞詞性模板得到候選產(chǎn)品評(píng)論的方法相比,提高了候選產(chǎn)品評(píng)論的有效度;第二,基于COAE2009提供的數(shù)據(jù)包,對(duì)詞性模板窗口閾值設(shè)置進(jìn)行分析,選取合適窗口值,降低候選產(chǎn)品屬性冗余度;第三,新增置信度計(jì)算模塊,根據(jù)屬性在文本中上下文的信息、頻率等特征,進(jìn)行置信度計(jì)算,提高品屬性識(shí)別的準(zhǔn)確度;第四,對(duì)識(shí)別出的產(chǎn)品屬性的應(yīng)用進(jìn)行研究,提高了產(chǎn)品屬性挖掘的研究?jī)r(jià)值。
【關(guān)鍵詞】:屬性 模板 置信度 應(yīng)用
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 1 引言8-14
  • 1.1 研究背景和意義8
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀8-10
  • 1.3 主要的研究?jī)?nèi)容10-11
  • 1.4 難點(diǎn)及解決方案11-12
  • 1.5 論文的組織結(jié)構(gòu)12-14
  • 2 技術(shù)綜述14-18
  • 2.1 產(chǎn)品屬性挖掘14
  • 2.2 HtmlParser技術(shù)14-15
  • 2.3 信息抽取技術(shù)15-16
  • 2.4 Html DOM樹(shù)16-17
  • 2.5 本章小結(jié)17-18
  • 3 詞性模板的產(chǎn)品屬性挖掘方法研究18-29
  • 3.1 網(wǎng)頁(yè)文本抽取解析18-20
  • 3.1.1 網(wǎng)頁(yè)URL采集18-19
  • 3.1.2 網(wǎng)頁(yè)文本提取19-20
  • 3.2 網(wǎng)頁(yè)文本抽取算法20-22
  • 3.2.1 URL信息采集算法20-21
  • 3.2.2 網(wǎng)頁(yè)文本抽取算法21
  • 3.2.3 網(wǎng)頁(yè)文本內(nèi)容去噪21-22
  • 3.3 基于詞性模的產(chǎn)品屬性挖掘22-26
  • 3.3.1 產(chǎn)品屬性挖掘整體架構(gòu)22-23
  • 3.3.2 產(chǎn)品屬性提取模板23-24
  • 3.3.3 模板窗口閾值設(shè)置24-25
  • 3.3.4 產(chǎn)品屬性置信度25-26
  • 3.4 基于詞性模板的產(chǎn)品屬性挖掘算法26-27
  • 3.5 本章小結(jié)27-29
  • 4 產(chǎn)品屬性的應(yīng)用29-33
  • 4.1 熱論商品榜29-30
  • 4.2 電子郵件營(yíng)銷(xiāo)30-31
  • 4.3 商品定位分析31-32
  • 4.4 本章小結(jié)32-33
  • 5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)33-48
  • 5.1 需求分析33-34
  • 5.1.1 需求概述33
  • 5.1.2 目標(biāo)概述33
  • 5.1.3 行環(huán)境33
  • 5.1.4 可行性分析33-34
  • 5.2 系統(tǒng)設(shè)計(jì)34-38
  • 5.2.1 系統(tǒng)框架設(shè)計(jì)34-35
  • 5.2.2 系統(tǒng)功能設(shè)計(jì)35-38
  • 5.3 系統(tǒng)實(shí)現(xiàn)38-46
  • 5.3.1 系統(tǒng)框架搭建38-40
  • 5.3.2 文本抽取系統(tǒng)實(shí)現(xiàn)40-42
  • 5.3.3 產(chǎn)品屬性挖掘系統(tǒng)42-46
  • 5.4 本章小結(jié)46-48
  • 6 實(shí)驗(yàn)結(jié)果和分析48-53
  • 6.1 實(shí)驗(yàn)數(shù)據(jù)48
  • 6.2 產(chǎn)品屬性挖掘?qū)嶒?yàn)48-52
  • 6.2.1 網(wǎng)頁(yè)文抽取實(shí)驗(yàn)與結(jié)果48-49
  • 6.2.2 產(chǎn)品屬性挖掘?qū)嶒?yàn)與結(jié)果49-50
  • 6.2.3 實(shí)驗(yàn)性能評(píng)價(jià)50-52
  • 6.3 本章小結(jié)52-53
  • 7 總結(jié)與展望53-55
  • 參考文獻(xiàn)55-58
  • 申請(qǐng)學(xué)位期間的研究成果及發(fā)表的學(xué)術(shù)論文58-59
  • 致謝59

【共引文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李向陽(yáng),苗壯;自由文本信息抽取技術(shù)[J];情報(bào)科學(xué);2004年07期

2 耿愛(ài)麗;孫建紅;;商務(wù)信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)設(shè)計(jì)[J];情報(bào)科學(xué);2006年09期

3 嚴(yán)建援;張麗;張蕾;;電子商務(wù)中在線評(píng)論內(nèi)容對(duì)評(píng)論有用性影響的實(shí)證研究[J];情報(bào)科學(xué);2012年05期

4 鄭彥寧;鄧擘;;信息抽取技術(shù)在情報(bào)學(xué)中的應(yīng)用分析[J];情報(bào)理論與實(shí)踐;2008年05期

5 耿煥同;宋慶席;何宏強(qiáng);;一種基于視覺(jué)分塊的Web信息抽取方法研究[J];情報(bào)理論與實(shí)踐;2009年03期

6 李向陽(yáng),張亞非;一種軍用文圖自動(dòng)轉(zhuǎn)換方案[J];情報(bào)指揮控制系統(tǒng)與仿真技術(shù);2004年05期

7 陳金鑫;羅立群;;基于主體知識(shí)庫(kù)的Web主體信息抽取系統(tǒng)[J];軟件導(dǎo)刊;2007年19期

8 孫文俊;薛博召;;圖書(shū)領(lǐng)域消費(fèi)者在線評(píng)論的有用性影響因素研究[J];江蘇商論;2011年05期

9 彭嵐;;電子口碑傳播:一個(gè)研究框架[J];西南農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2011年06期

10 熊明鋒,張寧,程世軍,許卓群;一種半自動(dòng)化安全數(shù)據(jù)交換模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2004年01期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 陳紅兵;;基于XML的電子政務(wù)信息集成框架[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年

2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國(guó)高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年

3 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹(shù)解析的網(wǎng)頁(yè)正文抽取方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年

4 ;A Classification Method for Web Information Extraction[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年

5 汪建偉;高軍;王騰蛟;楊冬青;;一種基于顯示屬性的網(wǎng)頁(yè)信息提取方法[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

6 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計(jì)算的信息抽取模板自動(dòng)獲取方法[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

7 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動(dòng)學(xué)習(xí)方法[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

8 鐘濤;陳群秀;;基于層式有限狀態(tài)自動(dòng)機(jī)的災(zāi)難事件抽取系統(tǒng)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

9 左南;李涓子;唐杰;;基于SVM的肖像照片抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 丁晟春;劉逶迤;熊霞;梅健;;基于領(lǐng)域本體和語(yǔ)塊分析的信息抽取的研究與實(shí)現(xiàn)[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 鄧斌;B2C在線評(píng)論中的客戶(hù)知識(shí)管理研究[D];電子科技大學(xué);2010年

2 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年

3 龍華;定義問(wèn)答檢索關(guān)鍵技術(shù)研究[D];重慶大學(xué);2010年

4 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

5 郭鴻志;多源語(yǔ)義知識(shí)庫(kù)融合方法研究[D];哈爾濱工業(yè)大學(xué);2011年

6 劉亞清;開(kāi)放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年

7 寇月;Deep Web實(shí)體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年

8 馬玉濤;在線客戶(hù)評(píng)論的產(chǎn)品族設(shè)計(jì)與加工方法研究[D];華中科技大學(xué);2012年

9 俞方樺;互聯(lián)網(wǎng)信息資源整合研究[D];東華大學(xué);2001年

10 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 樊敬川;Deep Web數(shù)據(jù)庫(kù)的選擇研究[D];河北大學(xué);2009年

2 陳曉慧;空間信息服務(wù)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東科技大學(xué);2010年

3 孫嶺;一種基于前綴表達(dá)式的Web信息抽取方法的關(guān)鍵問(wèn)題的實(shí)現(xiàn)[D];山東科技大學(xué);2010年

4 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計(jì)[D];哈爾濱工程大學(xué);2010年

5 王浩;NetFlow數(shù)據(jù)處理與異常檢測(cè)研究[D];哈爾濱工程大學(xué);2010年

6 王培正;基于Deep Web的網(wǎng)絡(luò)信息抽取技術(shù)研究[D];華南理工大學(xué);2010年

7 谷文;基于概念樹(shù)的Web信息抽取技術(shù)研究[D];長(zhǎng)春工業(yè)大學(xué);2010年

8 王葛;Deep Web接口集成與數(shù)據(jù)標(biāo)注方法研究[D];長(zhǎng)春工業(yè)大學(xué);2010年

9 黃亮;知識(shí)產(chǎn)權(quán)預(yù)警機(jī)制在服務(wù)外包平臺(tái)中的應(yīng)用研究[D];南昌大學(xué);2010年

10 賽子龍;日志分析數(shù)據(jù)同步機(jī)制在區(qū)域微軟技術(shù)中心營(yíng)運(yùn)平臺(tái)中的應(yīng)用研究[D];南昌大學(xué);2010年


  本文關(guān)鍵詞:產(chǎn)品屬性挖掘及應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):344205

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/344205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)18d3b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com