基于本體的電子商務(wù)信息抽取系統(tǒng)研究
本文關(guān)鍵詞:基于本體的電子商務(wù)信息抽取系統(tǒng)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:在近十年世界互聯(lián)網(wǎng)呈爆發(fā)式發(fā)展,據(jù)Gartner Dataquest最新調(diào)查顯示,目前,全球互聯(lián)網(wǎng)用戶在逐漸增多,其中近1/4用戶使用了高速互聯(lián)網(wǎng)服務(wù)。由互聯(lián)網(wǎng)衍生出來的新型產(chǎn)業(yè)就是電子商務(wù)網(wǎng)絡(luò)購物。據(jù)波士頓咨詢公司對中國用戶的調(diào)查報告顯示,在2009年有大約8%的中國網(wǎng)民通過網(wǎng)絡(luò)進行購物,而這一數(shù)據(jù)在2006年僅占3%,并且預(yù)計到2012年將達到達到19%。中國消費者的網(wǎng)購次數(shù)和金額也達到了一定的高度,約有50%的網(wǎng)購者一年的網(wǎng)購次數(shù)超過11次,近40%的人消費金額超過294美元。網(wǎng)絡(luò)購物將會掀起新一輪互聯(lián)網(wǎng)高潮。 隨著電子商務(wù)的快速發(fā)展,由此也帶來了許多問題。在網(wǎng)絡(luò)購物過程中,網(wǎng)站信息泛濫,用戶查詢信息的不方便,都在提醒著研究者們需要一種方便快捷的搜索工具。因此一些強大的搜索引擎出現(xiàn)了,Google,Baidu,Bing等,并且也都涉及了購物搜索領(lǐng)域。但是任何事物都不是完美的,由于是基于全文的檢索,所以在查詢及返回結(jié)果時,用戶得到的仍然是相關(guān)的信息頁,如果要得到需要的信息,仍然要從該結(jié)果中再次人工查詢。而信息抽取可以在一定程度上解決這個問題。 因此本文從電子商務(wù)網(wǎng)站入手,詳細分析了當(dāng)今電子商務(wù)網(wǎng)站以及目前較強大的網(wǎng)絡(luò)購物搜索引擎的特點。從目前形式來看,用戶需要更加方便快捷的搜索方式,本文將領(lǐng)域本體這一概念用來描述電子商務(wù)領(lǐng)域,借助本體描述提高電子商務(wù)領(lǐng)域中信息抽取的功能。本文通過Protégé構(gòu)建電子商務(wù)領(lǐng)域中的產(chǎn)品“電影DVD”本體,并且對類似網(wǎng)頁的基本結(jié)構(gòu)和內(nèi)容進行深入分析,構(gòu)建本體模型,在信息抽取過程中,使用詞性標(biāo)注對web文檔和本體建立連接,并且使用RDF對本體以及信息抽取規(guī)則進行描述。本文的目的是對電子商務(wù)網(wǎng)站產(chǎn)品信息進行抽取,為用戶抽取出準(zhǔn)確的信息。最后本文在自然語言處理工具GATE平臺對其進行實驗并得到抽取結(jié)果。
【關(guān)鍵詞】:信息抽取 本體 電子商務(wù) GATE
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 信息抽取技術(shù)產(chǎn)生的背景10-11
- 1.2 信息抽取技術(shù)的國內(nèi)外研究現(xiàn)狀11-13
- 1.3 研究目的和意義13-14
- 1.4 本課題研究的主要內(nèi)容14-15
- 1.5 論文結(jié)構(gòu)15-16
- 第2章 信息抽取技術(shù)概述16-22
- 2.1 信息抽取的概念16-17
- 2.2 信息抽取系統(tǒng)應(yīng)用系統(tǒng)比較17-18
- 2.3 信息抽取技術(shù)及其比較18-20
- 2.4 信息抽取系統(tǒng)存在的主要問題及發(fā)展趨勢20-22
- 第3章 基于本體的信息抽取技術(shù)分析22-30
- 3.1 本體基礎(chǔ)知識22-23
- 3.2 領(lǐng)域本體在信息抽取中的語義支持功能23-27
- 3.2.1 RDF 為信息抽取提供的語義描述24-26
- 3.2.2 信息抽取WEB文檔的語義標(biāo)注26-27
- 3.3 基于本體的信息抽取模型描述27-30
- 第4章 基于本體的電子商務(wù)領(lǐng)域產(chǎn)品描述30-37
- 4.1 電子商務(wù)網(wǎng)站特點分析30-32
- 4.2 購物搜索引擎分析32-34
- 4.3 電子商務(wù)產(chǎn)品(電影DVD)本體描述與表示34-37
- 第5章 基于本體的電子商務(wù)產(chǎn)品信息抽取實驗系統(tǒng)37-48
- 5.1 GATE 平臺概述37-38
- 5.2 基于本體的電子商務(wù)信息抽取系統(tǒng)模型38-40
- 5.3 基于本體的信息抽取實驗系統(tǒng)的規(guī)則及抽取流程40-44
- 5.3.1 信息抽取規(guī)則描述40-42
- 5.3.2 實驗系統(tǒng)的信息抽取流程42-44
- 5.4 GATE 平臺電子商務(wù)產(chǎn)品信息抽取實驗44-47
- 5.5 實驗結(jié)果分析47-48
- 結(jié)語48-50
- 參考文獻50-52
- 致謝52
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 韓洋;;利群集團 零售新徑[J];信息方略;2010年01期
2 秦麗;;家具展覽創(chuàng)電子商務(wù)先河[J];信息方略;2010年14期
3 陳韶霞;;計算機Web數(shù)據(jù)及其在電子商務(wù)中的應(yīng)用探析[J];現(xiàn)代商貿(mào)工業(yè);2011年12期
4 姚天祥;徐運紅;劉雙霞;;云計算在中小企業(yè)的電子商務(wù)中的應(yīng)用研究[J];電腦知識與技術(shù);2011年14期
5 張古明;;基于對電子商務(wù)網(wǎng)站建設(shè)的分析[J];黑龍江科技信息;2011年17期
6 于成龍;;中文網(wǎng)頁信息抽取技術(shù)及分類算法研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2011年03期
7 王宇;;基于ASP的電子商務(wù)網(wǎng)站中購物車設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2011年21期
8 樊蓉;;從營銷角度談電子商務(wù)網(wǎng)站功能[J];現(xiàn)代經(jīng)濟信息;2011年11期
9 丁建勇;徐茜;;國內(nèi)電子商務(wù)網(wǎng)站快遞業(yè)服務(wù)質(zhì)量評價與提升策略[J];無線互聯(lián)科技;2011年02期
10 王全劍;李芳;;基于Wikipedia的人名簡歷信息抽取[J];計算機應(yīng)用與軟件;2011年07期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 周坤;張軍;劉正捷;;電子商務(wù)網(wǎng)站商品列表頁的眼動研究[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
2 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點改進[A];全國第4屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
3 周述文;郭曉軍;孫愛平;湯海洪;;電子商務(wù)網(wǎng)站的分類及評價初探[A];面向復(fù)雜系統(tǒng)的管理理論與信息系統(tǒng)技術(shù)學(xué)術(shù)會議專輯[C];2000年
4 岳訓(xùn);孫忠林;孟小峰;;面向電子商務(wù)網(wǎng)站的個性化推薦系統(tǒng)研究[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
5 覃如賢;;電子商務(wù)網(wǎng)站重要功能模塊的設(shè)計和實現(xiàn)[A];2011高等職業(yè)教育電子信息類專業(yè)學(xué)術(shù)暨教學(xué)研討會論文集[C];2011年
6 董晏;;河南電子商務(wù)的初步探討[A];中國通信學(xué)會第五屆學(xué)術(shù)年會論文集[C];2008年
7 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年
8 楊禮茂;;C2C電子商務(wù)網(wǎng)站信任評價研究[A];第六屆(2011)中國管理學(xué)年會——市場營銷分會場論文集[C];2011年
9 吳雪軍;朱靖波;王會珍;葉娜;張宇新;;Co-Training的機器學(xué)習(xí)方法在中文機構(gòu)名識別中的應(yīng)用[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
10 郭星亞;;國際貿(mào)易中電子商務(wù)的法律問題[A];中國民商法實務(wù)論壇論文集[C];2005年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 李國敏;電子商務(wù)網(wǎng)站該不該收費?[N];科技日報;2005年
2 ;中國已有一千一百多個電子商務(wù)網(wǎng)站[N];中國鄉(xiāng)鎮(zhèn)企業(yè)報;2000年
3 李佳路;電子商務(wù)網(wǎng)站已超千個[N];中國知識產(chǎn)權(quán)報;2000年
4 記者 于士凱;電子商務(wù)網(wǎng)站開通“線下網(wǎng)店”[N];北京商報;2008年
5 記者 于士凱;海外網(wǎng)購“搶灘”中國市場[N];北京商報;2009年
6 記者 駱峰;云南大市場電子商務(wù)網(wǎng)站昆交會精彩亮相[N];云南政協(xié)報;2009年
7 許治飛;郵政電子商務(wù)網(wǎng)站發(fā)展的初步策略[N];中國郵政報;2009年
8 本報記者 俞悅;P.cn辟買家分紅新蹊徑[N];中國計算機報;2010年
9 馬蕾;電子商務(wù)網(wǎng)站“釣魚”泛濫[N];人民郵電;2010年
10 中國電子商務(wù)協(xié)會高級專家 電子商務(wù)誠信評價中心總監(jiān) 楊慶星;化點擊為購買 電子商務(wù)網(wǎng)站如何破局“信用門”[N];中國計算機報;2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉亞清;開放式環(huán)境中的本體演化及其在信息抽取的應(yīng)用研究[D];大連海事大學(xué);2011年
2 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年
4 張奇;信息抽取中實體關(guān)系識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年
5 胡國平;基于超大規(guī)模問答對庫和語音界面的非受限領(lǐng)域自動問答系統(tǒng)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
6 余傳明;基于本體的語義信息系統(tǒng)研究[D];武漢大學(xué);2005年
7 錢偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年
8 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年
9 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
10 滕偉;面向Web信息集成的Web信息抽取中若干關(guān)鍵問題的研究[D];上海交通大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金璐鈺;基于框架的事件抽取關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2010年
2 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年
3 田紅;表格信息抽取引擎的設(shè)計與實現(xiàn)[D];西北師范大學(xué);2004年
4 谷文;基于概念樹的Web信息抽取技術(shù)研究[D];長春工業(yè)大學(xué);2010年
5 郭力;Web正文信息抽取與面向?qū)哟谓Y(jié)構(gòu)的分類技術(shù)研究[D];華南理工大學(xué);2011年
6 楊文柱;基于領(lǐng)域知識和信息抽取的個性化Web查詢系統(tǒng)[D];河北大學(xué);2002年
7 張志強;Web信息抽取技術(shù)研究與基于Web service的實現(xiàn)[D];河北大學(xué);2004年
8 張靜;面向OA期刊檢索結(jié)果頁面的信息抽取方法研究[D];燕山大學(xué);2010年
9 陳蘭;基于ontology的信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
10 孟令謙;基于ontology的中文信息抽取系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2004年
本文關(guān)鍵詞:基于本體的電子商務(wù)信息抽取系統(tǒng)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:493138
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/493138.html