搜索結(jié)果智能處理技術(shù)研究

發(fā)布時間：2017-09-10 21:25

本文關(guān)鍵詞：搜索結(jié)果智能處理技術(shù)研究

更多相關(guān)文章： 搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類

【摘要】：伴隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展成熟，網(wǎng)絡(luò)信息量與日俱增，從網(wǎng)絡(luò)中檢索需要的信息早已成為許多人生活中不可或缺的一部分。其中最常用的信息檢索手段是搜索引擎，但豐富的網(wǎng)絡(luò)信息使得搜索引擎返回結(jié)果數(shù)量極為龐大。因此，為減少查詢搜索結(jié)果信息而產(chǎn)生的搜索結(jié)果智能處理技術(shù)就變得十分重要。本文通過對搜索結(jié)果智能處理的整個步驟環(huán)節(jié)進(jìn)行了研究，提出了結(jié)合數(shù)據(jù)采集、自然語言處理與數(shù)據(jù)挖掘的解決方案。對搜索引擎數(shù)據(jù)采集方法，本文采用網(wǎng)頁內(nèi)容抓取方法避免了搜索引擎以及相關(guān)API對訪問量和訪問頻率的限制。對搜索條目的自然語言處理，在分詞環(huán)節(jié)中本文提出了一種基于統(tǒng)計學(xué)概率算法的分詞字典擴(kuò)充方法，從而彌補(bǔ)了傳統(tǒng)字典分詞算法對新生網(wǎng)絡(luò)語言處理方面的不足。并能夠應(yīng)用分詞字典擴(kuò)充方法挖掘語料中的新生詞匯；在文本向量空間模型建立環(huán)節(jié)本文提出了基于句子中詞語間關(guān)系的文本向量化算法，通過句中詞語之間相鄰、修飾、指代等關(guān)系進(jìn)行PageRank迭代來計算文本向量，在分類準(zhǔn)確率方面優(yōu)于傳統(tǒng)的基于統(tǒng)計量的文本向量化算法，而且更加適用于類似搜索引擎結(jié)果條目這樣的較短文本。對搜索結(jié)果的處理，本文考慮到搜索結(jié)果條目重要程度差異極大的情況提出了先對關(guān)鍵元素進(jìn)行聚類，再對次要元素分類歸入的方法，保證了最終類別形成符合實(shí)際情況。并通過建立聚類結(jié)果評估機(jī)制來確保歸類數(shù)目的準(zhǔn)確性，對有歧義搜索關(guān)鍵字搜索結(jié)果的處理產(chǎn)生了良好的效果。在最終返回結(jié)果之前，本文還通過計算不同搜索引擎的權(quán)重分配、搜索條目的重復(fù)狀況以及搜索條目內(nèi)容的重要程度來對搜索結(jié)果條目信息進(jìn)行排序。本文提出的搜索結(jié)果智能處理方法具有良好的可擴(kuò)展性，且兼具元搜索功能，能夠有效支持多個搜索引擎作為數(shù)據(jù)來源。實(shí)驗(yàn)中通過選取一些典型的有歧義的搜索關(guān)鍵詞進(jìn)行聚類-分類處理，，從結(jié)果中可以看出形成的類別數(shù)目符合人們的正常理解，條目分類的準(zhǔn)確率使用F1-Measure衡量為81.818%，符合預(yù)期，表明本文提出的搜索結(jié)果智能處理方法能夠較好地應(yīng)用。
【關(guān)鍵詞】：搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類
【學(xué)位授予單位】：上海交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP391.3
【目錄】：

摘要3-5
ABSTRACT5-9
第一章緒論9-13
1.1. 研究背景和意義9-10
1.2. 相關(guān)的研究現(xiàn)狀10-11
1.3. 論文的主要工作11
1.4. 論文的結(jié)構(gòu)安排11-13
第二章搜索引擎內(nèi)容抓取方法研究13-20
2.1. 搜索引擎 API 的功能與使用方式13-15
2.1.1. 搜索引擎 API 的介紹13
2.1.2. Google 搜索 API 的功能與使用方式13-15
2.1.3. 搜索引擎 API 的不足15
2.2. 針對網(wǎng)頁的內(nèi)容抓取方法15-19
2.2.1. 搜索結(jié)果網(wǎng)頁頁面結(jié)構(gòu)15-17
2.2.2. 網(wǎng)頁結(jié)果的獲取17-18
2.2.3. 通過網(wǎng)頁內(nèi)容抓取條目的優(yōu)劣分析18-19
2.3. 本章小結(jié)19-20
第三章分詞與熱點(diǎn)新詞挖掘算法研究20-27
3.1. 分詞算法20-23
3.1.1. 分詞算法解決的主要問題20-21
3.1.2. 基于字典的分詞算法21-22
3.1.3. 無字典分詞算法22-23
3.2. 分詞字典的擴(kuò)充23-24
3.3. 新詞挖掘算法24-26
3.4. 本章小結(jié)26-27
第四章文本向量化算法研究27-36
4.1. 傳統(tǒng)的文本向量化方法27-28
4.2. PageRank 算法概述28-30
4.3. 基于句中詞語間關(guān)系的文本表示方法30-35
4.3.1. 概念說明30-31
4.3.2. 算法初始化（建立圖模型）31-32
4.3.3. 算法迭代過程32
4.3.4. 算法詳細(xì)說明32-34
4.3.5. 迭代可行性的證明34-35
4.4. 本章小結(jié)35-36
第五章搜索結(jié)果的數(shù)據(jù)挖掘36-48
5.1. 結(jié)果條目的重復(fù)刪除36-38
5.1.1. 針對 URL 的重復(fù)刪除36-37
5.1.2. 針對內(nèi)容的重復(fù)刪除37-38
5.2. 搜索結(jié)果類別發(fā)現(xiàn)38-41
5.2.1. 聚類算法38
5.2.2. 搜索條目聚類特點(diǎn)38-39
5.2.3. 聚類方法選擇39-40
5.2.4. 聚類結(jié)果的評價40-41
5.3. 次要條目分類過程41-43
5.4. 結(jié)果排序推薦算法43-47
5.4.1. 搜索引擎權(quán)重計算43-47
5.4.2. 結(jié)果條目排序方法47
5.5. 本章小結(jié)47-48
第六章實(shí)驗(yàn)與測試48-61
6.1. 測試集說明49
6.2. 內(nèi)容抓取測試49-50
6.3. 文本向量化實(shí)驗(yàn)50-52
6.4. 數(shù)據(jù)挖掘?qū)嶒?yàn)52-56
6.5. 搜索引擎權(quán)重實(shí)驗(yàn)56-60
6.6. 本章小結(jié)60-61
第七章總結(jié)與展望61-63
7.1. 本文工作總結(jié)61-62
7.2. 研究展望62-63
參考文獻(xiàn)63-66
致謝66-67
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文67
攻讀碩士學(xué)位期間參加的課題與項目67-69

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 徐澤水,達(dá)慶利;衡量判斷矩陣相容性的一個通用指標(biāo)[J];東南大學(xué)學(xué)報(自然科學(xué)版);2001年06期

2 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

3 梁j,盛昭翰,徐南榮;一種改進(jìn)的層次分析法[J];系統(tǒng)工程;1989年03期

4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

5 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期

6 張惟皎,劉春煌,李芳玉;聚類質(zhì)量的評價方法[J];計算機(jī)工程;2005年20期

7 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機(jī)學(xué)報;2011年05期

8 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計算機(jī)與數(shù)字工程;2009年03期

9 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計算機(jī)應(yīng)用研究;2007年01期

10 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計算機(jī)應(yīng)用與軟件;2010年01期

本文編號：826736

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/826736.html

上一篇：碎片化時代的紙媒求新——兼談新聞客戶端選擇
下一篇：相似圖片搜索引擎發(fā)展及問題探析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

搜索結(jié)果智能處理技術(shù)研究