搜索結(jié)果智能處理技術(shù)研究
本文關(guān)鍵詞:搜索結(jié)果智能處理技術(shù)研究
更多相關(guān)文章: 搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類
【摘要】:伴隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展成熟,網(wǎng)絡(luò)信息量與日俱增,從網(wǎng)絡(luò)中檢索需要的信息早已成為許多人生活中不可或缺的一部分。其中最常用的信息檢索手段是搜索引擎,但豐富的網(wǎng)絡(luò)信息使得搜索引擎返回結(jié)果數(shù)量極為龐大。因此,為減少查詢搜索結(jié)果信息而產(chǎn)生的搜索結(jié)果智能處理技術(shù)就變得十分重要。本文通過對搜索結(jié)果智能處理的整個步驟環(huán)節(jié)進(jìn)行了研究,提出了結(jié)合數(shù)據(jù)采集、自然語言處理與數(shù)據(jù)挖掘的解決方案。 對搜索引擎數(shù)據(jù)采集方法,本文采用網(wǎng)頁內(nèi)容抓取方法避免了搜索引擎以及相關(guān)API對訪問量和訪問頻率的限制。 對搜索條目的自然語言處理,在分詞環(huán)節(jié)中本文提出了一種基于統(tǒng)計學(xué)概率算法的分詞字典擴(kuò)充方法,從而彌補(bǔ)了傳統(tǒng)字典分詞算法對新生網(wǎng)絡(luò)語言處理方面的不足。并能夠應(yīng)用分詞字典擴(kuò)充方法挖掘語料中的新生詞匯;在文本向量空間模型建立環(huán)節(jié)本文提出了基于句子中詞語間關(guān)系的文本向量化算法,通過句中詞語之間相鄰、修飾、指代等關(guān)系進(jìn)行PageRank迭代來計算文本向量,在分類準(zhǔn)確率方面優(yōu)于傳統(tǒng)的基于統(tǒng)計量的文本向量化算法,而且更加適用于類似搜索引擎結(jié)果條目這樣的較短文本。 對搜索結(jié)果的處理,本文考慮到搜索結(jié)果條目重要程度差異極大的情況提出了先對關(guān)鍵元素進(jìn)行聚類,再對次要元素分類歸入的方法,保證了最終類別形成符合實(shí)際情況。并通過建立聚類結(jié)果評估機(jī)制來確保歸類數(shù)目的準(zhǔn)確性,對有歧義搜索關(guān)鍵字搜索結(jié)果的處理產(chǎn)生了良好的效果。在最終返回結(jié)果之前,本文還通過計算不同搜索引擎的權(quán)重分配、搜索條目的重復(fù)狀況以及搜索條目內(nèi)容的重要程度來對搜索結(jié)果條目信息進(jìn)行排序。 本文提出的搜索結(jié)果智能處理方法具有良好的可擴(kuò)展性,且兼具元搜索功能,能夠有效支持多個搜索引擎作為數(shù)據(jù)來源。實(shí)驗(yàn)中通過選取一些典型的有歧義的搜索關(guān)鍵詞進(jìn)行聚類-分類處理,,從結(jié)果中可以看出形成的類別數(shù)目符合人們的正常理解,條目分類的準(zhǔn)確率使用F1-Measure衡量為81.818%,符合預(yù)期,表明本文提出的搜索結(jié)果智能處理方法能夠較好地應(yīng)用。
【關(guān)鍵詞】:搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要3-5
- ABSTRACT5-9
- 第一章 緒論9-13
- 1.1. 研究背景和意義9-10
- 1.2. 相關(guān)的研究現(xiàn)狀10-11
- 1.3. 論文的主要工作11
- 1.4. 論文的結(jié)構(gòu)安排11-13
- 第二章 搜索引擎內(nèi)容抓取方法研究13-20
- 2.1. 搜索引擎 API 的功能與使用方式13-15
- 2.1.1. 搜索引擎 API 的介紹13
- 2.1.2. Google 搜索 API 的功能與使用方式13-15
- 2.1.3. 搜索引擎 API 的不足15
- 2.2. 針對網(wǎng)頁的內(nèi)容抓取方法15-19
- 2.2.1. 搜索結(jié)果網(wǎng)頁頁面結(jié)構(gòu)15-17
- 2.2.2. 網(wǎng)頁結(jié)果的獲取17-18
- 2.2.3. 通過網(wǎng)頁內(nèi)容抓取條目的優(yōu)劣分析18-19
- 2.3. 本章小結(jié)19-20
- 第三章 分詞與熱點(diǎn)新詞挖掘算法研究20-27
- 3.1. 分詞算法20-23
- 3.1.1. 分詞算法解決的主要問題20-21
- 3.1.2. 基于字典的分詞算法21-22
- 3.1.3. 無字典分詞算法22-23
- 3.2. 分詞字典的擴(kuò)充23-24
- 3.3. 新詞挖掘算法24-26
- 3.4. 本章小結(jié)26-27
- 第四章 文本向量化算法研究27-36
- 4.1. 傳統(tǒng)的文本向量化方法27-28
- 4.2. PageRank 算法概述28-30
- 4.3. 基于句中詞語間關(guān)系的文本表示方法30-35
- 4.3.1. 概念說明30-31
- 4.3.2. 算法初始化(建立圖模型)31-32
- 4.3.3. 算法迭代過程32
- 4.3.4. 算法詳細(xì)說明32-34
- 4.3.5. 迭代可行性的證明34-35
- 4.4. 本章小結(jié)35-36
- 第五章 搜索結(jié)果的數(shù)據(jù)挖掘36-48
- 5.1. 結(jié)果條目的重復(fù)刪除36-38
- 5.1.1. 針對 URL 的重復(fù)刪除36-37
- 5.1.2. 針對內(nèi)容的重復(fù)刪除37-38
- 5.2. 搜索結(jié)果類別發(fā)現(xiàn)38-41
- 5.2.1. 聚類算法38
- 5.2.2. 搜索條目聚類特點(diǎn)38-39
- 5.2.3. 聚類方法選擇39-40
- 5.2.4. 聚類結(jié)果的評價40-41
- 5.3. 次要條目分類過程41-43
- 5.4. 結(jié)果排序推薦算法43-47
- 5.4.1. 搜索引擎權(quán)重計算43-47
- 5.4.2. 結(jié)果條目排序方法47
- 5.5. 本章小結(jié)47-48
- 第六章 實(shí)驗(yàn)與測試48-61
- 6.1. 測試集說明49
- 6.2. 內(nèi)容抓取測試49-50
- 6.3. 文本向量化實(shí)驗(yàn)50-52
- 6.4. 數(shù)據(jù)挖掘?qū)嶒?yàn)52-56
- 6.5. 搜索引擎權(quán)重實(shí)驗(yàn)56-60
- 6.6. 本章小結(jié)60-61
- 第七章 總結(jié)與展望61-63
- 7.1. 本文工作總結(jié)61-62
- 7.2. 研究展望62-63
- 參考文獻(xiàn)63-66
- 致謝66-67
- 攻讀碩士學(xué)位期間已發(fā)表或錄用的論文67
- 攻讀碩士學(xué)位期間參加的課題與項目67-69
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐澤水,達(dá)慶利;衡量判斷矩陣相容性的一個通用指標(biāo)[J];東南大學(xué)學(xué)報(自然科學(xué)版);2001年06期
2 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期
3 梁j,盛昭翰,徐南榮;一種改進(jìn)的層次分析法[J];系統(tǒng)工程;1989年03期
4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期
5 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期
6 張惟皎,劉春煌,李芳玉;聚類質(zhì)量的評價方法[J];計算機(jī)工程;2005年20期
7 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機(jī)學(xué)報;2011年05期
8 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計算機(jī)與數(shù)字工程;2009年03期
9 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計算機(jī)應(yīng)用研究;2007年01期
10 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計算機(jī)應(yīng)用與軟件;2010年01期
本文編號:826736
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/826736.html