天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

搜索結(jié)果智能處理技術(shù)研究

發(fā)布時間:2017-09-10 21:25

  本文關(guān)鍵詞:搜索結(jié)果智能處理技術(shù)研究


  更多相關(guān)文章: 搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類


【摘要】:伴隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展成熟,網(wǎng)絡(luò)信息量與日俱增,從網(wǎng)絡(luò)中檢索需要的信息早已成為許多人生活中不可或缺的一部分。其中最常用的信息檢索手段是搜索引擎,但豐富的網(wǎng)絡(luò)信息使得搜索引擎返回結(jié)果數(shù)量極為龐大。因此,為減少查詢搜索結(jié)果信息而產(chǎn)生的搜索結(jié)果智能處理技術(shù)就變得十分重要。本文通過對搜索結(jié)果智能處理的整個步驟環(huán)節(jié)進(jìn)行了研究,提出了結(jié)合數(shù)據(jù)采集、自然語言處理與數(shù)據(jù)挖掘的解決方案。 對搜索引擎數(shù)據(jù)采集方法,本文采用網(wǎng)頁內(nèi)容抓取方法避免了搜索引擎以及相關(guān)API對訪問量和訪問頻率的限制。 對搜索條目的自然語言處理,在分詞環(huán)節(jié)中本文提出了一種基于統(tǒng)計學(xué)概率算法的分詞字典擴(kuò)充方法,從而彌補(bǔ)了傳統(tǒng)字典分詞算法對新生網(wǎng)絡(luò)語言處理方面的不足。并能夠應(yīng)用分詞字典擴(kuò)充方法挖掘語料中的新生詞匯;在文本向量空間模型建立環(huán)節(jié)本文提出了基于句子中詞語間關(guān)系的文本向量化算法,通過句中詞語之間相鄰、修飾、指代等關(guān)系進(jìn)行PageRank迭代來計算文本向量,在分類準(zhǔn)確率方面優(yōu)于傳統(tǒng)的基于統(tǒng)計量的文本向量化算法,而且更加適用于類似搜索引擎結(jié)果條目這樣的較短文本。 對搜索結(jié)果的處理,本文考慮到搜索結(jié)果條目重要程度差異極大的情況提出了先對關(guān)鍵元素進(jìn)行聚類,再對次要元素分類歸入的方法,保證了最終類別形成符合實(shí)際情況。并通過建立聚類結(jié)果評估機(jī)制來確保歸類數(shù)目的準(zhǔn)確性,對有歧義搜索關(guān)鍵字搜索結(jié)果的處理產(chǎn)生了良好的效果。在最終返回結(jié)果之前,本文還通過計算不同搜索引擎的權(quán)重分配、搜索條目的重復(fù)狀況以及搜索條目內(nèi)容的重要程度來對搜索結(jié)果條目信息進(jìn)行排序。 本文提出的搜索結(jié)果智能處理方法具有良好的可擴(kuò)展性,且兼具元搜索功能,能夠有效支持多個搜索引擎作為數(shù)據(jù)來源。實(shí)驗(yàn)中通過選取一些典型的有歧義的搜索關(guān)鍵詞進(jìn)行聚類-分類處理,,從結(jié)果中可以看出形成的類別數(shù)目符合人們的正常理解,條目分類的準(zhǔn)確率使用F1-Measure衡量為81.818%,符合預(yù)期,表明本文提出的搜索結(jié)果智能處理方法能夠較好地應(yīng)用。
【關(guān)鍵詞】:搜索結(jié)果 分詞 數(shù)據(jù)挖掘 向量化 聚類
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要3-5
  • ABSTRACT5-9
  • 第一章 緒論9-13
  • 1.1. 研究背景和意義9-10
  • 1.2. 相關(guān)的研究現(xiàn)狀10-11
  • 1.3. 論文的主要工作11
  • 1.4. 論文的結(jié)構(gòu)安排11-13
  • 第二章 搜索引擎內(nèi)容抓取方法研究13-20
  • 2.1. 搜索引擎 API 的功能與使用方式13-15
  • 2.1.1. 搜索引擎 API 的介紹13
  • 2.1.2. Google 搜索 API 的功能與使用方式13-15
  • 2.1.3. 搜索引擎 API 的不足15
  • 2.2. 針對網(wǎng)頁的內(nèi)容抓取方法15-19
  • 2.2.1. 搜索結(jié)果網(wǎng)頁頁面結(jié)構(gòu)15-17
  • 2.2.2. 網(wǎng)頁結(jié)果的獲取17-18
  • 2.2.3. 通過網(wǎng)頁內(nèi)容抓取條目的優(yōu)劣分析18-19
  • 2.3. 本章小結(jié)19-20
  • 第三章 分詞與熱點(diǎn)新詞挖掘算法研究20-27
  • 3.1. 分詞算法20-23
  • 3.1.1. 分詞算法解決的主要問題20-21
  • 3.1.2. 基于字典的分詞算法21-22
  • 3.1.3. 無字典分詞算法22-23
  • 3.2. 分詞字典的擴(kuò)充23-24
  • 3.3. 新詞挖掘算法24-26
  • 3.4. 本章小結(jié)26-27
  • 第四章 文本向量化算法研究27-36
  • 4.1. 傳統(tǒng)的文本向量化方法27-28
  • 4.2. PageRank 算法概述28-30
  • 4.3. 基于句中詞語間關(guān)系的文本表示方法30-35
  • 4.3.1. 概念說明30-31
  • 4.3.2. 算法初始化(建立圖模型)31-32
  • 4.3.3. 算法迭代過程32
  • 4.3.4. 算法詳細(xì)說明32-34
  • 4.3.5. 迭代可行性的證明34-35
  • 4.4. 本章小結(jié)35-36
  • 第五章 搜索結(jié)果的數(shù)據(jù)挖掘36-48
  • 5.1. 結(jié)果條目的重復(fù)刪除36-38
  • 5.1.1. 針對 URL 的重復(fù)刪除36-37
  • 5.1.2. 針對內(nèi)容的重復(fù)刪除37-38
  • 5.2. 搜索結(jié)果類別發(fā)現(xiàn)38-41
  • 5.2.1. 聚類算法38
  • 5.2.2. 搜索條目聚類特點(diǎn)38-39
  • 5.2.3. 聚類方法選擇39-40
  • 5.2.4. 聚類結(jié)果的評價40-41
  • 5.3. 次要條目分類過程41-43
  • 5.4. 結(jié)果排序推薦算法43-47
  • 5.4.1. 搜索引擎權(quán)重計算43-47
  • 5.4.2. 結(jié)果條目排序方法47
  • 5.5. 本章小結(jié)47-48
  • 第六章 實(shí)驗(yàn)與測試48-61
  • 6.1. 測試集說明49
  • 6.2. 內(nèi)容抓取測試49-50
  • 6.3. 文本向量化實(shí)驗(yàn)50-52
  • 6.4. 數(shù)據(jù)挖掘?qū)嶒?yàn)52-56
  • 6.5. 搜索引擎權(quán)重實(shí)驗(yàn)56-60
  • 6.6. 本章小結(jié)60-61
  • 第七章 總結(jié)與展望61-63
  • 7.1. 本文工作總結(jié)61-62
  • 7.2. 研究展望62-63
  • 參考文獻(xiàn)63-66
  • 致謝66-67
  • 攻讀碩士學(xué)位期間已發(fā)表或錄用的論文67
  • 攻讀碩士學(xué)位期間參加的課題與項目67-69

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 徐澤水,達(dá)慶利;衡量判斷矩陣相容性的一個通用指標(biāo)[J];東南大學(xué)學(xué)報(自然科學(xué)版);2001年06期

2 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

3 梁j,盛昭翰,徐南榮;一種改進(jìn)的層次分析法[J];系統(tǒng)工程;1989年03期

4 胡佳妮,徐蔚然,郭軍,鄧偉洪;中文文本分類中的特征選擇算法研究[J];光通信研究;2005年03期

5 李靜梅,孫麗華,張巧榮,張春生;一種文本處理中的樸素貝葉斯分類器[J];哈爾濱工程大學(xué)學(xué)報;2003年01期

6 張惟皎,劉春煌,李芳玉;聚類質(zhì)量的評價方法[J];計算機(jī)工程;2005年20期

7 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機(jī)學(xué)報;2011年05期

8 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計算機(jī)與數(shù)字工程;2009年03期

9 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計算機(jī)應(yīng)用研究;2007年01期

10 程陳;齊開悅;陳劍波;;基于Web2.0的綜合搜索引擎[J];計算機(jī)應(yīng)用與軟件;2010年01期



本文編號:826736

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/826736.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b603***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com