基于詞向量的搜索詞分類、聚類研究
發(fā)布時間:2022-10-20 17:28
隨著信息技術的極速發(fā)展,互聯(lián)網(wǎng)信息呈現(xiàn)了指數(shù)型增長,人們只能在搜索引擎的幫助下從海量的信息當中獲得特定的信息。搜索引擎已經(jīng)成為了互聯(lián)網(wǎng)用戶不可或缺的應用。用戶的搜索行為直接或間接地反應了用戶的潛在興趣及需求。用戶提供的搜索詞是搜索行為當中最為重要的一部分。搜索詞的分析與挖掘能夠為精準定向廣告投放、搜索引擎性能優(yōu)化及用戶的個性化應用提供了堅實的基礎。其中對用戶提供的搜索詞進行主題分類是搜索詞分析技術當中應用最廣泛的技術之一。然而單條搜索詞往往非常短,利用傳統(tǒng)的文本特征抽取方法往往很難抽取到有效的語言特征。并且基于有監(jiān)督學習的分類方法往往需要有大量的訓練標注語料。然而人工標注的方法非常昂貴且浪費時間。本文提出的搜索詞分類算法及框架與之前的工作相比,主要改進如下:1)首次引入基于詞向量的搜索詞特征提取。搜索詞文本長度短,很難抽取到有效的語言特征。為了解決這個問題,本文引入詞向量的特征提出及表達,該方法能夠在保證實時性的情況下顯著提高了搜索詞聚類、分類效果。并且只需搜索引擎的搜索日志用于訓練詞向量模型,無需外部數(shù)據(jù)集輔助。2)在Word2Vec算法的基礎上提出CT-Word2Vec算法。CT-...
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 搜索詞挖掘技術的挑戰(zhàn)和現(xiàn)狀
1.3 論文的主要研究內(nèi)容和創(chuàng)新點
1.4 本文的組織結構
1.5 本章小結
第二章 相關研究基礎
2.1 搜索詞主題分類、聚類概念
2.2 搜索詞分類、聚類相關技術
2.2.1 搜索詞表示
2.2.2 特征選擇
2.3 詞向量
2.4 本章小結
第三章 融入用戶點擊模型的Word2Vec搜索詞聚類
3.1 問題引出
3.2 CT-Word2Vec的搜索詞聚類算法
3.2.1 Word2Vec算法
3.2.2 CT-Word2Vec算法
3.2.3 融入CT-Word2Vec的搜索詞聚類
3.3 實驗與評估
3.3.1 實驗數(shù)據(jù)描述
3.3.2 實驗評估與指標
3.3.3 實驗過程
3.3.4 結果分析與評估
3.4 本章小結
第四章 基于CT-Word2Vec聚類的搜索詞主題標注和分類方法
4.1 問題引出
4.2 基于CT-Word2Vec搜索詞主題標注方法
4.2.1 基于CT-Word2Vec的搜索詞聚類
4.2.2 聚類中心主題標注
4.3 基于詞向量的搜索詞分類
4.4 實驗與評估
4.4.1 實驗過程與數(shù)據(jù)
4.4.2 對比實驗
4.4.3 實驗評估與指標
4.4.4 實驗結果與分析
4.5 本章小結
第五章 融入主題信息Word2Vec搜索詞分類
5.1 問題引出
5.2 Topic-Word2Vec算法
5.3 實驗與評估
5.3.1 實驗數(shù)據(jù)描述
5.3.2 實驗結果與分析
5.4 本章小結
第六章 總結與展望
6.1 本文總結
6.2 下一步工作與展望
附錄一 作者攻讀碩士學位期間發(fā)表的學術論文
參考文獻
后記
【參考文獻】:
期刊論文
[1]融合廣告主行為的拍賣詞實時觸發(fā)[J]. 解忠乾,常笑,姬東鴻. 計算機應用. 2014(09)
[2]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計算機研究與發(fā)展. 2012(06)
碩士論文
[1]互聯(lián)網(wǎng)搜索詞分類關鍵技術研究[D]. 呂靖.浙江大學 2011
本文編號:3694991
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 搜索詞挖掘技術的挑戰(zhàn)和現(xiàn)狀
1.3 論文的主要研究內(nèi)容和創(chuàng)新點
1.4 本文的組織結構
1.5 本章小結
第二章 相關研究基礎
2.1 搜索詞主題分類、聚類概念
2.2 搜索詞分類、聚類相關技術
2.2.1 搜索詞表示
2.2.2 特征選擇
2.3 詞向量
2.4 本章小結
第三章 融入用戶點擊模型的Word2Vec搜索詞聚類
3.1 問題引出
3.2 CT-Word2Vec的搜索詞聚類算法
3.2.1 Word2Vec算法
3.2.2 CT-Word2Vec算法
3.2.3 融入CT-Word2Vec的搜索詞聚類
3.3 實驗與評估
3.3.1 實驗數(shù)據(jù)描述
3.3.2 實驗評估與指標
3.3.3 實驗過程
3.3.4 結果分析與評估
3.4 本章小結
第四章 基于CT-Word2Vec聚類的搜索詞主題標注和分類方法
4.1 問題引出
4.2 基于CT-Word2Vec搜索詞主題標注方法
4.2.1 基于CT-Word2Vec的搜索詞聚類
4.2.2 聚類中心主題標注
4.3 基于詞向量的搜索詞分類
4.4 實驗與評估
4.4.1 實驗過程與數(shù)據(jù)
4.4.2 對比實驗
4.4.3 實驗評估與指標
4.4.4 實驗結果與分析
4.5 本章小結
第五章 融入主題信息Word2Vec搜索詞分類
5.1 問題引出
5.2 Topic-Word2Vec算法
5.3 實驗與評估
5.3.1 實驗數(shù)據(jù)描述
5.3.2 實驗結果與分析
5.4 本章小結
第六章 總結與展望
6.1 本文總結
6.2 下一步工作與展望
附錄一 作者攻讀碩士學位期間發(fā)表的學術論文
參考文獻
后記
【參考文獻】:
期刊論文
[1]融合廣告主行為的拍賣詞實時觸發(fā)[J]. 解忠乾,常笑,姬東鴻. 計算機應用. 2014(09)
[2]基于URL主題的查詢分類方法[J]. 張宇,宋巍,劉挺,李生. 計算機研究與發(fā)展. 2012(06)
碩士論文
[1]互聯(lián)網(wǎng)搜索詞分類關鍵技術研究[D]. 呂靖.浙江大學 2011
本文編號:3694991
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3694991.html
最近更新
教材專著