天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于主題的查詢意圖識(shí)別研究

發(fā)布時(shí)間:2018-03-25 09:16

  本文選題:查詢意圖 切入點(diǎn):查詢主題 出處:《哈爾濱工業(yè)大學(xué)》2013年博士論文


【摘要】:搜索引擎成為人們從互聯(lián)網(wǎng)上快速獲取信息的最主要途徑之一。當(dāng)前的搜索引擎主要基于關(guān)鍵字匹配的搜索模式。然而用戶輸入的查詢往往較短,導(dǎo)致查詢具有多種語(yǔ)義或包含有多個(gè)子主題;陉P(guān)鍵字匹配的搜索方式僅關(guān)注于返回包含查詢關(guān)鍵字的文檔,而忽略了對(duì)查詢背后用戶真正的信息需求的識(shí)別與匹配。對(duì)于具有復(fù)雜信息需求的查詢,返回的搜索結(jié)果中包含有較多不符合用戶需要的噪聲文檔,無(wú)法充分滿足用戶需要。因此,開展查詢意圖識(shí)別相關(guān)技術(shù)的研究,深入理解用戶搜索意圖是十分必要的。 查詢意圖是介于關(guān)鍵字查詢與用戶真實(shí)信息需求之間的一種中間形式,用于表示用戶的搜索目的。已有的查詢意圖理解研究集中于導(dǎo)航類查詢的識(shí)別,即判斷查詢的搜索目的是否是找到某一特定的網(wǎng)站。然而導(dǎo)航類查詢僅占用戶輸入的所有查詢中較小的比例,更多的查詢屬于具有較為復(fù)雜的用戶需求的信息類查詢。針對(duì)信息類查詢進(jìn)行全面、深層的查詢意圖理解是進(jìn)一步提高搜索引擎性能的關(guān)鍵技術(shù)。本文專注于信息類查詢的意圖表示、識(shí)別與應(yīng)用。特別地,從查詢表層字符信息上升到主題層面,采取不同的主題形式來(lái)形式化地表示查詢背后的搜索意圖,從多個(gè)角度理解查詢意圖,并基于查詢意圖提供新穎的搜索服務(wù)與搜索模式。本文的主要研究?jī)?nèi)容可概括如下: (1)針對(duì)查詢歧義問題,以主題類別表示查詢意圖,將查詢映射到給定的主題類別體系中,即將查詢意圖識(shí)別歸結(jié)為查詢主題分類問題。利用主題體系的結(jié)構(gòu)特征,能夠有效地描述查詢意圖信息,有利于用戶信息需求空間結(jié)構(gòu)的構(gòu)建。本文提出一種基于用戶自動(dòng)標(biāo)注資源的查詢主題分類方法:利用網(wǎng)絡(luò)上人工構(gòu)建的主題網(wǎng)站目錄對(duì)網(wǎng)頁(yè)URL進(jìn)行主題標(biāo)注;基于搜索引擎的查詢?nèi)罩九c搜索結(jié)果,構(gòu)建用戶查詢與URL的關(guān)聯(lián)關(guān)系;根據(jù)URL的主題自動(dòng)地對(duì)查詢進(jìn)行主題標(biāo)注。這一過程僅需要很少的人工參與,卻可以獲得海量的有主題標(biāo)注的查詢,基于有標(biāo)注的查詢得以訓(xùn)練基于統(tǒng)計(jì)的查詢分類器。方法改善了查詢分類缺少標(biāo)注查詢的數(shù)據(jù)稀疏問題,不僅分類準(zhǔn)確率高而且具有較高在線處理效率,可以應(yīng)用于多種查詢意圖識(shí)別相關(guān)的應(yīng)用場(chǎng)景。 (2)針對(duì)查詢寬泛?jiǎn)栴},以一組查詢子主題表示查詢意圖。查詢子主題是指表達(dá)了用戶搜索意圖的字符串短語(yǔ),如原始查詢?yōu)椤拔④洝,則“微軟研究院”或“微軟Surface”可認(rèn)為是原始查詢的子主題,其中“研究院”和“Surface”稱作意圖短語(yǔ)表示用戶具體的信息需求。查詢子主題不依賴于預(yù)先指定的類別體系,能夠在更細(xì)致的層面對(duì)查詢意圖進(jìn)行刻劃,是對(duì)查詢主題分類的補(bǔ)充。查詢子主題挖掘的關(guān)鍵問題在于如何獲得查詢子主題候選,以及如何將具有相似意圖的子主題候選有效地組織在一起。本文提出基于聚類的查詢子主題挖掘方法,該方法主要分為4個(gè)步驟:查詢關(guān)鍵詞提取,查詢子主題候選抽取、查詢子主題候選聚類以及查詢子主題排序。本文分析了從各個(gè)信息源中抽取的查詢子主題候選的特點(diǎn),并應(yīng)用適于任務(wù)需要的聚類算法。實(shí)驗(yàn)表明,提出的方法獲得了比商業(yè)搜索引擎相關(guān)搜索更好的性能。 (3)針對(duì)查詢意圖與用戶相關(guān)的問題,以用戶主題興趣表示查詢意圖,從用戶個(gè)人興趣的角度個(gè)性化地表示查詢意圖。提交同一查詢的不同用戶可能具有不同的查詢意圖,為了更準(zhǔn)確地判斷每一位用戶具體的查詢意圖需要考察用戶背景與興趣等個(gè)人信息。本文基于概率主題模型對(duì)用戶搜索歷史進(jìn)行建模,建立用戶的主題興趣模型,將用戶查詢依據(jù)其與用戶歷史興趣的相關(guān)性映射到用戶主題興趣模型之中,實(shí)現(xiàn)個(gè)性化的查詢意圖識(shí)別;趥(gè)性化的查詢意圖表示在語(yǔ)言模型的搜索框架下實(shí)現(xiàn)個(gè)性化搜索,為每一位用戶提供符合個(gè)人搜索意圖的、個(gè)性化搜索結(jié)果。據(jù)我們所知,,這是首次將基于主題模型的用戶建模與個(gè)性化搜索相結(jié)合的工作。 (4)針對(duì)當(dāng)前搜索引擎結(jié)果僅呈現(xiàn)文檔列表而非具體信息的不足,提出了基于查詢子主題的查詢摘要這一新穎的搜索模式,基于多個(gè)查詢子主題提供半結(jié)構(gòu)化的搜索結(jié)果,對(duì)查詢的多個(gè)搜索意圖進(jìn)行概括描述,試圖直接返回滿足用戶需求的相關(guān)信息。本文具體定義了該任務(wù)的目標(biāo)、框架和相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn),提出了基于復(fù)合查詢的主動(dòng)信息獲取與基于比較式信息挖掘的查詢子主題建模方法。該搜索模式可視為查詢子主題挖掘的具體應(yīng)用。 綜上,本文針對(duì)具有復(fù)雜信息需求的信息類查詢,從多個(gè)角度、以不同的主題方式表示和理解查詢意圖。查詢主題分類與查詢子主題挖掘相當(dāng)于從全局用戶的視角來(lái)分析查詢意圖、構(gòu)建查詢需求結(jié)構(gòu)特征,基于用戶主題興趣表示則相當(dāng)于根據(jù)用戶信息個(gè)性化地理解查詢意圖。將查詢意圖識(shí)別的結(jié)果成功地應(yīng)用于個(gè)性化搜索和基于查詢子主題的查詢摘要等新穎的搜索模式,充分說(shuō)明對(duì)查詢意圖的深入理解,有利于提供更豐富的搜索接口和信息表示方案,提高搜索的質(zhì)量與用戶體驗(yàn)。因此,基于主題的查詢意圖識(shí)別研究對(duì)搜索引擎具有以下的促進(jìn)作用:(1)構(gòu)建用戶的信息需求結(jié)構(gòu)空間,結(jié)構(gòu)化地組織信息,有效地幫助用戶清晰地了解相關(guān)信息結(jié)構(gòu),明確自身搜索目的;(2)豐富搜索引擎的搜索模式,提高搜索質(zhì)量,準(zhǔn)確且迅速地滿足用戶的信息需求。希望研究中得到的初步結(jié)論與結(jié)果能夠?qū)ο嚓P(guān)方向的學(xué)者提供一定的參考作用。
[Abstract]:......
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 曾春,邢春曉,周立柱;基于內(nèi)容過濾的個(gè)性化搜索算法[J];軟件學(xué)報(bào);2003年05期



本文編號(hào):1662482

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1662482.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶08726***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com