天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

提升全文檢索搜索引擎應(yīng)用問題的研究

發(fā)布時(shí)間:2016-11-08 15:56

  本文關(guān)鍵詞:中文五大綜合搜索引擎主要性能測(cè)評(píng),由筆耕文化傳播整理發(fā)布。


  2012年第15期目錄       本期共收錄文章20篇

2012年第15期

  【摘 要】全文檢索系統(tǒng)中最為關(guān)鍵的部分是全文檢索引擎,各種應(yīng)用程序都需要建立在這個(gè)引擎之上。全文檢索的核心是如何從文本中提取主題詞,而如何從單文檔中提取主題詞是本文要重點(diǎn)解決的問題同時(shí)也是提升全文檢索引擎的效率即是提升全文檢索應(yīng)用的根本。
中國(guó)論文網(wǎng)
  【關(guān)鍵詞】全文檢索;搜索引擎;提取主題詞
  引言
  信息的迅速增長(zhǎng)必然需要強(qiáng)大的信息檢索工具,而在信息檢索工具中,全文檢索是最具有通用性和實(shí)用性的。迅速發(fā)展的互聯(lián)網(wǎng)帶來的信息增長(zhǎng)對(duì)全文檢索技術(shù)又提出了新的要求。由此可見全文檢索系統(tǒng)的研究對(duì)人們?nèi)粘I畹囊饬x與重要性,能準(zhǔn)確地從web數(shù)據(jù)中查找用戶需要的信息、并以有效的形式呈現(xiàn)給用戶的問題勢(shì)在必行。
  1.主題詞提取關(guān)鍵技術(shù)
  主題詞提取算法設(shè)計(jì)時(shí)要保證提取的主題詞能反映文檔的主旨內(nèi)容。因此,采用了全新的主題詞提取算法:基于同義詞詞林的主題詞提取。
  1.1主題詞詞頻與詞語(yǔ)位置
  詞語(yǔ)在文獻(xiàn)中出現(xiàn)的次數(shù)越多,它越可能是主題詞。詞語(yǔ)在文獻(xiàn)中出現(xiàn)的位置對(duì)主題詞提取也具有重要的影響,一般來說,詞語(yǔ)會(huì)出現(xiàn)在標(biāo)題、正文等不同的位置。出現(xiàn)在正文的詞語(yǔ),設(shè)它的位置loci=1;出現(xiàn)在標(biāo)題的詞語(yǔ),設(shè)它的位置值為loci=0。出現(xiàn)在標(biāo)題中的詞語(yǔ)往往就比出現(xiàn)在正文中的詞語(yǔ)重要。
  1.2同義詞權(quán)值設(shè)計(jì)
  如果一個(gè)詞語(yǔ)的同義詞在文中出現(xiàn),那么這個(gè)詞語(yǔ)獲得附加權(quán)重。判斷文章中詞語(yǔ)是否有同義詞,主要的依據(jù)是在同義詞詞林字典中進(jìn)行查找,如果這個(gè)詞語(yǔ)及同義詞在文中都有出現(xiàn),那么同義詞詞林中一定有“=”號(hào)標(biāo)記,,標(biāo)記該詞與該詞相關(guān)的同義詞。則將這個(gè)詞的權(quán)重(weight)增加;如果一個(gè)詞的相關(guān)詞語(yǔ)出現(xiàn)在文中,那么這個(gè)詞也獲得附加權(quán)重,在同義詞詞庫(kù)中是以“#”作為相關(guān)詞標(biāo)記的。如果文章中的一個(gè)詞既沒有同義詞也沒有相關(guān)詞出現(xiàn),那么它很有可能是獨(dú)立詞,只需要判斷該詞的TF值就可以了。
  2.主題詞提取算法
  雖然目前很多研究者都采用了像TF-IDF等算法計(jì)算主題詞權(quán)重,但這種算法不屬于單文檔主題詞提取算法,而且沒有考慮詞語(yǔ)的其他相關(guān)信息對(duì)主題詞權(quán)值判定的影響。在設(shè)計(jì)主題詞提取算法時(shí)考慮了設(shè)計(jì)詞語(yǔ)權(quán)重時(shí)的因素:文本中詞語(yǔ)的詞頻、詞語(yǔ)出現(xiàn)的位置、同義詞、相關(guān)詞、獨(dú)立詞。設(shè)計(jì)權(quán)重算法如下:
  (1)
  首先,Wj是判斷一個(gè)詞是否能作為主題詞提取的唯一權(quán)重,Wj的值越高越可能是主題詞。第一個(gè)因子與第二個(gè)因子分別計(jì)算了詞頻和詞語(yǔ)的相關(guān)位置,位置因子算法中第一個(gè)fi為詞語(yǔ)在文中第i種位置上出現(xiàn)的次數(shù)。在標(biāo)題中出現(xiàn)的詞,權(quán)重往往比在正文中出現(xiàn)的詞語(yǔ)權(quán)重大。Loci為該詞語(yǔ)的位置因子,Loci=0時(shí),該詞出現(xiàn)的位置是標(biāo)題,則λ值為0.6。如果Loci=1,說明這個(gè)詞的位置在正文,則λ值為0.3。第二項(xiàng)是參考了同義詞詞林設(shè)計(jì)的因子,h是這個(gè)詞語(yǔ)的相關(guān)同義詞種類。同義詞相關(guān)種類指的是同義詞、相關(guān)詞、獨(dú)立詞這三種。kind為基于同義詞相關(guān)信息的相關(guān)因子,kind有三種形式,當(dāng)文章中這個(gè)詞有同義詞出現(xiàn)時(shí)kind值為1,相關(guān)詞出現(xiàn)時(shí)kind值為0.6,沒有任何同義詞和相關(guān)詞時(shí)該詞kind值不增加。計(jì)算出所有詞的權(quán)重后,輸出鏈表中權(quán)重最大的前N個(gè)詞,作為文章的主題詞。在這個(gè)過程中,設(shè)置了可以提取主題詞個(gè)數(shù)是3至6個(gè)。
  3. 主題詞提取模塊
  3.1分詞模塊
  分詞模塊處理時(shí):首先設(shè)置了一個(gè)函數(shù),作為分詞時(shí)的預(yù)處理。所謂預(yù)處理即是對(duì)一個(gè)待分詞文檔,判斷其要匹配的字段是否含有非中文字符。如果沒有則調(diào)用正向或者反向最大匹配分詞法。如果這個(gè)匹配字段中含有非中文字字符,那么在處理時(shí)先將char設(shè)置為unsigned char類型,存儲(chǔ)幾乎所有的字符文字。首先用戶選擇載入文件打開待分詞文檔。按下正向最大匹配分詞OnSplitBack()按鈕或者反向最大匹配分詞OnSplitFront()按鈕,調(diào)用事件處理函數(shù)開始進(jìn)行中文分詞。載入詞庫(kù)文件以后,進(jìn)入SplitWord函數(shù)。它是分詞的開始,bDick參數(shù)是用戶選擇的分詞方式。bDick =1 則進(jìn)行正向最大匹配分詞,bDick=2則進(jìn)行反向最大匹配分詞。如果按下正向最大匹配分詞按鈕,則進(jìn)入MaxFrontMatching()函數(shù),進(jìn)行正向最大匹配。如果按下反向最大匹配分詞按鈕,則進(jìn)入MaxFrontMatching()函數(shù),進(jìn)行反向匹配。通過反復(fù)的調(diào)用這個(gè)函數(shù),最終完成中文分詞。
  3.2主題詞提取模塊
  在設(shè)計(jì)主題詞權(quán)重算法時(shí),參考了主題詞提取算法的相關(guān)資料,設(shè)計(jì)了影響詞語(yǔ)權(quán)重的因子:即該詞詞頻、詞語(yǔ)出現(xiàn)的位置、同義詞、相關(guān)詞、獨(dú)立詞。根據(jù)主題詞提取權(quán)重算法,Weight作為判斷一個(gè)詞是否能作為關(guān)鍵詞提取的唯一權(quán)重。進(jìn)入函數(shù)Count_loc判斷該詞語(yǔ)在文本中的詞頻,統(tǒng)計(jì)文章中每個(gè)詞的詞頻之后調(diào)用位置函數(shù)WordPosition判斷詞語(yǔ)出現(xiàn)的位置。如果該詞出現(xiàn)在正文,那么loci值1。如果該詞語(yǔ)出現(xiàn)的位置是標(biāo)題,那么loci的值為0。將m_WordList鏈表里的文章標(biāo)題中出現(xiàn)的詞匯nPos標(biāo)志改為0之后,統(tǒng)計(jì)鏈表中m_WordList的詞匯,放到同義詞匹配詞庫(kù)中進(jìn)行查找,將找到的標(biāo)記(#=&)記錄到address對(duì)象中去。調(diào)用CountThesaurus函數(shù),判斷當(dāng)前文章中該詞語(yǔ)是否有同義詞。如果有那么它的權(quán)值加1。該詞存在相關(guān)詞時(shí)權(quán)值增加0.6,如果它是獨(dú)立詞則該詞的權(quán)值不增加。在主題詞提取設(shè)計(jì)中用戶可以根據(jù)自己的需要選擇提取主題詞個(gè)數(shù)。
  3.3搜索引擎模塊
  搜索引擎在設(shè)計(jì)時(shí)直接調(diào)用了現(xiàn)有的基于Google接口的搜索引擎程序,將這段程序代碼與主題詞提取代碼整合到一起,完成了基于搜索引擎的主題詞提取系統(tǒng),在程序調(diào)用時(shí)直接調(diào)用了Google接口程序的.exe文件。當(dāng)按下OnSearchEngine按鈕時(shí)首先判斷主題詞提取對(duì)象是否為空,如果主題詞提取為空將不能向用戶顯示搜索引擎搜索到的結(jié)果。
  總結(jié)
  在設(shè)計(jì)全文檢索主題詞算法初期采用了TF算法統(tǒng)計(jì)了文本中的詞頻,最終主題詞提取的部分借鑒了同義詞詞林算法,中文分詞部分主要采用正向最大匹配分詞法與反向最大匹配法相結(jié)合的算法進(jìn)行中文分詞。通過中文分詞程序設(shè)計(jì)中算法的不斷改進(jìn)、調(diào)整,最終將這兩種不同的中文分詞法結(jié)合到一起。同時(shí),本系統(tǒng)還有可以一些需要改進(jìn)的地方,比如提高主題詞提取的準(zhǔn)確性。更快更準(zhǔn)永遠(yuǎn)是全文檢索技術(shù)的追求。
  參考文獻(xiàn)
  [1]張軍華,韓全會(huì).中文五大綜合搜索引擎主要性能測(cè)評(píng)[J].情報(bào)科學(xué),2008,9:1-4
  [2]宋過,方小璐.基于網(wǎng)頁(yè)特征的TF-IDF改進(jìn)算法.計(jì)算機(jī)應(yīng)用,2007年1月,第23卷第1期
  [3]程濤等.基于同義詞詞林的中文文本主題詞提取.廣西師范大學(xué)學(xué)報(bào),2007,第25卷第2期

轉(zhuǎn)載請(qǐng)注明來源。:


  本文關(guān)鍵詞:中文五大綜合搜索引擎主要性能測(cè)評(píng),由筆耕文化傳播整理發(fā)布。



本文編號(hào):168178

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/168178.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2e65e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com