基于分類的term重要性識別方法
本文關鍵詞:基于分類的term重要性識別方法,由筆耕文化傳播整理發(fā)布。
【摘要】:在傳統(tǒng)的搜索引擎和信息檢索中,用戶Query中的term-weight通常是以一種上下文無關的方式得到的,F有的大多數信息檢索技術都使用詞袋方法,例如布爾模型、向量空間模型和概率模型等,這些方法均沒有考慮Query中term之間的相關性。為了能夠充分利用Query中的信息來提高term-weight的準確度,提出了一種有監(jiān)督的機器學習方法來學習用戶Query中的term-weight。該方法基于分類的方法,并引入了句法分析作為分類的一項重要的特征來訓練模型?紤]用戶Query中term之間的關系后,既避免了由Query到單個term的信息丟失,又增加了短文本的特征,同時使分類器實現軟輸出,能夠給term的重要程度一個更為準確的量化值。
【作者單位】: 遼寧工程技術大學軟件學院;遼寧工程技術大學系統(tǒng)工程研究所;
【關鍵詞】: 分類 依存句法分析 查詢詞權重 查詢分析 term重要性 搜索引擎 信息檢索
【基金】:國家自然科學基金(70971059) 遼寧省創(chuàng)新團隊項目(2009T045)資助
【分類號】:TP391.3
【正文快照】: 2012年第30次中國互聯網發(fā)展狀況統(tǒng)計報告[1]指出,截止至2012年6月底,中國網民數量達到5.38億,其中搜索引擎用戶規(guī)模達到4.29億,較2011年底增長2121萬人,在網民中的滲透率攀升為79.7%,依舊是僅次于即時通訊的第二大網絡應用。搜索引擎作為互聯網的基礎應用,是網民在互聯網中
【相似文獻】
中國期刊全文數據庫 前10條
1 董立巖;劉光遠;苑森淼;李永麗;孫銘會;;混合式樸素貝葉斯分類模型[J];吉林大學學報(信息科學版);2007年01期
2 劉慧婷;倪志偉;李建洋;劉政怡;;基于交叉覆蓋算法的時間序列模式匹配[J];計算機應用;2007年02期
3 張勇;;一種新的多類別多標簽關聯分類方法的研究[J];福建電腦;2007年08期
4 周屹;;基于Naive Bayes的文本分類器的設計與實現[J];黑龍江工程學院學報;2007年02期
5 陳建林;樊興華;王國胤;;基于兩步策略的英文文本分類[J];廣西師范大學學報(自然科學版);2007年04期
6 王皓;孫宏斌;張伯明;;PG-HMI:一種基于互信息的特征選擇方法[J];模式識別與人工智能;2007年01期
7 孫岳;毛國君;劉旭;;數據流中概念漂移檢測的集成分類器設計[J];計算機應用研究;2008年01期
8 朱紅斌;;基于Adaboost算法的交通事件檢測[J];計算機時代;2008年01期
9 吳開興;杜晶;韓范玉;;基于層次型Adaboost的動態(tài)車牌定位方法[J];商場現代化;2008年07期
10 尚春紅;趙明昌;;復雜背景圖像中軍用靶子識別算法研究[J];計算機應用;2008年05期
中國重要會議論文全文數據庫 前10條
1 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
2 徐蔚然;于武貴;郭軍;;基于統(tǒng)計方法的混排文字切分與分類[A];第八屆全國漢字識別學術會議論文集[C];2002年
3 雷蕾;吳乃君;劉鵬;劉蘭娟;;靈敏度分析:分類器中的缺失數據[A];第11屆海峽兩岸信息管理發(fā)展策略研討會論文集[C];2005年
4 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結合的蛋白質名識別[A];大連理工大學生物醫(yī)學工程學術論文集(第2卷)[C];2005年
5 沈錢波;何加銘;;連筆手寫識別搜索算法研究[A];浙江省電子學會2008年學術年會論文集[C];2008年
6 王先梅;林子鈺;;基于HMM的脫機手寫大寫金額識別中的單分類器性能分析[A];2006中國控制與決策學術年會論文集[C];2006年
7 王穎;毋立芳;關媛;王涓涓;;基于LBP的SVM人臉姿勢估計方法[A];第十三屆全國信號處理學術年會(CCSP-2007)論文集[C];2007年
8 龔妙昆;萬福永;許建強;袁震東;;心電圖小波壓縮特征提取及SVM分類分析[A];2005中國控制與決策學術年會論文集(下)[C];2005年
9 李玉良;王良松;李晶;;圖像中數字字符識別技術概覽[A];節(jié)能環(huán)保 和諧發(fā)展——2007中國科協(xié)年會論文集(一)[C];2007年
10 翟靜;李海宏;唐常杰;陳敏敏;李智;;可驗證對象集分類器的再訓練演進[A];第十九屆全國數據庫學術會議論文集(研究報告篇)[C];2002年
中國重要報紙全文數據庫 前10條
1 ;“營銷通”:集CRM與OA于一體[N];計算機世界;2003年
2 鄭依華;部署搜索應用開發(fā)環(huán)境[N];計算機世界;2006年
3 ;電子政務數據交換平臺解決方案[N];計算機世界;2006年
4 顧春;金創(chuàng)集團實現會計電算化[N];中國黃金報;2007年
5 張海軍;輸配網GIS一體化破解“信息孤島”[N];中國電力報;2006年
6 雷陽;BEA借技術開拓SOA市場[N];電腦商報;2006年
7 本版編輯 中國科學院計算技術研究所數字媒體研究中心 山世光 陳熙霖 高文 徐昕 劉洪宇;你的臉,你的身份證明[N];中國計算機報;2006年
8 劉琳;地理信息系統(tǒng)發(fā)展趨勢[N];中國測繪報;2008年
9 ;Ework助電子政務邁上新臺階[N];中國高新技術產業(yè)導報;2004年
10 武德鋒 李國輝 林洪文 姚作梁;圖像世界任我行[N];計算機世界;2002年
中國博士學位論文全文數據庫 前10條
1 王U,
本文編號:510675
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/510675.html