WWW科技信息資源自動標引的理論與實踐研究

發(fā)布時間：2020-12-07 16:49

　　隨著因特網的迅速發(fā)展和廣泛應用，它逐漸成為目前最大的信息資源寶庫和最主要的信息交流渠道，由于因特網信息資源的顯著特點是量大而無序，故隨之出現(xiàn)了“數(shù)據(jù)豐富，知識貧乏”現(xiàn)象�，F(xiàn)有的搜索引擎大多是基于關鍵字的全文檢索系統(tǒng)，較少考慮信息的語義問題，因而不能夠滿足用戶的不同需求，廣大用戶也很難利用它們來獲取因特網中許多有價值的知識。為此，本論文針對WWW科技信息資源自動標引展開理論和實踐兩方面的研究，其主要研究目的如下：為處理因特網信息資源提供技術支持，為普通用戶檢索因特網信息資源提供便利，為建設中國數(shù)字圖書館提供新的研究思路。論文提出了基于《中國分類主題詞表》的WWW科技信息資源自動標引系統(tǒng)（STAI）設計方案，該系統(tǒng)具有WWW網頁的格式自動檢測與轉換、自動分詞與自由詞標引、自動分類標引和主題標引等功能。STAI系統(tǒng)是一個自動化程度較高的易用型軟件，該試驗系統(tǒng)可以同時實現(xiàn)中英文網頁的自動標引，兼顧了如何結合自然語言與情報檢索語言二者在信息檢索方面各自的優(yōu)越性。在STAI系統(tǒng)設計和實踐過程中，本論文做出了一定的創(chuàng)新性嘗試。例如，采用了結構化程序設計方法等先進的程序設計思想，重視Activ...

【文章來源】：中國科學院大學(中國科學院文獻情報中心)北京市

【文章頁數(shù)】：130 頁

【學位級別】：博士

【文章目錄】：
第1章引論
    1.1 研究背景
    1.2 研究目的
    1.3 研究意義
    1.4 主要技術難點
    1.5 論文的組織安排
第2章書面漢語自動分詞
    2.1 書面漢語自動分詞概述
        2.1.1 書面漢語自動分詞的研究意義
        2.1.2 書面漢語自動分詞的難點
    2.2 書面漢語自動分詞方法評介
        2.2.1 基于字符串匹配的分詞方法（機械匹配法）
        2.2.2 基于理解的分詞方法
        2.2.3 基于統(tǒng)計的分詞方法
        2.2.4 基于標志的分詞方法
        2.2.5 基于神經網絡的分詞方法
    2.3 主要書面漢語自動分詞系統(tǒng)評介
第3章文獻自動標引
    3.1 自動標引相關概念
        3.1.1 文獻標引
        3.1.2 文獻自動標引
    3.2 英語文獻自動標引方法
    3.3 漢語文獻自動標引方法
第4章文獻自動分類
    4.1 文獻自動分類概述
        4.1.1 文獻自動分類的研究意義
        4.1.2 文獻自動分類的主要方法
    4.2 自動分類國外研究概況
    4.3 自動分類國內研究概況
        4.3.1 基于詞典法的中文自動分類系統(tǒng)
        4.3.2 基于專家系統(tǒng)的中文自動分類系統(tǒng)
        4.3.3 現(xiàn)有中文自動分類系統(tǒng)存在的缺陷
    4.4 自動分類的未來發(fā)展方向
第5章 STAI系統(tǒng)的總體設計思想
    5.1 STAI系統(tǒng)概述
    5.2 STAI系統(tǒng)的功能設計
        5.2.1 網頁格式的自動檢測與轉換
        5.2.2 關鍵詞的自動抽取
        5.2.3 WWW網頁的自動標引
    5.3 STAI系統(tǒng)的體系結構設計
    5.4 STAI系統(tǒng)的開發(fā)環(huán)境
        5.4.1 STAI系統(tǒng)的軟件開發(fā)環(huán)境
        5.4.2 STAI系統(tǒng)的硬件開發(fā)環(huán)境
    5.5 STAI系統(tǒng)的數(shù)據(jù)庫設計
        5.5.1 STAI數(shù)據(jù)庫的概念設計
        5.5.2 STAI數(shù)據(jù)庫的邏輯設計
第6章格式預處理模塊的實現(xiàn)
    6.1 BIG5/GB碼的自動檢測和轉換
        6.1.1 BIG5/GB碼的自動識別
        6.1.2 BIG5/GB碼的自動轉換
    6.2 創(chuàng)建BIG5/GB內碼自動檢測和轉換ActiveX控件
        6.2.1 BIG5GBControl控件的創(chuàng)建步驟
        6.2.2 BIG5GBControl控件的實現(xiàn)情況
    6.3 因特網文檔格式的轉換
        6.3.1 因特網上的主要文檔格式
        6.3.2 將HTML格式自動轉換成純文本格式的實現(xiàn)
第7章自動分詞與自由詞標引模塊的實現(xiàn)
    7.1 自動分詞與自出詞標引模塊的主要設計思路
    7.2 構造適用于書面漢語自動分詞的機器詞典
        7.2.1 中文詞典概況
        7.2.2 構建適用于WWW科技信息資源自動標引的中文分詞詞典
    7.3 自動分詞與自由詞標引模塊的實現(xiàn)情況分析
第8章自動分類和主題標引模塊的實現(xiàn)
    8.1 自動分類和主題標引模塊的主要設計思路
        8.1.1 自動分類和主題標引模塊的技術難點
        8.1.2 自動分類和主題標引模塊的主要算法
    8.2 構造用于自動分類標引和主題標引的分類機器詞典
    8.3 自動分類和主題標引模塊的實現(xiàn)情況分析
第9章結束語
    9.1 研究工作總結
    9.2 今后研究計劃
參考文獻
研究成果和發(fā)表文章目錄
致謝

【參考文獻】：
期刊論文
[1]國內外數(shù)字圖書館研究現(xiàn)狀及未來走向[J]. 肖明,沈英.  現(xiàn)代圖書情報技術. 2000(06)
[2]中國文獻分類學研究50年（1949-1999）[J]. 白國應.  中國圖書館學報. 1999(05)
[3]中文信息自動分類系統(tǒng)及其神經網絡優(yōu)化算法[J]. 刁倩,王永成,張惠惠.  信息與控制. 1999(03)
[4]語言社群類型與臺灣的外來詞[J]. 史有為.  語言文字應用. 1999(02)
[5]二十年來現(xiàn)代漢語新詞語的特點及其產生渠道[J]. 朱永鍇,林倫倫.  語言文字應用. 1999(02)
[6]自動分類研究現(xiàn)狀與展望[J]. 成穎,史九林.  情報學報. 1999(01)
[7]缺乏抽詞詞典是自動抽詞標引難以普及的主要原因[J]. 張琪玉.  圖書與情報. 1998(02)
[8]中文文獻主題的自動標引[J]. 王永成,顧曉明,王麗霞.  情報學報. 1998(03)
[9]圖書分類中應用專家系統(tǒng)的嘗試[J]. 鄧要武,崔光益,王連俊.  圖書館雜志. 1998(04)
[10]基于《金融檔案分類表》的自動分類算法研究[J]. 劉開瑛,鄭家恒,劉靜.  情報學報. 1997(05)

博士論文
[1]Internet科技信息資源門戶網站(STIP)系統(tǒng)的實踐研究[D]. 張智雄.中國科學院文獻情報中心 2000

本文編號：2903581

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/tushudanganlunwen/2903581.html

上一篇：檔案信息服務知識導航研究
下一篇：科研實體名稱規(guī)范的關聯(lián)數(shù)據(jù)模型構建

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

WWW科技信息資源自動標引的理論與實踐研究