文檔共享網(wǎng)站的設計與實現(xiàn)
發(fā)布時間:2020-08-02 15:55
【摘要】:自本世紀以來,互聯(lián)網(wǎng)已經(jīng)成為了人們獲取知識、信息的主要途徑。個人、企業(yè)、國家機構,都在利用互聯(lián)網(wǎng)、計算機軟件系統(tǒng)等信息技術改變生活、改善生產(chǎn)活動。社會各行各業(yè)的信息化已成為不可阻擋的趨勢。文檔共享網(wǎng)站為網(wǎng)民們提供了在線查詢?yōu)g覽文檔、上傳分享文檔的信息平臺,這使得技術成果、應用文檔、小說作品得文檔內(nèi)容都可以便捷得交流,方便了人們的生活,促進了文化的交流。國內(nèi)的文檔共享網(wǎng)站起源于2007年,經(jīng)過十年的發(fā)展,目前已經(jīng)有了數(shù)量龐大但服務質(zhì)量參差不齊的文檔共享網(wǎng)站。較大且專業(yè)的網(wǎng)站平臺積累了大量的在線用戶和海量文檔、圖書信息,而較小的網(wǎng)站的技術依然停留在提供在WEB2.0技術初期,提供的文檔質(zhì)量差、服務類別單一。本文圍繞智能WEB理念,基于自然語言處理、信息檢索、文本挖掘等理論技術,設計實現(xiàn)了一個小型文檔共享網(wǎng)站,并且該網(wǎng)站易于運營、落地。而該文檔共享網(wǎng)站可以對用戶提供高質(zhì)量的文檔,使文檔查找更為準確便捷、用戶粘性更大。其中,網(wǎng)站運用文本分類、聚類技術使得網(wǎng)站的文本類別展示更為合理;運用多模式匹配技術過濾文檔中色情、反動、暴力的內(nèi)容以提高文檔的整體質(zhì)量;結合聚類和LDA語義主題提取技術,設計了基于主題內(nèi)容的文檔推薦系統(tǒng),主動向用戶推薦其感興趣的文檔;運用全文檢索技術,設計了豐富的文檔查詢功能,使用戶可以更準確、快捷的獲取文檔。最后,將各子系統(tǒng)綜合起來,完成了文檔共享網(wǎng)站的實現(xiàn)、部署。文本還對網(wǎng)站進行了測試,包括網(wǎng)頁的展示、文檔查詢、文檔推薦功能的使用測試。可見該網(wǎng)站對比原有小型文檔共享網(wǎng)站所提供的服務質(zhì)量有明顯的提高,為其他小型網(wǎng)站的升級起到了示范作用。
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP393.092
【圖文】:
圖 2-1 K 臨近示例圖值為 3,則觀察綠色圓點的最近的 3 個鄰居是 2 個紅計算各顏色形狀的個數(shù),判定綠色的這個待分類點K 取值為 5,則觀察綠色圓點的左近的 5 個鄰居是 2方形,計算各顏色形狀的個數(shù),判定綠色的這個待。要對某個實例判定類別時,可以依據(jù)統(tǒng)計學的理論它所在空間周圍鄰居的權重,而把它歸為(或分配)到 近鄰算法的核心思想。詢的基本方法,a)范圍查詢,即給定查詢點和查詢利查找所有與查詢點距離在閾值之內(nèi)的數(shù)據(jù);b) K 近數(shù) K,從數(shù)據(jù)模型中找到距離查詢點最近的 K 個數(shù)是最近鄰查詢。示方法,K 近鄰模型的特征空間一般是 N 維向量空間
圖 3-7 實體關系 ER 圖3.10 本章小結本章主要介紹了系統(tǒng)的主要模塊,首先從系統(tǒng)概要設計,并闡述了其特點,然后是 LDA 模型,這是一種成熟的概率生成模型,之后是文檔共享網(wǎng)站最為重要的一部分文檔推薦系統(tǒng),最后是多模型匹配,這些模塊我分別從主要方案思路,算法步驟,系統(tǒng)性能分析三個方面對上述的算法構建做了詳細的描述,并對其中的一些進行了舉例說明。
第五章 文檔共享網(wǎng)站的測試文檔預覽的功能測試包括多種文檔類型的預覽測試、預覽展示的相應速度測。經(jīng)測試,網(wǎng)站可以預覽文檔類型包括微軟 office、金山 WPS、PDF 文檔的預,并且保留源文檔的展示方式,而文件預覽的相應時間在 1s 鐘以內(nèi)。如圖 5-1 為文件名查詢結果展示頁。
本文編號:2778738
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP393.092
【圖文】:
圖 2-1 K 臨近示例圖值為 3,則觀察綠色圓點的最近的 3 個鄰居是 2 個紅計算各顏色形狀的個數(shù),判定綠色的這個待分類點K 取值為 5,則觀察綠色圓點的左近的 5 個鄰居是 2方形,計算各顏色形狀的個數(shù),判定綠色的這個待。要對某個實例判定類別時,可以依據(jù)統(tǒng)計學的理論它所在空間周圍鄰居的權重,而把它歸為(或分配)到 近鄰算法的核心思想。詢的基本方法,a)范圍查詢,即給定查詢點和查詢利查找所有與查詢點距離在閾值之內(nèi)的數(shù)據(jù);b) K 近數(shù) K,從數(shù)據(jù)模型中找到距離查詢點最近的 K 個數(shù)是最近鄰查詢。示方法,K 近鄰模型的特征空間一般是 N 維向量空間
圖 3-7 實體關系 ER 圖3.10 本章小結本章主要介紹了系統(tǒng)的主要模塊,首先從系統(tǒng)概要設計,并闡述了其特點,然后是 LDA 模型,這是一種成熟的概率生成模型,之后是文檔共享網(wǎng)站最為重要的一部分文檔推薦系統(tǒng),最后是多模型匹配,這些模塊我分別從主要方案思路,算法步驟,系統(tǒng)性能分析三個方面對上述的算法構建做了詳細的描述,并對其中的一些進行了舉例說明。
第五章 文檔共享網(wǎng)站的測試文檔預覽的功能測試包括多種文檔類型的預覽測試、預覽展示的相應速度測。經(jīng)測試,網(wǎng)站可以預覽文檔類型包括微軟 office、金山 WPS、PDF 文檔的預,并且保留源文檔的展示方式,而文件預覽的相應時間在 1s 鐘以內(nèi)。如圖 5-1 為文件名查詢結果展示頁。
【參考文獻】
相關期刊論文 前9條
1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報雜志;2015年11期
2 原玉嬌;羅森林;林萌;潘麗敏;;融合句義結構模型的短文本推薦算法研究[J];信息安全研究;2015年01期
3 段準;劉功申;;基于TextRank的用戶模板構建方法[J];計算機技術與發(fā)展;2015年10期
4 聶凱;;一種新的基于用戶的協(xié)作過濾推薦算法[J];物流科技;2006年09期
5 曹毅;賀衛(wèi)紅;;基于向量空間模型的信息安全過濾系統(tǒng)[J];計算機工程與設計;2006年02期
6 王斌;許洪波;王申;;基于結構特征的nBayes雙層過濾模型[J];計算機應用;2006年01期
7 馬文斌,王慶;Web內(nèi)容過濾實現(xiàn)方法的研究[J];計算機工程;2004年S1期
8 宋華,戴一奇;一種用于內(nèi)容過濾和檢測的快速多關鍵詞識別算法[J];計算機研究與發(fā)展;2004年06期
9 代六玲,黃河燕,陳肇雄;中文文本分類中特征抽取方法的比較研究[J];中文信息學報;2004年01期
本文編號:2778738
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2778738.html
最近更新
教材專著