中文短文本相似度算法研究及其在電視節(jié)目管理中的應(yīng)用

發(fā)布時(shí)間：2021-08-14 17:59

　　隨著互聯(lián)網(wǎng)、智能終端的普及和發(fā)展,信息化交流越來越便捷,每時(shí)每刻都在產(chǎn)生大量的信息,電子文本信息是其中一種重要的傳播形式。目前人類已進(jìn)入了大數(shù)據(jù)時(shí)代,各行各業(yè)都在研究如何從海量信息中怎樣挖掘出有價(jià)值的數(shù)據(jù),文本相似度算法研究便是其中一項(xiàng)基礎(chǔ)性工作,目前已在信息檢索、主題分析、人工智能等多個(gè)領(lǐng)域進(jìn)行了大量研究和應(yīng)用。短文本泛指文本長度較小,規(guī)模巨大、內(nèi)容稀少、精煉內(nèi)聚、高時(shí)效性、非規(guī)范化等特點(diǎn)。本文主要研究短文本相似度的度量指標(biāo)和相似度算法,其主要目的在于提供一套從內(nèi)外部數(shù)據(jù)獲取、數(shù)值化、計(jì)算質(zhì)量好、完整的相似度計(jì)算方法,短文本研究內(nèi)容在相關(guān)領(lǐng)域有著很高的理論價(jià)值和應(yīng)用價(jià)值。進(jìn)入二十一世紀(jì)以來,短文本相似度算法研究取得了很大的進(jìn)展,集中了該領(lǐng)域大部分研究成果。已有的短文本相似度算法的思路主要集中在利用短文本內(nèi)、外部信息的層面,很少考慮數(shù)據(jù)之間的聯(lián)系,因此,它們在處理內(nèi)容簡短、非標(biāo)準(zhǔn)化、非大眾化的短文本時(shí)的語言時(shí),很難取得好的效果。為了解決這一問題,本文在查閱大量文獻(xiàn)和進(jìn)行大量數(shù)據(jù)分析的基礎(chǔ)上,提出了一種引入分詞賦權(quán)和段位匹配的短文本相似度算法框架,并且使用電視臺的節(jié)目短文本語料作為實(shí)驗(yàn)數(shù)...

【文章來源】：上海交通大學(xué)上海市 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：68 頁

【學(xué)位級別】：碩士

【部分圖文】：

ICTCLAS分詞系統(tǒng)的框架結(jié)構(gòu)圖

專業(yè)名詞,衛(wèi)視節(jié)目,語料庫,網(wǎng)站

圖 2-2 東方衛(wèi)視節(jié)目單Fig.2-2 TV listings of Dragon TV為建立專業(yè)名詞語料庫，最簡單的方法就是利用相關(guān)專業(yè)網(wǎng)站的數(shù)據(jù)，利用聚集爬蟲抓取想要獲取的信息。本文采用了能夠定向抓取相關(guān)網(wǎng)頁資源的聚集爬蟲，首先為它設(shè)好既定的抓取目標(biāo)，然后它就會有選擇的訪問互聯(lián)網(wǎng)上的網(wǎng)頁，獲取本文所需要的電視節(jié)目名稱信息。數(shù)據(jù)來源方面，本文選擇了專業(yè)互聯(lián)網(wǎng)網(wǎng)站“電視貓”網(wǎng)，然后利用聚焦爬蟲自動(dòng)將網(wǎng)站上的電視節(jié)目實(shí)時(shí)更新到電視節(jié)目專業(yè)名詞詞典中。聚集爬蟲的工作流程如下圖 2-3[46-48]，首先獲取東方衛(wèi)視下周一的節(jié)目單網(wǎng)頁的 URL，然后根據(jù)自定義的網(wǎng)頁分析算法過濾掉節(jié)目短文本外的所有無關(guān)鏈接和信息，保留藍(lán)色字體的超鏈接并將其放入等待抓取的 URL 隊(duì)列。其次判斷這些節(jié)目名詞是否在用戶詞典中，若不存在則存入節(jié)目名詞語料庫中，若已經(jīng)存在則按照搜索策略繼續(xù)抓取滿足要求的網(wǎng)頁 URL，并重復(fù)上述過程，直到將本周所有的節(jié)目短文本遍歷完成后停止。由圖 2-3 可知，電視貓對于每檔節(jié)目都對其節(jié)目名詞添加了超鏈接，為了進(jìn)一步向用戶提供節(jié)目的詳細(xì)信息，網(wǎng)絡(luò)爬蟲也可以利用這些超鏈接，自動(dòng)獲取更

工作流程圖,工作流程,網(wǎng)絡(luò)爬蟲,內(nèi)容

圖 2-3 傳統(tǒng)爬蟲和聚集爬蟲的工作流程[46-48]Fig.2-3 Working process of Web Crawler and focused web crawler[46-48]在本算法中，網(wǎng)絡(luò)爬蟲構(gòu)建節(jié)目專有名詞語料庫的具體工作步驟為：第一步：發(fā)起請求。通過 HTTP 庫，對目標(biāo)站點(diǎn)“電視貓”進(jìn)行請求。此步驟效果等同于用戶打開瀏覽器，輸入網(wǎng)址 www.tvmao.com，用戶可設(shè)置網(wǎng)絡(luò)爬蟲每周日某時(shí)（如：20:00）定時(shí)開始此步工作；第二步：獲取響應(yīng)內(nèi)容。如果請求的內(nèi)容存在于服務(wù)器上，那么服務(wù)器會返回請求的內(nèi)容，一般為：HTML、二進(jìn)制文件（視頻，音頻）、文檔或 JSON 字符串等，本研究將返回相應(yīng)頻道節(jié)目單頁面的所有文本信息，存儲于 txt 文檔中。第三步：解析內(nèi)容。對于用戶而言，是要尋找自己需要的信息；網(wǎng)絡(luò)爬蟲利用正則表達(dá)式，遍歷超鏈接文本中為電視節(jié)目名稱的詞語，并判斷是否已存在ICTCLAS 分詞系統(tǒng)的用戶詞典中，如果已經(jīng)存在，則忽略該條記錄繼續(xù)解析下一條記錄，如果不存在，則進(jìn)入第四步；第四步：保存數(shù)據(jù)。解析得到的數(shù)據(jù)可以多種形式，如文本（txt 格式），音頻，視頻保存在本地。然后返回第三步，若遍歷完所有詞語，則結(jié)束，系統(tǒng)網(wǎng)絡(luò)

本文編號：3342927

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/3342927.html

上一篇：昆明市西山區(qū)城市網(wǎng)格化管理系統(tǒng)研究與分析
下一篇：基于能力培養(yǎng)的管理學(xué)課程教學(xué)體系探討

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文短文本相似度算法研究及其在電視節(jié)目管理中的應(yīng)用