天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 組織管理論文 >

中文短文本相似度算法研究及其在電視節(jié)目管理中的應(yīng)用

發(fā)布時(shí)間:2021-08-14 17:59
  隨著互聯(lián)網(wǎng)、智能終端的普及和發(fā)展,信息化交流越來越便捷,每時(shí)每刻都在產(chǎn)生大量的信息,電子文本信息是其中一種重要的傳播形式。目前人類已進(jìn)入了大數(shù)據(jù)時(shí)代,各行各業(yè)都在研究如何從海量信息中怎樣挖掘出有價(jià)值的數(shù)據(jù),文本相似度算法研究便是其中一項(xiàng)基礎(chǔ)性工作,目前已在信息檢索、主題分析、人工智能等多個(gè)領(lǐng)域進(jìn)行了大量研究和應(yīng)用。短文本泛指文本長度較小,規(guī)模巨大、內(nèi)容稀少、精煉內(nèi)聚、高時(shí)效性、非規(guī)范化等特點(diǎn)。本文主要研究短文本相似度的度量指標(biāo)和相似度算法,其主要目的在于提供一套從內(nèi)外部數(shù)據(jù)獲取、數(shù)值化、計(jì)算質(zhì)量好、完整的相似度計(jì)算方法,短文本研究內(nèi)容在相關(guān)領(lǐng)域有著很高的理論價(jià)值和應(yīng)用價(jià)值。進(jìn)入二十一世紀(jì)以來,短文本相似度算法研究取得了很大的進(jìn)展,集中了該領(lǐng)域大部分研究成果。已有的短文本相似度算法的思路主要集中在利用短文本內(nèi)、外部信息的層面,很少考慮數(shù)據(jù)之間的聯(lián)系,因此,它們在處理內(nèi)容簡短、非標(biāo)準(zhǔn)化、非大眾化的短文本時(shí)的語言時(shí),很難取得好的效果。為了解決這一問題,本文在查閱大量文獻(xiàn)和進(jìn)行大量數(shù)據(jù)分析的基礎(chǔ)上,提出了一種引入分詞賦權(quán)和段位匹配的短文本相似度算法框架,并且使用電視臺的節(jié)目短文本語料作為實(shí)驗(yàn)數(shù)... 

【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

中文短文本相似度算法研究及其在電視節(jié)目管理中的應(yīng)用


ICTCLAS分詞系統(tǒng)的框架結(jié)構(gòu)圖

專業(yè)名詞,衛(wèi)視節(jié)目,語料庫,網(wǎng)站


圖 2-2 東方衛(wèi)視節(jié)目單Fig.2-2 TV listings of Dragon TV為建立專業(yè)名詞語料庫,最簡單的方法就是利用相關(guān)專業(yè)網(wǎng)站的數(shù)據(jù),利用聚集爬蟲抓取想要獲取的信息。本文采用了能夠定向抓取相關(guān)網(wǎng)頁資源的聚集爬蟲,首先為它設(shè)好既定的抓取目標(biāo),然后它就會有選擇的訪問互聯(lián)網(wǎng)上的網(wǎng)頁,獲取本文所需要的電視節(jié)目名稱信息。數(shù)據(jù)來源方面,本文選擇了專業(yè)互聯(lián)網(wǎng)網(wǎng)站“電視貓”網(wǎng),然后利用聚焦爬蟲自動(dòng)將網(wǎng)站上的電視節(jié)目實(shí)時(shí)更新到電視節(jié)目專業(yè)名詞詞典中。聚集爬蟲的工作流程如下圖 2-3[46-48],首先獲取東方衛(wèi)視下周一的節(jié)目單網(wǎng)頁的 URL,然后根據(jù)自定義的網(wǎng)頁分析算法過濾掉節(jié)目短文本外的所有無關(guān)鏈接和信息,保留藍(lán)色字體的超鏈接并將其放入等待抓取的 URL 隊(duì)列。其次判斷這些節(jié)目名詞是否在用戶詞典中,若不存在則存入節(jié)目名詞語料庫中,若已經(jīng)存在則按照搜索策略繼續(xù)抓取滿足要求的網(wǎng)頁 URL,并重復(fù)上述過程,直到將本周所有的節(jié)目短文本遍歷完成后停止。由圖 2-3 可知,電視貓對于每檔節(jié)目都對其節(jié)目名詞添加了超鏈接,為了進(jìn)一步向用戶提供節(jié)目的詳細(xì)信息,網(wǎng)絡(luò)爬蟲也可以利用這些超鏈接,自動(dòng)獲取更

工作流程圖,工作流程,網(wǎng)絡(luò)爬蟲,內(nèi)容


圖 2-3 傳統(tǒng)爬蟲和聚集爬蟲的工作流程[46-48]Fig.2-3 Working process of Web Crawler and focused web crawler[46-48]在本算法中,網(wǎng)絡(luò)爬蟲構(gòu)建節(jié)目專有名詞語料庫的具體工作步驟為:第一步:發(fā)起請求。通過 HTTP 庫,對目標(biāo)站點(diǎn)“電視貓”進(jìn)行請求。此步驟效果等同于用戶打開瀏覽器,輸入網(wǎng)址 www.tvmao.com,用戶可設(shè)置網(wǎng)絡(luò)爬蟲每周日某時(shí)(如:20:00)定時(shí)開始此步工作;第二步: 獲取響應(yīng)內(nèi)容。如果請求的內(nèi)容存在于服務(wù)器上,那么服務(wù)器會返回請求的內(nèi)容,一般為:HTML、二進(jìn)制文件(視頻,音頻)、文檔或 JSON 字符串等,本研究將返回相應(yīng)頻道節(jié)目單頁面的所有文本信息,存儲于 txt 文檔中。第三步:解析內(nèi)容。對于用戶而言,是要尋找自己需要的信息;網(wǎng)絡(luò)爬蟲利用正則表達(dá)式,遍歷超鏈接文本中為電視節(jié)目名稱的詞語,并判斷是否已存在ICTCLAS 分詞系統(tǒng)的用戶詞典中,如果已經(jīng)存在,則忽略該條記錄繼續(xù)解析下一條記錄,如果不存在,則進(jìn)入第四步;第四步:保存數(shù)據(jù)。解析得到的數(shù)據(jù)可以多種形式,如文本(txt 格式),音頻,視頻保存在本地。然后返回第三步,若遍歷完所有詞語,則結(jié)束,系統(tǒng)網(wǎng)絡(luò)


本文編號:3342927

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/3342927.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eca87***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com