天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多方向特征集的傳銷預(yù)判研究

發(fā)布時(shí)間:2022-01-08 23:54
  網(wǎng)絡(luò)信息已經(jīng)成為當(dāng)今社會(huì)環(huán)境及網(wǎng)絡(luò)環(huán)境的重要影響因素。隨著網(wǎng)絡(luò)數(shù)據(jù)流量的大面積覆蓋、網(wǎng)絡(luò)技術(shù)的陳新?lián)Q代,非法網(wǎng)絡(luò)數(shù)據(jù)也在不斷入侵網(wǎng)絡(luò)環(huán)境。近年來,傳銷作為一種非法詐騙行為,網(wǎng)絡(luò)傳銷將作為未來主要的傳播途徑,通過社交平臺(tái)或招聘網(wǎng)站等開放網(wǎng)絡(luò)環(huán)境傳播思想,以非法牟利等,對(duì)網(wǎng)民乃至網(wǎng)絡(luò)環(huán)境已經(jīng)造成一種嚴(yán)重的網(wǎng)絡(luò)安全威脅。因此,對(duì)網(wǎng)絡(luò)傳銷數(shù)據(jù)的研究及控制具有十分重要的意義。本文在現(xiàn)有理論技術(shù)的基礎(chǔ)上采用自動(dòng)提取數(shù)據(jù)及數(shù)據(jù)特征分析方法對(duì)傳銷數(shù)據(jù)做預(yù)判工作,具體如下:第一,提出一種數(shù)字鄰近特征集提取算法,既可擴(kuò)充現(xiàn)有的特征集庫,也作為了傳銷預(yù)判算法的預(yù)判依據(jù)因素之一。實(shí)驗(yàn)表明:數(shù)字鄰近特征集算法與現(xiàn)有的特征集有同樣的表征效果,且對(duì)于某些背景領(lǐng)域中的數(shù)據(jù),表征效果更好。第二,提出一種基于多方向特征集的傳銷預(yù)判算法。該算法以多方向特征集作為預(yù)判依據(jù)集,基于詞語相似度的改進(jìn)算法,將每個(gè)文本數(shù)據(jù)特征集通過向量抽象化,與剩余文本數(shù)據(jù)特征集進(jìn)行相似度計(jì)算,將結(jié)果作為預(yù)判指標(biāo),待測(cè)特征集與多方向特征集的特征交集率作為預(yù)判傳銷嫌疑的實(shí)驗(yàn),將兩種指標(biāo)結(jié)合起來分析,對(duì)傳銷數(shù)據(jù)進(jìn)行預(yù)判。其中待測(cè)特征集是由待測(cè)數(shù)據(jù)作為實(shí)... 

【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校

【文章頁數(shù)】:72 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于多方向特征集的傳銷預(yù)判研究


SeleniumRC實(shí)現(xiàn)原理圖

實(shí)現(xiàn)原理,編碼方式


圖 2-2 WebDriver 實(shí)現(xiàn)原理圖Figure 2-2 WebDriver implementation schematic2.1.2 基于 html 標(biāo)簽限定原理(1)Beautiful Soup 實(shí)現(xiàn)原理Beautiful Soup 是 Python 的一個(gè)庫,最主要的功能是從網(wǎng)絡(luò)平臺(tái)中實(shí)現(xiàn)數(shù)據(jù)的抓取。BeautifulSoup 提供一些簡(jiǎn)單的、Python 式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。它是一個(gè)工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),因?yàn)楹?jiǎn)單,所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。BeautifulSoup自動(dòng)會(huì)將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為UTF-8 編碼。使用者不需要考慮編碼方式,除非文檔沒有指定一個(gè)具體的編碼方式,這時(shí),BeautifulSoup 就不能自動(dòng)識(shí)別編碼方式了。然后,使用者僅僅需要說明一下原始編碼方式就可完成編碼。Beautiful Soup 已成為和 Lxml、Html6lib 一樣有效的 Python 解釋器,為用戶靈活地提供不同的解析策略或較快的處理速度。

對(duì)應(yīng)圖,標(biāo)簽,符號(hào)化,解析算法


圖 2-3 DOM 和標(biāo)簽對(duì)應(yīng)圖Figure 2-3 DOM and label mapping簽結(jié)構(gòu)轉(zhuǎn)換為 DOM 樹,如圖 2-4 所示:圖 2-4 DOM 結(jié)構(gòu)樹Figure 2-4 DOM treeLParser 解析算法包括兩個(gè)階段:符號(hào)化和構(gòu)建樹。符號(hào)化是詞法

【參考文獻(xiàn)】:
期刊論文
[1]大數(shù)據(jù)思維下網(wǎng)絡(luò)傳銷犯罪的偵查[J]. 胡玉明,宋利紅.  廣西警察學(xué)院學(xué)報(bào). 2017(05)
[2]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報(bào). 2017(09)
[3]基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬.  北京印刷學(xué)院學(xué)報(bào). 2016(04)
[4]基于HMM的動(dòng)作識(shí)別結(jié)果可信度計(jì)算方法[J]. 王昌海,張建忠,徐敬東,許昱瑋.  通信學(xué)報(bào). 2016(05)
[5]基于語義的文檔特征提取研究方法[J]. 姜芳,李國和,岳翔.  計(jì)算機(jī)科學(xué). 2016(02)
[6]基于特征學(xué)習(xí)的文本大數(shù)據(jù)內(nèi)容理解及其發(fā)展趨勢(shì)[J]. 袁書寒,向陽,鄂世嘉.  大數(shù)據(jù). 2015(03)
[7]網(wǎng)絡(luò)大數(shù)據(jù)的文本內(nèi)容分析[J]. 程學(xué)旗,蘭艷艷.  大數(shù)據(jù). 2015(03)
[8]詞語相似度算法研究綜述[J]. 李慧.  現(xiàn)代情報(bào). 2015(04)
[9]基于LDA模型的文本聚類研究[J]. 王鵬,高鋮,陳曉美.  情報(bào)科學(xué). 2015(01)
[10]結(jié)合內(nèi)容和標(biāo)簽的Web文本聚類研究[J]. 顧曉雪,章成志.  現(xiàn)代圖書情報(bào)技術(shù). 2014(11)



本文編號(hào):3577521

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/3577521.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7eca1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com