基于行為大數(shù)據(jù)的人崗匹配分析關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-08-08 19:49
近年來大學(xué)生就業(yè)渠道愈加豐富,類別愈加繁多,但招聘過程仍舊沒有發(fā)生本質(zhì)變化,招聘成本高昂。而且高校培養(yǎng)和招聘需求之間存在脫節(jié),招聘一個(gè)合格的崗位候選人,需要大量筆試和面試,導(dǎo)致招聘效率低下,并且招聘全程受人為主觀因素影響。如何找到一種高效客觀的解決方法是十分有意義的。隨著校園數(shù)字化的普及,數(shù)字化校園信息系統(tǒng)不斷積累學(xué)生各方面的在校信息,且內(nèi)容形式日趨多樣化,其中隱藏著許多有價(jià)值的信息和規(guī)律。深度挖掘企業(yè)崗位和受聘學(xué)生的綜合素質(zhì)之間的內(nèi)在聯(lián)系,并在此基礎(chǔ)上構(gòu)建基于學(xué)生畫像和崗位需求信息的人崗匹配分析機(jī)制是非常有必要的。論文的主要貢獻(xiàn)包括:(1)針對(duì)人崗匹配分析的需求特點(diǎn),給出了學(xué)生畫像模型的總體設(shè)計(jì),包括學(xué)生畫像中多維度標(biāo)簽的定義和量化方法。并在此基礎(chǔ)上,提出了學(xué)生在校行為數(shù)據(jù)的收集和預(yù)處理方案。(2)針對(duì)學(xué)生畫像中主觀標(biāo)簽的評(píng)估需求,提出了評(píng)級(jí)標(biāo)簽的生成方法。利用改進(jìn)的基于模擬退火遺傳優(yōu)化的模糊聚類算法(SAGA-FCM)對(duì)樣本數(shù)據(jù)進(jìn)行聚類從而得到評(píng)級(jí)標(biāo)簽的初始分類。(3)基于SAGA-FCM的聚類結(jié)果,為了實(shí)現(xiàn)對(duì)新樣本的評(píng)估,利用改進(jìn)的基于遺傳優(yōu)化的廣義回歸神經(jīng)網(wǎng)絡(luò)算法(GA-GRN...
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
用戶標(biāo)簽化示意圖
東南大學(xué)碩士學(xué)位論文6圖2-2互聯(lián)網(wǎng)用戶畫像構(gòu)建流程從圖2-2中,可以看到用戶畫像的源頭是數(shù)據(jù)本身,對(duì)數(shù)據(jù)的采集和預(yù)處理是進(jìn)行用戶標(biāo)簽映射的重要前提。數(shù)據(jù)預(yù)處理之后,通過算法模型得到用戶的標(biāo)簽信息,標(biāo)簽信息的集合可以用于用戶畫像建模。用戶畫像模型中標(biāo)簽的選取需要與業(yè)務(wù)場(chǎng)景相結(jié)合,場(chǎng)景建模的復(fù)雜性決定了用戶建模的復(fù)雜度,即用戶畫像的維度。確定用戶畫像的維度之后,就可以對(duì)用戶畫像進(jìn)一步的運(yùn)用。本文構(gòu)建學(xué)生畫像的整體流程與互聯(lián)網(wǎng)中構(gòu)建用戶畫像的流程相似。但是學(xué)生畫像的構(gòu)建過程更加復(fù)雜。首先,學(xué)生畫像建模的數(shù)據(jù)源更加異構(gòu),學(xué)籍管理系統(tǒng)、學(xué)工系統(tǒng)、教務(wù)系統(tǒng)和就業(yè)系統(tǒng)等各自維護(hù)各自的數(shù)據(jù)庫,數(shù)據(jù)異構(gòu)化嚴(yán)重;再者,學(xué)生畫像的業(yè)務(wù)場(chǎng)景主要有人崗匹配、學(xué)生自我評(píng)價(jià)和高校人才培養(yǎng)指導(dǎo),因此,學(xué)生畫像的維度更加豐富;最后,由于學(xué)生畫像中存在諸多主觀類型的標(biāo)簽,所以學(xué)生畫像的標(biāo)簽生成算法需要進(jìn)一步的研究和設(shè)計(jì)。本文的學(xué)生畫像主要包含兩個(gè)部分:客觀部分和主觀部分?陀^部分主要包含學(xué)生的基本屬性、學(xué)習(xí)成績(jī)、獲獎(jiǎng)情況、技能掌握和行為記錄等可直接獲得或者通過簡(jiǎn)單的統(tǒng)計(jì)策略可以獲得的數(shù)據(jù)。而主觀部分則包含無法直接獲得的學(xué)生事務(wù)完成力、學(xué)習(xí)能力、領(lǐng)導(dǎo)力和協(xié)作能力等標(biāo)簽?陀^部分的標(biāo)簽可以直接通過查表得到,比如學(xué)生的學(xué)號(hào),成績(jī),籍貫等,對(duì)缺失或者奇異的數(shù)據(jù)進(jìn)行簡(jiǎn)單的清洗即可。而對(duì)于主觀部分的標(biāo)簽,則需要通過收集學(xué)生的行為日志,然后通過統(tǒng)計(jì)、規(guī)約、分析等手段獲得。主觀部分的準(zhǔn)確性相對(duì)差一些,本文會(huì)采用客觀和主觀部分相結(jié)合的方式來保證學(xué)生畫像的質(zhì)量。此外,在構(gòu)建學(xué)生畫像的過程中,還需要注意標(biāo)簽粒度的大小,如果粒度過于精細(xì),則會(huì)增加建模的成本,而且也會(huì)降低學(xué)生畫像?
東南大學(xué)碩士學(xué)位論文8將各自數(shù)據(jù)庫中表導(dǎo)出,可以獲得各系統(tǒng)的數(shù)據(jù)。(2)網(wǎng)頁爬取除了數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù),本文還需要一些離散的數(shù)據(jù),比如獎(jiǎng)學(xué)金公示信息、競(jìng)賽獲獎(jiǎng)信息等。這些數(shù)據(jù)的獲得則需要利用爬蟲技術(shù)。爬蟲的框架如圖2-3所示:圖2-3爬蟲框架圖根據(jù)圖2-3,首先選取一個(gè)url作為爬蟲程序的種子輸入,將其放入待抓取url隊(duì)列,對(duì)待抓取url隊(duì)列中的url逐個(gè)解析,url解析完成后將頁面內(nèi)容存入數(shù)據(jù)庫中,已經(jīng)解析過的url放入已抓取url隊(duì)列中。此外,已抓取的url隊(duì)列還需要檢查分析,如果其中存在新的外鏈,則需要抽取出新的url加入待抓取隊(duì)列。本文的數(shù)據(jù)采集除了以上兩種主要方式之外,需要進(jìn)行一些簡(jiǎn)單的人工收集。人工收集沒有固定的方法,可以通過聯(lián)系系統(tǒng)管理員、輔導(dǎo)員等獲取一些脫敏的數(shù)據(jù),如學(xué)生的簡(jiǎn)歷等,以幫助本文提高學(xué)生畫像的質(zhì)量。2.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)采集得到的數(shù)據(jù)需要進(jìn)行預(yù)處理操作,從而提升的數(shù)據(jù)質(zhì)量,以達(dá)到建模的需要。(1)數(shù)據(jù)清洗數(shù)據(jù)清洗是為了剔除原始數(shù)據(jù)中重復(fù)的、錯(cuò)誤的、無關(guān)的數(shù)據(jù),并補(bǔ)充和修正數(shù)據(jù)中缺失的或者異常的值。由于高校的學(xué)生行為數(shù)據(jù)管理業(yè)務(wù)相對(duì)明確且管理規(guī)范,對(duì)于重復(fù)的和缺失嚴(yán)重的數(shù)據(jù),直接剔除樣本集。而對(duì)于個(gè)別缺失的數(shù)據(jù),由于缺失部分不大,可以通過簡(jiǎn)單篩選后,人工進(jìn)行補(bǔ)全。(2)數(shù)據(jù)集成數(shù)據(jù)集成是為了將各個(gè)系統(tǒng)內(nèi)異構(gòu)的數(shù)據(jù)源集合成一個(gè)整體。本文利用學(xué)生的學(xué)號(hào)作為主鍵合并到數(shù)據(jù)庫中。在數(shù)據(jù)集成的過程中,需要進(jìn)行簡(jiǎn)單的實(shí)體和冗余數(shù)據(jù)識(shí)別。實(shí)體識(shí)別主要是針對(duì)相同命名不同含義、不同命名相同含義或單位不一致的數(shù)據(jù)進(jìn)行識(shí)別和處理。冗余數(shù)據(jù)則是由于設(shè)計(jì)不合理或者業(yè)務(wù)特殊需要而重復(fù)出現(xiàn)的數(shù)據(jù)或者命名不同意義相同的數(shù)據(jù)進(jìn)行刪除和整合。(3)數(shù)據(jù)變換
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合模擬退火算法的遺傳K-Means聚類方法[J]. 凌靜,江凌云,趙迎. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[2]結(jié)合初始中心優(yōu)化和特征加權(quán)的K-Means聚類算法[J]. 王宏杰,師彥文. 計(jì)算機(jī)科學(xué). 2017(S2)
[3]面向社會(huì)化媒體用戶評(píng)論行為的屬性推斷[J]. 劉云,孫宇清,李明珠. 計(jì)算機(jī)學(xué)報(bào). 2017(12)
[4]混合算法求解多目標(biāo)平衡旅行商問題[J]. 董學(xué)士,董文永,王豫峰. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[5]遺傳算法的廣義回歸神經(jīng)網(wǎng)絡(luò)建模方法[J]. 孔國(guó)利,張璐璐. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(02)
[6]基于大數(shù)據(jù)分析的用戶畫像助力精準(zhǔn)營(yíng)銷研究[J]. 張麗娟. 電信技術(shù). 2017(01)
[7]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[8]基于標(biāo)簽權(quán)重評(píng)分的推薦模型及算法研究[J]. 孔欣欣,蘇本昌,王宏志,高宏,李建中. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[9]均衡模糊C均值聚類算法[J]. 文傳軍,汪慶淼,詹永照. 計(jì)算機(jī)科學(xué). 2014(08)
[10]面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J]. 高明,金澈清,錢衛(wèi)寧,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
碩士論文
[1]廣義回歸神經(jīng)網(wǎng)絡(luò)和遺傳算法研究及其在化工過程建模中的應(yīng)用[D]. 郝鑫.浙江大學(xué) 2004
本文編號(hào):3330576
【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
用戶標(biāo)簽化示意圖
東南大學(xué)碩士學(xué)位論文6圖2-2互聯(lián)網(wǎng)用戶畫像構(gòu)建流程從圖2-2中,可以看到用戶畫像的源頭是數(shù)據(jù)本身,對(duì)數(shù)據(jù)的采集和預(yù)處理是進(jìn)行用戶標(biāo)簽映射的重要前提。數(shù)據(jù)預(yù)處理之后,通過算法模型得到用戶的標(biāo)簽信息,標(biāo)簽信息的集合可以用于用戶畫像建模。用戶畫像模型中標(biāo)簽的選取需要與業(yè)務(wù)場(chǎng)景相結(jié)合,場(chǎng)景建模的復(fù)雜性決定了用戶建模的復(fù)雜度,即用戶畫像的維度。確定用戶畫像的維度之后,就可以對(duì)用戶畫像進(jìn)一步的運(yùn)用。本文構(gòu)建學(xué)生畫像的整體流程與互聯(lián)網(wǎng)中構(gòu)建用戶畫像的流程相似。但是學(xué)生畫像的構(gòu)建過程更加復(fù)雜。首先,學(xué)生畫像建模的數(shù)據(jù)源更加異構(gòu),學(xué)籍管理系統(tǒng)、學(xué)工系統(tǒng)、教務(wù)系統(tǒng)和就業(yè)系統(tǒng)等各自維護(hù)各自的數(shù)據(jù)庫,數(shù)據(jù)異構(gòu)化嚴(yán)重;再者,學(xué)生畫像的業(yè)務(wù)場(chǎng)景主要有人崗匹配、學(xué)生自我評(píng)價(jià)和高校人才培養(yǎng)指導(dǎo),因此,學(xué)生畫像的維度更加豐富;最后,由于學(xué)生畫像中存在諸多主觀類型的標(biāo)簽,所以學(xué)生畫像的標(biāo)簽生成算法需要進(jìn)一步的研究和設(shè)計(jì)。本文的學(xué)生畫像主要包含兩個(gè)部分:客觀部分和主觀部分?陀^部分主要包含學(xué)生的基本屬性、學(xué)習(xí)成績(jī)、獲獎(jiǎng)情況、技能掌握和行為記錄等可直接獲得或者通過簡(jiǎn)單的統(tǒng)計(jì)策略可以獲得的數(shù)據(jù)。而主觀部分則包含無法直接獲得的學(xué)生事務(wù)完成力、學(xué)習(xí)能力、領(lǐng)導(dǎo)力和協(xié)作能力等標(biāo)簽?陀^部分的標(biāo)簽可以直接通過查表得到,比如學(xué)生的學(xué)號(hào),成績(jī),籍貫等,對(duì)缺失或者奇異的數(shù)據(jù)進(jìn)行簡(jiǎn)單的清洗即可。而對(duì)于主觀部分的標(biāo)簽,則需要通過收集學(xué)生的行為日志,然后通過統(tǒng)計(jì)、規(guī)約、分析等手段獲得。主觀部分的準(zhǔn)確性相對(duì)差一些,本文會(huì)采用客觀和主觀部分相結(jié)合的方式來保證學(xué)生畫像的質(zhì)量。此外,在構(gòu)建學(xué)生畫像的過程中,還需要注意標(biāo)簽粒度的大小,如果粒度過于精細(xì),則會(huì)增加建模的成本,而且也會(huì)降低學(xué)生畫像?
東南大學(xué)碩士學(xué)位論文8將各自數(shù)據(jù)庫中表導(dǎo)出,可以獲得各系統(tǒng)的數(shù)據(jù)。(2)網(wǎng)頁爬取除了數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù),本文還需要一些離散的數(shù)據(jù),比如獎(jiǎng)學(xué)金公示信息、競(jìng)賽獲獎(jiǎng)信息等。這些數(shù)據(jù)的獲得則需要利用爬蟲技術(shù)。爬蟲的框架如圖2-3所示:圖2-3爬蟲框架圖根據(jù)圖2-3,首先選取一個(gè)url作為爬蟲程序的種子輸入,將其放入待抓取url隊(duì)列,對(duì)待抓取url隊(duì)列中的url逐個(gè)解析,url解析完成后將頁面內(nèi)容存入數(shù)據(jù)庫中,已經(jīng)解析過的url放入已抓取url隊(duì)列中。此外,已抓取的url隊(duì)列還需要檢查分析,如果其中存在新的外鏈,則需要抽取出新的url加入待抓取隊(duì)列。本文的數(shù)據(jù)采集除了以上兩種主要方式之外,需要進(jìn)行一些簡(jiǎn)單的人工收集。人工收集沒有固定的方法,可以通過聯(lián)系系統(tǒng)管理員、輔導(dǎo)員等獲取一些脫敏的數(shù)據(jù),如學(xué)生的簡(jiǎn)歷等,以幫助本文提高學(xué)生畫像的質(zhì)量。2.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)采集得到的數(shù)據(jù)需要進(jìn)行預(yù)處理操作,從而提升的數(shù)據(jù)質(zhì)量,以達(dá)到建模的需要。(1)數(shù)據(jù)清洗數(shù)據(jù)清洗是為了剔除原始數(shù)據(jù)中重復(fù)的、錯(cuò)誤的、無關(guān)的數(shù)據(jù),并補(bǔ)充和修正數(shù)據(jù)中缺失的或者異常的值。由于高校的學(xué)生行為數(shù)據(jù)管理業(yè)務(wù)相對(duì)明確且管理規(guī)范,對(duì)于重復(fù)的和缺失嚴(yán)重的數(shù)據(jù),直接剔除樣本集。而對(duì)于個(gè)別缺失的數(shù)據(jù),由于缺失部分不大,可以通過簡(jiǎn)單篩選后,人工進(jìn)行補(bǔ)全。(2)數(shù)據(jù)集成數(shù)據(jù)集成是為了將各個(gè)系統(tǒng)內(nèi)異構(gòu)的數(shù)據(jù)源集合成一個(gè)整體。本文利用學(xué)生的學(xué)號(hào)作為主鍵合并到數(shù)據(jù)庫中。在數(shù)據(jù)集成的過程中,需要進(jìn)行簡(jiǎn)單的實(shí)體和冗余數(shù)據(jù)識(shí)別。實(shí)體識(shí)別主要是針對(duì)相同命名不同含義、不同命名相同含義或單位不一致的數(shù)據(jù)進(jìn)行識(shí)別和處理。冗余數(shù)據(jù)則是由于設(shè)計(jì)不合理或者業(yè)務(wù)特殊需要而重復(fù)出現(xiàn)的數(shù)據(jù)或者命名不同意義相同的數(shù)據(jù)進(jìn)行刪除和整合。(3)數(shù)據(jù)變換
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合模擬退火算法的遺傳K-Means聚類方法[J]. 凌靜,江凌云,趙迎. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(09)
[2]結(jié)合初始中心優(yōu)化和特征加權(quán)的K-Means聚類算法[J]. 王宏杰,師彥文. 計(jì)算機(jī)科學(xué). 2017(S2)
[3]面向社會(huì)化媒體用戶評(píng)論行為的屬性推斷[J]. 劉云,孫宇清,李明珠. 計(jì)算機(jī)學(xué)報(bào). 2017(12)
[4]混合算法求解多目標(biāo)平衡旅行商問題[J]. 董學(xué)士,董文永,王豫峰. 計(jì)算機(jī)研究與發(fā)展. 2017(08)
[5]遺傳算法的廣義回歸神經(jīng)網(wǎng)絡(luò)建模方法[J]. 孔國(guó)利,張璐璐. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(02)
[6]基于大數(shù)據(jù)分析的用戶畫像助力精準(zhǔn)營(yíng)銷研究[J]. 張麗娟. 電信技術(shù). 2017(01)
[7]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[8]基于標(biāo)簽權(quán)重評(píng)分的推薦模型及算法研究[J]. 孔欣欣,蘇本昌,王宏志,高宏,李建中. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[9]均衡模糊C均值聚類算法[J]. 文傳軍,汪慶淼,詹永照. 計(jì)算機(jī)科學(xué). 2014(08)
[10]面向微博系統(tǒng)的實(shí)時(shí)個(gè)性化推薦[J]. 高明,金澈清,錢衛(wèi)寧,王曉玲,周傲英. 計(jì)算機(jī)學(xué)報(bào). 2014(04)
碩士論文
[1]廣義回歸神經(jīng)網(wǎng)絡(luò)和遺傳算法研究及其在化工過程建模中的應(yīng)用[D]. 郝鑫.浙江大學(xué) 2004
本文編號(hào):3330576
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3330576.html
最近更新
教材專著