天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于Spark和PU-learning的分布式機(jī)器學(xué)習(xí)平臺(tái)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-05-01 01:13
  近年來(lái),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,企業(yè)數(shù)據(jù)總量正逐年增多,在企業(yè)內(nèi)被當(dāng)做資源核心和財(cái)富。為了挖掘數(shù)據(jù)蘊(yùn)藏著的潛在價(jià)值,機(jī)器學(xué)習(xí)將繼續(xù)扮演著重要的核心作用。在工業(yè)界,大型企業(yè)一般會(huì)構(gòu)建分布式機(jī)器學(xué)習(xí)平臺(tái),提供更高效的機(jī)器學(xué)習(xí)服務(wù)能力。然而目前的分布式機(jī)器學(xué)習(xí)平臺(tái)還存在著以下問(wèn)題:1)目前工業(yè)界對(duì)外服務(wù)的商用分布式機(jī)器學(xué)習(xí)平臺(tái)構(gòu)建在企業(yè)內(nèi)部的特定的集群環(huán)境中且難以對(duì)外部署,因此對(duì)于數(shù)據(jù)的保密安全等級(jí)要求比較高的國(guó)家衛(wèi)健委等國(guó)家級(jí)組織和企業(yè)來(lái)說(shuō),將數(shù)據(jù)放在此類商用平臺(tái)上進(jìn)行分析時(shí)候存在顧慮,需要一個(gè)可以部署在這些國(guó)家級(jí)組織和企業(yè)的內(nèi)部環(huán)境中的機(jī)器學(xué)習(xí)平臺(tái)。2)在算法層面,衛(wèi)健委的人口資源數(shù)據(jù)中存在著的大量未標(biāo)記的數(shù)據(jù),例如在孕前優(yōu)生數(shù)據(jù)中,由于需要“隨訪”才能確定新生兒是否患有缺陷疾病且大量的人群未“隨訪”,這些未標(biāo)記人群中存在沉默的患病潛在人群。這正是致力于利用未標(biāo)記數(shù)據(jù)的基于正例樣本和無(wú)標(biāo)記樣本的PU學(xué)習(xí)算法(Positive and Unlabeled Learning,簡(jiǎn)稱PU-learning,是一種半監(jiān)督學(xué)習(xí)算法)所解決的問(wèn)題,然而目前PU學(xué)習(xí)算法只有單機(jī)版的實(shí)現(xiàn),阻礙了平臺(tái)對(duì)這類數(shù)... 

【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 引言
    1.1 研究背景和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 分布式機(jī)器學(xué)習(xí)平臺(tái)的研究現(xiàn)狀
        1.2.2 PU學(xué)習(xí)算法的研究現(xiàn)狀
    1.3 論文主要研究?jī)?nèi)容
    1.4 碩士在讀期間主要工作
    1.5 論文章節(jié)安排
第二章 相關(guān)技術(shù)及研究
    2.1 分布式計(jì)算框架Spark
        2.1.1 Spark概述
        2.1.2 Spark類MapReduce編程模型
        2.1.3 Spark抽象單元
    2.2 PU學(xué)習(xí)算法“兩步驟”方法
    2.3 PU學(xué)習(xí)算法優(yōu)化技術(shù)
        2.3.1 Rocchio算法
        2.3.2 Spy算法
        2.3.3 SMOTE重采樣算法
        2.3.4 集成學(xué)習(xí)算法
    2.4 基于Spark的REST服務(wù)引擎
第三章 PU學(xué)習(xí)算法分布式版本的改進(jìn)與實(shí)現(xiàn)
    3.1 問(wèn)題的提出
    3.2 算法設(shè)計(jì)
    3.3 算法實(shí)現(xiàn)
    3.4 算法實(shí)驗(yàn)與分析
        3.4.1 實(shí)驗(yàn)環(huán)境
        3.4.2 實(shí)驗(yàn)數(shù)據(jù)
        3.4.3 實(shí)驗(yàn)評(píng)估指標(biāo)
        3.4.4 實(shí)驗(yàn)結(jié)果與分析
第四章 PU學(xué)習(xí)算法擴(kuò)展框架的設(shè)計(jì)與實(shí)現(xiàn)
    4.1 問(wèn)題的提出
    4.2 算法設(shè)計(jì)
        4.2.1 Bagging和Boosting融合策略
        4.2.2 基于互信息的權(quán)重更新的Wrapper策略
    4.3 算法實(shí)現(xiàn)
    4.4 算法實(shí)驗(yàn)與分析
        4.4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)
        4.4.2 實(shí)驗(yàn)評(píng)估指標(biāo)
        4.4.3 實(shí)驗(yàn)結(jié)果與分析
第五章 基于Spark的分布式機(jī)器學(xué)習(xí)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
    5.1 系統(tǒng)需求分析
        5.1.1 系統(tǒng)業(yè)務(wù)需求
        5.1.2 系統(tǒng)功能需求
    5.2 系統(tǒng)總體設(shè)計(jì)
        5.2.1 功能結(jié)構(gòu)設(shè)計(jì)
        5.2.2 技術(shù)架構(gòu)設(shè)計(jì)
        5.2.3 整體架構(gòu)設(shè)計(jì)
    5.3 數(shù)據(jù)庫(kù)設(shè)計(jì)
    5.4 系統(tǒng)模塊的設(shè)計(jì)與實(shí)現(xiàn)
        5.4.1 資源管理模塊
        5.4.2 算法實(shí)現(xiàn)模塊
        5.4.3 日志審計(jì)模塊
    5.5 平臺(tái)測(cè)試與評(píng)估
        5.5.1 頁(yè)面展示
        5.5.2 平臺(tái)測(cè)試
第六章 總結(jié)與展望
    6.1 工作總結(jié)
    6.2 工作展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間取得的研究成果



本文編號(hào):3169850

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3169850.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2594d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com