基于超圖聚類(lèi)的大數(shù)據(jù)實(shí)體識(shí)別算法研究
發(fā)布時(shí)間:2021-08-12 03:12
現(xiàn)已進(jìn)入大數(shù)據(jù)時(shí)代,數(shù)據(jù)量成爆發(fā)式增長(zhǎng),數(shù)據(jù)量的增長(zhǎng)帶來(lái)嚴(yán)重的數(shù)據(jù)質(zhì)量問(wèn)題,使得數(shù)據(jù)的可用性極大降低,數(shù)據(jù)清洗變得更加重要。實(shí)體識(shí)別是數(shù)據(jù)清洗的重要步驟,主要目的就是準(zhǔn)確的識(shí)別出同一實(shí)體,將數(shù)據(jù)對(duì)象與現(xiàn)實(shí)世界的真實(shí)實(shí)體一一對(duì)應(yīng),即對(duì)數(shù)據(jù)庫(kù)中元組對(duì)是否指代同一實(shí)體進(jìn)行判別。以此來(lái)達(dá)成去除冗余,消解不一致的數(shù)據(jù)清洗效果。通過(guò)實(shí)體識(shí)別可以有效的提高數(shù)據(jù)同一性。面向大數(shù)據(jù)的實(shí)體識(shí)別方法是現(xiàn)在研究的熱點(diǎn)之一,但目前面向大數(shù)據(jù)的實(shí)體識(shí)別方法在識(shí)別效率上依然不盡如人意,目前的實(shí)體識(shí)別技術(shù)多基于領(lǐng)域知識(shí),對(duì)領(lǐng)域知識(shí)的依賴(lài)性很高,領(lǐng)域無(wú)關(guān)的實(shí)體識(shí)別算法目前較少,基于圖聚類(lèi)的實(shí)體識(shí)別算法目前效果比較好,同時(shí)Spark計(jì)算平臺(tái)在大數(shù)據(jù)處理上具有很大的優(yōu)勢(shì),因此本文在基于圖聚類(lèi)的實(shí)體識(shí)別算法基礎(chǔ)上使用Spark計(jì)算平臺(tái)提出基于超圖聚類(lèi)的實(shí)體識(shí)別算法。本文首先介紹有關(guān)實(shí)體識(shí)別的相關(guān)技術(shù)以及理論基礎(chǔ),包括實(shí)體識(shí)別的分塊技術(shù)和實(shí)體識(shí)別聚類(lèi)技術(shù)。然后通過(guò)使用超圖聚類(lèi)方法,設(shè)計(jì)并實(shí)現(xiàn)在超圖模型下的實(shí)體識(shí)別算法:首先通過(guò)建立倒排索引表和頻繁項(xiàng)集挖掘的方法對(duì)數(shù)據(jù)進(jìn)行分塊處理,并為超圖模型的構(gòu)建做準(zhǔn)備;通過(guò)挖掘好的頻繁項(xiàng)集構(gòu)...
【文章來(lái)源】:東北師范大學(xué)吉林省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
實(shí)體識(shí)別過(guò)程
圖 2.2 滑動(dòng)窗口分塊:將數(shù)據(jù)進(jìn)行分塊可以看做是將相似元組聚類(lèi)到一起,因此還進(jìn)行分塊。大多數(shù)聚類(lèi)算法的復(fù)雜度都比較高,然而分塊方法且高速的聚類(lèi)方法。因此針對(duì)分塊特點(diǎn),Canopy 聚類(lèi)算法首條記錄都映射到空間中,通過(guò)距離函數(shù) distance(x,y)快速任取記錄中的一點(diǎn)并建立新的塊,將與該點(diǎn)距離小于一定閾值除距離遠(yuǎn)的點(diǎn),通過(guò)不斷地迭代重復(fù)將元組插入到不同的塊中定的閾值,但該聚類(lèi)方法對(duì)聚類(lèi)中心的選取依賴(lài)性較高。:語(yǔ)義分塊方法是利用元組之間的關(guān)系來(lái)進(jìn)行分塊,具體是將,圖中點(diǎn)是每個(gè)元組,關(guān)系是圖的邊。通過(guò)對(duì)關(guān)系的比較函數(shù)。通過(guò)語(yǔ)義的分塊方法優(yōu)點(diǎn)是保留了數(shù)據(jù)原有的語(yǔ)義關(guān)系,但的定義。塊方法多會(huì)依賴(lài)對(duì)相關(guān)領(lǐng)域的專(zhuān)業(yè)意見(jiàn),或不能應(yīng)用于大多數(shù)
另一種聚類(lèi)方法是基于圖的聚類(lèi),比如著名的 CENTER 聚類(lèi)算法,首先將數(shù)據(jù)元組對(duì)生成圖,然后對(duì)圖進(jìn)行聚類(lèi),聚類(lèi)后的每個(gè)子圖為一個(gè)實(shí)體。CENTER聚類(lèi)算法首先找到每個(gè)子圖的中心,然后將元組插入到距離最近的中心所代表的類(lèi)里,這種聚類(lèi)方式,使得類(lèi)中心的選取非常重要,會(huì)極大的影響最終的分類(lèi)結(jié)果,因此對(duì)它的改進(jìn)之一是:若類(lèi)的中心相似高,便合并兩個(gè)類(lèi)。同時(shí),還有基于密度的聚類(lèi),匹配元組密度大,不匹配的密度小。這種方法的好處是不需要根據(jù)全局閾值,只根據(jù)鄰居數(shù)量和密度就可以達(dá)到聚類(lèi)的效果。2.2 圖聚類(lèi)通過(guò)構(gòu)建普通圖的方式可以更清晰的描述出數(shù)據(jù)之間的復(fù)雜關(guān)系。圖聚類(lèi)方法就是將數(shù)據(jù)對(duì)象之間的關(guān)系用圖來(lái)表示,然后對(duì)構(gòu)建好的普通圖進(jìn)行劃分,得到子圖。最終每個(gè)子圖之間的關(guān)聯(lián)度比較低,子圖內(nèi)部節(jié)點(diǎn)關(guān)系比較緊密。圖聚類(lèi)過(guò)程如圖 2.3 所示。
本文編號(hào):3337465
【文章來(lái)源】:東北師范大學(xué)吉林省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
實(shí)體識(shí)別過(guò)程
圖 2.2 滑動(dòng)窗口分塊:將數(shù)據(jù)進(jìn)行分塊可以看做是將相似元組聚類(lèi)到一起,因此還進(jìn)行分塊。大多數(shù)聚類(lèi)算法的復(fù)雜度都比較高,然而分塊方法且高速的聚類(lèi)方法。因此針對(duì)分塊特點(diǎn),Canopy 聚類(lèi)算法首條記錄都映射到空間中,通過(guò)距離函數(shù) distance(x,y)快速任取記錄中的一點(diǎn)并建立新的塊,將與該點(diǎn)距離小于一定閾值除距離遠(yuǎn)的點(diǎn),通過(guò)不斷地迭代重復(fù)將元組插入到不同的塊中定的閾值,但該聚類(lèi)方法對(duì)聚類(lèi)中心的選取依賴(lài)性較高。:語(yǔ)義分塊方法是利用元組之間的關(guān)系來(lái)進(jìn)行分塊,具體是將,圖中點(diǎn)是每個(gè)元組,關(guān)系是圖的邊。通過(guò)對(duì)關(guān)系的比較函數(shù)。通過(guò)語(yǔ)義的分塊方法優(yōu)點(diǎn)是保留了數(shù)據(jù)原有的語(yǔ)義關(guān)系,但的定義。塊方法多會(huì)依賴(lài)對(duì)相關(guān)領(lǐng)域的專(zhuān)業(yè)意見(jiàn),或不能應(yīng)用于大多數(shù)
另一種聚類(lèi)方法是基于圖的聚類(lèi),比如著名的 CENTER 聚類(lèi)算法,首先將數(shù)據(jù)元組對(duì)生成圖,然后對(duì)圖進(jìn)行聚類(lèi),聚類(lèi)后的每個(gè)子圖為一個(gè)實(shí)體。CENTER聚類(lèi)算法首先找到每個(gè)子圖的中心,然后將元組插入到距離最近的中心所代表的類(lèi)里,這種聚類(lèi)方式,使得類(lèi)中心的選取非常重要,會(huì)極大的影響最終的分類(lèi)結(jié)果,因此對(duì)它的改進(jìn)之一是:若類(lèi)的中心相似高,便合并兩個(gè)類(lèi)。同時(shí),還有基于密度的聚類(lèi),匹配元組密度大,不匹配的密度小。這種方法的好處是不需要根據(jù)全局閾值,只根據(jù)鄰居數(shù)量和密度就可以達(dá)到聚類(lèi)的效果。2.2 圖聚類(lèi)通過(guò)構(gòu)建普通圖的方式可以更清晰的描述出數(shù)據(jù)之間的復(fù)雜關(guān)系。圖聚類(lèi)方法就是將數(shù)據(jù)對(duì)象之間的關(guān)系用圖來(lái)表示,然后對(duì)構(gòu)建好的普通圖進(jìn)行劃分,得到子圖。最終每個(gè)子圖之間的關(guān)聯(lián)度比較低,子圖內(nèi)部節(jié)點(diǎn)關(guān)系比較緊密。圖聚類(lèi)過(guò)程如圖 2.3 所示。
本文編號(hào):3337465
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3337465.html
最近更新
教材專(zhuān)著