征信系統(tǒng)中實體匹配方法及應用研究
發(fā)布時間:2020-04-26 04:02
【摘要】: 實體是指社會經(jīng)濟運行過程中有經(jīng)濟活動能力個體或組織,在征信系統(tǒng)中它可以指稱個人、家庭、企業(yè)、企業(yè)集團等。實體匹配就是判定語法不同的信用信息所描述的實體是否具有相同的語義。征信系統(tǒng)是覆蓋全國每一個有經(jīng)濟活動能力的實體的信用檔案信息系統(tǒng),它通過采集分散在社會不同部門信用信息,并按照信用實體為主題進行歸集和發(fā)布的信息系統(tǒng),為全國每一個有經(jīng)濟活動能力的實體建立其信用檔案。征信系統(tǒng)是社會信用體系的基礎設施,隨著市場經(jīng)濟的不斷發(fā)展,征信系統(tǒng)在社會經(jīng)濟生活中扮演著越來越重要的角色。 實體匹配是建設全國統(tǒng)一征信系統(tǒng)的技術基礎。由于不同數(shù)據(jù)源信用記錄標識主鍵不同,加之存在數(shù)據(jù)輸入錯誤、格式、拼寫差異等問題,為了實現(xiàn)征信系統(tǒng)的功能目標,需要開展大量信用記錄的實體模糊匹配運算。征信系統(tǒng)中實體匹配可以分為三個層次的匹配運算,分別是字段級匹配、記錄級匹配和復雜結構級匹配。除此之外還需要解決征信系統(tǒng)所特有的匹配數(shù)據(jù)量大,采集數(shù)據(jù)源差別大,范圍廣,不斷擴展等技術難點問題。 本文以征信系統(tǒng)中實體匹配運算為研究對象,按照從不同數(shù)據(jù)源數(shù)據(jù)特征學習相應匹配函數(shù)的研究思路,主要進行了以下幾方面研究: (1)研究了自適應字段匹配問題,提出了基于關聯(lián)token的自適應字符串相似度計算方法。該算法通過關聯(lián)token操作集,形式化定義了同音字相似度,提煉不同數(shù)據(jù)源的詞頻與關聯(lián)操作頻度的數(shù)據(jù)特征,并通過對支持向量機訓練,以計算適應詞頻、關聯(lián)類型等數(shù)據(jù)特征的匹配分類及相似度計算函數(shù)。通過實驗驗證與對比分析,說明了該算法對于數(shù)據(jù)源的數(shù)據(jù)質(zhì)量、關聯(lián)類型等都具有良好的適應性。 (2)研究了有標識字段的實體信用記錄高效匹配問題,設計了聯(lián)合分組模型。為了解決大數(shù)據(jù)量實體信用記錄高效匹配問題,通過分組算子抽取了索引和分組運算特征,引入了析取式和析取范式的整體分組式概念,使用多個分組算子聯(lián)合對實體記錄進行分組,設計了聯(lián)合分組模型,以減少匹配運算中比較次數(shù),提高信用記錄匹配運算的效率。最后使用求解覆蓋集方法,在保證匹配運算精度的前提下,符合不同數(shù)據(jù)源特點的最優(yōu)整體分組式。通過實驗驗證以上方法具有較高的匹配運算效率。 (3)研究了多數(shù)據(jù)源無標識字段的實體記錄匹配問題。設計了半監(jiān)督式基于主動學習的實體匹配方法和無監(jiān)督式基于迭代SVM的自動實體匹配方法。其中前者應用主動學習的思想,首先使用聚類隊列建立多個匹配函數(shù)學習機組成學習委員會,其次使用匹配熵計算式,由學習委員會在候選訓練樣本中主動挑選最有利匹配函數(shù)學習的實體記錄對,實現(xiàn)對實體記錄對標識字段與匹配函數(shù)自主學習。后者是利用SVM學習機最大化分類超平面與支持向量之間距離的特性,自動學習新數(shù)據(jù)源的標識字段和匹配函數(shù)。首先使用最近鄰居法自動選擇初始訓練樣本集,其次應用最大化分類間隔的特點迭代對SVM進行自動訓練,使分類超平面逐步逼近匹配實體對與非匹配實體對的分類邊界,實現(xiàn)自動的實體匹配函數(shù)的學習。通過實驗分析了主動學習實體匹配方法和迭代SVM自動實體匹配方法的優(yōu)點及限制條件。 (4)研究了復雜數(shù)據(jù)結構的記錄簇實體匹配問題。根據(jù)記錄簇實體的特殊的數(shù)據(jù)結構,應用賦權二部圖理論建立了規(guī)范的記錄簇實體匹配的數(shù)學模型。為了實現(xiàn)高效地記錄簇實體匹配運算,設計了記錄簇實體上下界匹配算法,使用快速推導出匹配實體閾值的上下界,減少實體所屬子記錄最大權匹配的計算次數(shù)。通過數(shù)據(jù)實驗,驗證了本文提出的匹配模型與方法可以有效提高記錄簇實體匹配精度和效率。 (5)研究了復雜數(shù)據(jù)結構的XML半結構化實體匹配問題,通過計算XML文本中不同類型的屬性節(jié)點在父節(jié)點中的權重,設定匹配實體相似度閾值,求取XML轉換規(guī)則和實體匹配函數(shù),進行XML實體的匹配運算。使用實驗數(shù)據(jù)說明該方法具有良好的匹配分類效率。 本文是在中國人民銀行負責建設的全國集中統(tǒng)一的企業(yè)與個人征信系統(tǒng)的基礎上,通過總結其實體匹配運算所面臨的技術瓶頸,分析目前方法中存在的缺陷,提煉,抽象出具體的研究問題。本文提出的實體匹配方法,目前多數(shù)都已在個人與企業(yè)征信系統(tǒng)中投用,解決了征信系統(tǒng)建設過程中遇到的多數(shù)據(jù)源、海量數(shù)量、復雜結構條件下的實體匹配技術難點問題,取得了實驗結果基本一致的良好使用效果。目前企業(yè)征信系統(tǒng)實現(xiàn)信貸、結算賬戶、社保繳費、環(huán)境違法信息等15大類共882家機構的信用信息采集與匹配運算。個人征信系統(tǒng)實現(xiàn)信貸、公積金繳存、養(yǎng)老保險、電信欠費等11大類共702家機構的信用信息采集與匹配運算,基本實現(xiàn)了全面統(tǒng)一的實體信用信息歸集整理的征信系統(tǒng)建設目標。
【圖文】:
的字符位置,它們序列的長度也為n,例如tZ、CxZ、CyZ表示的就是X中第Cx:個token與Y中第CyZ個t。ke存在tZ關聯(lián)關系,,也就是它們通過t:可以相互轉換。在此通過兩個字符串的關聯(lián)關系圖來說明關聯(lián)操作集定義,圖3.2是“上海市浦東新區(qū)卡園二路108號”與“蒲東區(qū)卡園2路108”兩個地址字符串的關聯(lián)關系圖與關聯(lián)操作集示例。通過圖3.2可以看出,關聯(lián)操作集是由一組關聯(lián)操作組成,每個關聯(lián)操作在字符串的一對token間建立映射關系,通過關聯(lián)操作集,字符串可以相互轉換。利用關聯(lián)操作集定義字符串之間關系,使用規(guī)范的數(shù)據(jù)描述相似程度。但是,我們可以明顯看出,對于任意兩個字符串,可以建立多個關聯(lián)操作集,每個關聯(lián)操作集代表了一種轉換方式。因此對于字符串相似度值的計算轉換為建立關聯(lián)操作集和為不同的關聯(lián)操作賦予適當?shù)臋嘀刂,以便計算出可以真正反映出實體匹配關系的屬性字符串的相似度值。也就是對于字符串對X和Y,通過關聯(lián)操作集T的映射,得到它們的相似度值Z
3.5.3實驗結果與分析使用以上四種方法應用于企業(yè)信貸數(shù)據(jù)的信用實體屬性字符串的相似度計算,評價指標的結果如圖3.4所示。從圖3.4實驗結果來看,四種字符串相似度計算方法在數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量較好的情況下。表現(xiàn)出了較好的準確度,這主要是因為與個人實體相比,企業(yè)實體的數(shù)量少,所以企業(yè)實體的信用數(shù)據(jù)是三類測試數(shù)據(jù)中數(shù)據(jù)量最小的。同時它采集自全國性商業(yè)銀行,使用接口程序自動從業(yè)務數(shù)據(jù)中生成上報的信用數(shù)據(jù),銀行業(yè)務系統(tǒng)的辦理程序較為規(guī)范,所以數(shù)據(jù)質(zhì)量較好,較少出現(xiàn)縮寫詞、同音字輸入錯誤等問題。從算法的精確度分析,還可以發(fā)現(xiàn)Bigram法的精確度略好于Levenshtein法,這是因為Bigr別衛(wèi)法是基于token的字符串相似度算法,它適用于較長字符串的相似度計算,而企業(yè)征信數(shù)據(jù)的屬性字符串的長度一般都較長
【學位授予單位】:大連理工大學
【學位級別】:博士
【學位授予年份】:2010
【分類號】:F832.4;F224
本文編號:2641064
【圖文】:
的字符位置,它們序列的長度也為n,例如tZ、CxZ、CyZ表示的就是X中第Cx:個token與Y中第CyZ個t。ke存在tZ關聯(lián)關系,,也就是它們通過t:可以相互轉換。在此通過兩個字符串的關聯(lián)關系圖來說明關聯(lián)操作集定義,圖3.2是“上海市浦東新區(qū)卡園二路108號”與“蒲東區(qū)卡園2路108”兩個地址字符串的關聯(lián)關系圖與關聯(lián)操作集示例。通過圖3.2可以看出,關聯(lián)操作集是由一組關聯(lián)操作組成,每個關聯(lián)操作在字符串的一對token間建立映射關系,通過關聯(lián)操作集,字符串可以相互轉換。利用關聯(lián)操作集定義字符串之間關系,使用規(guī)范的數(shù)據(jù)描述相似程度。但是,我們可以明顯看出,對于任意兩個字符串,可以建立多個關聯(lián)操作集,每個關聯(lián)操作集代表了一種轉換方式。因此對于字符串相似度值的計算轉換為建立關聯(lián)操作集和為不同的關聯(lián)操作賦予適當?shù)臋嘀刂,以便計算出可以真正反映出實體匹配關系的屬性字符串的相似度值。也就是對于字符串對X和Y,通過關聯(lián)操作集T的映射,得到它們的相似度值Z
3.5.3實驗結果與分析使用以上四種方法應用于企業(yè)信貸數(shù)據(jù)的信用實體屬性字符串的相似度計算,評價指標的結果如圖3.4所示。從圖3.4實驗結果來看,四種字符串相似度計算方法在數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量較好的情況下。表現(xiàn)出了較好的準確度,這主要是因為與個人實體相比,企業(yè)實體的數(shù)量少,所以企業(yè)實體的信用數(shù)據(jù)是三類測試數(shù)據(jù)中數(shù)據(jù)量最小的。同時它采集自全國性商業(yè)銀行,使用接口程序自動從業(yè)務數(shù)據(jù)中生成上報的信用數(shù)據(jù),銀行業(yè)務系統(tǒng)的辦理程序較為規(guī)范,所以數(shù)據(jù)質(zhì)量較好,較少出現(xiàn)縮寫詞、同音字輸入錯誤等問題。從算法的精確度分析,還可以發(fā)現(xiàn)Bigram法的精確度略好于Levenshtein法,這是因為Bigr別衛(wèi)法是基于token的字符串相似度算法,它適用于較長字符串的相似度計算,而企業(yè)征信數(shù)據(jù)的屬性字符串的長度一般都較長
【學位授予單位】:大連理工大學
【學位級別】:博士
【學位授予年份】:2010
【分類號】:F832.4;F224
【引證文獻】
相關博士學位論文 前1條
1 白云峰;金融領域信用信息服務體系構建與運行機制研究[D];吉林大學;2011年
相關碩士學位論文 前1條
1 袁菲;電子商務公共服務平臺中征信模型的構建與應用[D];東華大學;2011年
本文編號:2641064
本文鏈接:http://www.sikaile.net/guanlilunwen/bankxd/2641064.html
最近更新
教材專著