關(guān)于綜合運(yùn)用Benford法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究
本文關(guān)鍵詞:關(guān)于綜合運(yùn)用Benford法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究,由筆耕文化傳播整理發(fā)布。
當(dāng)前位置:首頁(yè) >> 教育學(xué)/心理學(xué) >> 關(guān)于綜合運(yùn)用Benford法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究
第 29 卷第 11 期 2012 年 11 月
統(tǒng)計(jì)研究 Statistical Research
Vol. 29 ,No. 11 Nov. 2012
關(guān)于綜合運(yùn)用 Benford 法則和面板模型 檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究
*
劉云霞
吳曦明
曾五一
內(nèi)容提要: 本文介紹了如何利用 Benford 法則來(lái)檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的一般方法 。 在此基 礎(chǔ) 上, 進(jìn)一步探討了如 何將其與面板模型相結(jié)合從而找出可能存在質(zhì)量問(wèn) 題 的 具 體 地 區(qū) 和 時(shí) 間 序 列 數(shù) 據(jù) 的 方 法 。 并 利 用 上 述 方 法 對(duì) 我 國(guó)多個(gè)國(guó)家級(jí)開(kāi)發(fā)區(qū)的主要經(jīng)濟(jì)指標(biāo)的數(shù)據(jù)質(zhì)量進(jìn)行了實(shí)證分析 。 關(guān)鍵詞: 數(shù)據(jù)質(zhì)量; Benford 法則; 面板模型 中圖分類(lèi)號(hào): O212 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1002 - 4565 ( 2012 ) 11 - 0074 - 05
Detecting Statistical Data Anormality by Combining Benford ’ s Law and Panel Data Models
Liu Yunxia Wu Ximing Zeng Wuyi
Abstract : This article describes a general method that can detect statistical data abnormalityby Benford ’ s law. In addition ,the article discusses how to combine Benford ’ s Law with panel data models to identify the observations that may have data quality problems. We demonstrate the applicability of the proposed method method with an examination on major economic indicators of Chinese national development zones. Key words : Data Quality ; Benford ’ s Law ; Panel Model
數(shù)據(jù)質(zhì)量是 統(tǒng) 計(jì) 工 作 的 生 命 線(xiàn) 。 近 年 來(lái), 我國(guó) 統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量問(wèn)題已成為各級(jí)政府和社會(huì)各界關(guān) 注的熱點(diǎn) 。 如何利用科學(xué)的方法來(lái)診斷統(tǒng)計(jì)數(shù)據(jù)的 質(zhì)量, 也成為統(tǒng)計(jì)學(xué)界重點(diǎn)探討和研究的一項(xiàng)課題 。 本文擬對(duì)如何 利 用 Benford 法 則 來(lái) 檢 測(cè) 統(tǒng) 計(jì) 數(shù) 據(jù)質(zhì)量的方法做一些介紹, 在此基礎(chǔ)上, 進(jìn)一步探討 如何將其與面板模 型 相 結(jié) 合, 進(jìn)一步找出可能存在 質(zhì)量問(wèn)題的具體地 區(qū) 和 時(shí) 間 數(shù) 據(jù) 的 方 法, 并利用我 國(guó)國(guó)家級(jí) 開(kāi) 發(fā) 區(qū) 有 關(guān) 經(jīng) 濟(jì) 指 標(biāo) 的 數(shù) 據(jù) 開(kāi) 展 實(shí) 證 分 析, 驗(yàn)證該方法的適用性 。
機(jī)數(shù)要比以 2 為 第 一 位 數(shù) 的 隨 機(jī) 數(shù) 出 現(xiàn) 的 頻 率 要 大, 而以 2 為第一位 數(shù) 的 隨 機(jī) 數(shù) 又 比 以 3 為 第 一 位 并 可 以 此 類(lèi) 推。當(dāng) 時(shí) 數(shù)的隨機(jī)數(shù)出現(xiàn) 的 概 率 要 大, Simon Neweomb 關(guān) 注 這 一 數(shù) 學(xué) 現(xiàn) 象 完 全 是 出 于 好 奇, 并沒(méi)有對(duì)這一規(guī)律做出解釋 。 到了 1938 年, 美 國(guó) 通 用 電 器 ( GE ) 的 物 理 學(xué) 家 Frank Benford 注意到了同樣的現(xiàn)象 。 他收集并驗(yàn)證 其中包括籃球比賽的數(shù)字 、 河流的 了 20229 個(gè)數(shù)字, 長(zhǎng)度 、 湖泊的面積 、 各 個(gè) 城 市 的 人 口 分 布 數(shù) 字、 在某 一雜志里出現(xiàn)的所有數(shù)字, 發(fā)現(xiàn)在這些數(shù)字中, 整數(shù) 1 在數(shù)字中 第 一 位 出 現(xiàn) 的 概 率 大 約 為 30% , 整數(shù) 2 在數(shù)字中第一位出現(xiàn)的 概 率 大 約 為 17% , 整數(shù) 3 在 數(shù)字第一位出現(xiàn)的概率 約 為 12% , 而 8 和 9 在數(shù)字 中第一位出現(xiàn)的概率約為 5% 和 4% 。 經(jīng)過(guò)研究后,
* 本文為國(guó)家社科基金重點(diǎn)項(xiàng)目 “國(guó)家統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理 問(wèn) 題 研究( 09AZD045 ) ” 階段成果之一; 同時(shí) 獲 得 中 央 高 校 基 本 科 研 業(yè) 務(wù) 費(fèi)專(zhuān)項(xiàng)資金資助( 0140 zk1008 ) 。
Benford 法則 一、
Benford 法則是 由 美 國(guó) 數(shù) 學(xué) 家 、 天 文 學(xué) 家 Simon Neweomb 在 1881 年 首 次 發(fā) 現(xiàn) 的 。 在 1851 年 的 一 天, 他在使用對(duì)數(shù)表做計(jì)算時(shí), 注意到對(duì)數(shù)表的第一 頁(yè)要比其他頁(yè)更為破舊 。 奇怪的現(xiàn)象激發(fā)了他的研 究興趣, 經(jīng)過(guò)大量的統(tǒng)計(jì)分析, 他發(fā)現(xiàn)許多類(lèi)型的數(shù) 字都很好地符合這 樣 的 規(guī) 律: 以 1 為 第 一 位 數(shù) 的 隨
第 29 卷第 11 期
劉云霞等: 關(guān)于綜合運(yùn)用 Benford 法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究
· 75 ·
Frank Benford 得出這 樣 一 個(gè) 結(jié) 論: 大 量 自 然 數(shù) 據(jù) 的 這就是 Benford 首位數(shù)字的出現(xiàn)頻率符合這個(gè)規(guī)律, 法則
[1]
該法則用于會(huì)計(jì)舞弊的發(fā)現(xiàn)研究; 在統(tǒng)計(jì)領(lǐng)域, 也有 學(xué)者將 此 法 則 用 于 檢 驗(yàn) 數(shù) 據(jù) 的 準(zhǔn) 確 性 。 如 George Judge 等( 2009 ) [1] 將此法則 用 于 檢 測(cè) 調(diào) 查 數(shù) 據(jù) 的 質(zhì)
[3] 金瑛( 2010 ) 將該法則用于對(duì) M2 統(tǒng)計(jì) 量; 許滌龍 、
。 Benford 法則主張: 在不同種類(lèi)的統(tǒng)計(jì)數(shù)字 ( 1)
中, 首位數(shù)字是數(shù)字 d 1 的概率是: P ( First digit is d 1 ) = log 10 ( 1 + ( 1 / d 1 ) ) 其中, 首位數(shù)字是指左邊的第一位非零的有效 Benford 法 則 中 首 位 數(shù) 分 別 出 數(shù)字 。 根據(jù)公 式 ( 1 ) , 現(xiàn) 1 ~ 9 的概率如下表:
表1
首位數(shù) 概率 首位數(shù) 概率
數(shù)據(jù)準(zhǔn)確性的研究 。
Benford 法則的檢驗(yàn)方法 二、
目前有四種方法可以檢驗(yàn)一個(gè)統(tǒng)計(jì)數(shù)據(jù)集首位 數(shù)字的概率分布是否服從 Benford 法則的分布 。
Benford 法則中首位數(shù)的概率分布
1 0. 3010 6 0. 0669 2 0. 1761 7 0. 0580 3 0. 1249 8 0. 0512 4 0. 0969 9 0. 0458 5 0. 0792
( 一) χ 2 擬合優(yōu)度檢驗(yàn) 通過(guò) χ 擬合優(yōu)度檢驗(yàn), 可以檢測(cè)統(tǒng)計(jì)數(shù)據(jù) 中 首 位數(shù)的頻率分布是 否 與 Benford 法 則 下 的 分 布 有 顯 著差異 。 χ 統(tǒng)計(jì)量為:
2 2 2
Benford 法則提出之后引起了人們的極 大 關(guān) 注 。 1996 年美國(guó)學(xué)者 Hill 從理論上對(duì) Benford 法 則 給 出 并進(jìn)行了嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明 了滿(mǎn)意的解釋?zhuān)?br />[2]
χ
= N·Σ
9 i=1
[ ( ei - bi ) 2 / ( bi ) ]
( 5)
。后來(lái)
ei 是 統(tǒng) 計(jì) 數(shù) 據(jù) 中 首 位 ( 第 二 位 或 者 第 三 其中, b i 是 Benford 法 則 下 首 位) 出現(xiàn)數(shù)字 i 的 實(shí) 際 頻 率, 位( 第二位或者第三位) 出現(xiàn)數(shù)字 i 的理論頻率 。 顯
2 5% 和 1% 時(shí), 著性水平 分 別 為 10% 、 χ 檢驗(yàn)的臨界
有學(xué)者根據(jù)公式 ( 1 ) , 還 推 導(dǎo) 出 了 第 二 位 數(shù) 為 d2 以 及第三位數(shù)為 d 3 的概率, 并且這種對(duì)數(shù)規(guī)律可以類(lèi) 推至第四位 、 第五位數(shù)出現(xiàn)的概率 P ( Second digit is d 2 )
9 [3]
。
15. 51 和 20. 09 。 如果 χ 統(tǒng)計(jì)量的 值分別是 13. 36 、 則接受備擇假設(shè), 說(shuō)明統(tǒng)計(jì)數(shù)據(jù)首位 值大于臨界值, ( 2) 數(shù)字的頻 率 分 布 不 符 合 Benford 分 布, 即說(shuō)明該數(shù) 應(yīng)引起注意 。 據(jù)可能存在質(zhì)量問(wèn)題, ( 二) 修正 KolmogorovSmirnov 擬合優(yōu)度檢驗(yàn) ( 3) K-S 檢驗(yàn)是用來(lái)檢驗(yàn)單一樣本是 否 來(lái) 自 某 一 特 定理論分布的方法 。 它是以樣本數(shù)據(jù)的累積分布函 數(shù)與特定理論分布 的 累 積 分 布 函 數(shù) 作 比 較, 求這兩 ( 4) 個(gè)累積 分 布 函 數(shù) 的 差 的 絕 對(duì) 值 中 的 最 大 值 D 。 然 后, 通過(guò)查表以確定 D 值 是 否 落 在 所 要 求 對(duì) 應(yīng) 的 置 信區(qū)間內(nèi) 。 若 D 值大于 臨 界 值, 說(shuō)明被檢測(cè)的數(shù)據(jù) 不服從這一特定理論分布 。 K-S 擬合優(yōu) 度 檢 驗(yàn) 的 統(tǒng) 計(jì)量為: D = max F e ( x ) - F b ( x ) ( 6) Fe ( x) 是 實(shí) 際 的 統(tǒng) 計(jì) 數(shù) 據(jù) 中 首 位 數(shù) 的 累 其中, F b ( x ) 是 理 論 分 布 即 Benford 法 則 下 首 積分布函數(shù), 位數(shù)的累積分布函數(shù) 。 Kuiper 對(duì) K-S 擬合 優(yōu) 度 檢 驗(yàn) 作 了 修 正[8] , 得到 如下統(tǒng)計(jì)量: V N = max[ F e ( x ) - F b ( x) ] + max[ F b ( x) - F e ( x) ] Stephens 對(duì)公式( 7 ) 的統(tǒng)計(jì)量再作修正 V
* N [9]
2
=
Σ
9
log 10 1 +
d1 = 1
(
(
1 d1 · d2
)) )) ))
P ( Third digit is d 3 )
9
=
ΣΣ
9 9
log 10 1 +
d1 = 1 d2 = 1
(
(
1 d1 · d2 · d3
P ( Fourth digit is d 4 )
9
=
ΣΣΣ
log10
d1 = 1 d2 = 1 d3 = 1
( (
1 1 + d1 ·d2 ·d3 ·d4
根據(jù) Benford 法 則, 高質(zhì)量的數(shù)據(jù)首位數(shù)字的 出現(xiàn)應(yīng)該遵循上述概率, 并且數(shù)據(jù)規(guī)模越大, 數(shù)據(jù)首 位數(shù)字的概率分 布 就 越 應(yīng) 該 符 合 Benford 法 則 。 如 果存在弄虛作假或者拼湊 、 修飾數(shù)據(jù)的行為, 這種規(guī) 律有可能被破壞 。 因 此, 如果一組統(tǒng)計(jì)數(shù)據(jù)的首位 數(shù)字的概率分布與 Benford 法 則 下 的 首 位 數(shù) 字 概 率 分布存在差異時(shí), 該數(shù)據(jù)的準(zhǔn)確性就值得懷疑了 。 也正是因?yàn)檫@個(gè)特點(diǎn), 國(guó)內(nèi)外的稅務(wù) 、 會(huì)計(jì)和審 計(jì)領(lǐng)域都已經(jīng)將此 法 則 作 為 檢 測(cè) 數(shù) 據(jù) 是 否 有 修 飾 、 篡 改 、舞 弊 的 方 法 之 一 。 例 如,Mark J. Nigrini ( 1992 ) [4] 提出該法則可用 于 檢 查 是 否 有 偽 賬, 并且 可以推而廣之用于 會(huì) 計(jì) 、 金融甚至選舉中出現(xiàn)的數(shù)
[5] [6] 、 據(jù)檢測(cè); 張?zhí)K 彤 ( 2005 ) 王 福 勝 等 ( 2007 ) 將該 [7] 法則用作舞弊審計(jì)的分 析 方 法; 狄 為 等 ( 2010 ) 將
( 7) , 有: ( 8)
-? ?
= V N[ N
? ?
+ 0. 155 + 0. 24 N
]
· 76 ·
統(tǒng)計(jì)研究
2012 年 11 月
5% 以及 1% 顯著性水 該擬合優(yōu)度檢驗(yàn)在 10% 、 1. 32 和 1. 58 。 平下的臨界值分別為 1. 19 、 ( 三) 距離檢測(cè)
[1]
可能存在質(zhì)量問(wèn)題 。 其次, 利用面板模型對(duì)上述可能存在質(zhì)量問(wèn)題 的統(tǒng)計(jì)指標(biāo)作進(jìn)一步分析 。 最后, 檢查面板模型診斷發(fā)現(xiàn)的異常點(diǎn)的數(shù)據(jù) 的首位數(shù)與 Benford 法則檢驗(yàn)中發(fā)現(xiàn)存在的出現(xiàn) 頻 率偏大的首位數(shù)是 否 相 同, 如果相同則可有較大的 把握判斷該異常點(diǎn)的數(shù)據(jù)確實(shí)存在質(zhì)量問(wèn)題 。 如果 則可以認(rèn)為盡管存在異常點(diǎn), 但這種異?赡 不同, 并非由于數(shù)據(jù)質(zhì)量造成的 。 以 上 將 Benford 法 則 和 面 板 模 型 加 以 綜 合 運(yùn) 用的方式, 不 僅 可 以 解 決 單 純 的 Benford 法 則 檢 驗(yàn) 無(wú)法判斷具體樣本點(diǎn)的數(shù)據(jù)是否存在 質(zhì) 量 問(wèn) 題 的 難點(diǎn), 而且 還 可 彌 補(bǔ) 單 純 利 用 面 板 模 型 診 斷 數(shù) 據(jù) 質(zhì) 量 方 法 的 不 足 。利 用 面 板 模 型 診 斷 統(tǒng) 計(jì) 數(shù) 據(jù) 質(zhì) 量的基本 思 想 是: 任 何 一 種 統(tǒng) 計(jì) 指 標(biāo) 與 其 相 關(guān) 的 一組( 或一項(xiàng)) 指 標(biāo) 之 間 的 關(guān) 系, 都可以用面板模 整體模型 型來(lái)近似 反 映。如 果 回 歸 估 計(jì) 的 結(jié) 果, 擬合得很好, 僅有個(gè)別數(shù)據(jù)嚴(yán)重偏離既 定 模 型, 則 可以認(rèn)為處在這些點(diǎn)( 奇異點(diǎn)) 上數(shù)據(jù)的準(zhǔn)確性可 能存在問(wèn) 題, 有 必 要 作 進(jìn) 一 步 的 觀 察 與 分 析。 利 用面板模 型 診 斷 統(tǒng) 計(jì) 數(shù) 據(jù) 質(zhì) 量 的 最 大 難 點(diǎn) 在 于: 當(dāng)診斷結(jié) 果 出 現(xiàn) 異 常 時(shí), 實(shí)際上難以判斷這一異 常是由于 數(shù) 據(jù) 質(zhì) 量 引 起 的, 或是該點(diǎn)的實(shí)際情況 并 不 符 合 所 選 用 的 模 型 引 起 的 。 Benford 法 則 和 面 板模型的綜合運(yùn)用可以從另一個(gè)側(cè)面 找 出 可 能 存 在質(zhì)量問(wèn) 題 的 數(shù) 據(jù), 從而明顯提高了統(tǒng)計(jì)診斷結(jié) 論的可靠性。
通過(guò) 計(jì) 算 統(tǒng) 計(jì) 數(shù) 據(jù) 首 位 數(shù) 字 的 頻 率 分 布 與 Benford 分布之間的距離, 可以檢測(cè)該數(shù)列是否符 合 Benford 法則 。 這樣的距離有: m = max i = 1 , 2, ……, 9 { | bi - ei | } d = ( 9) ( 10 )
( 四) Pearson 相關(guān)系數(shù) 通過(guò)計(jì)算統(tǒng)計(jì)數(shù)據(jù)中首位數(shù)字的頻率分布與 Benford 法則下首 位 數(shù) 字 的 頻 率 分 布 的 Person 相 關(guān) 系數(shù), 也可以判斷兩個(gè)分布是否有差異, 其判斷標(biāo)準(zhǔn) 見(jiàn)表 2 。
表2
分級(jí) 正常 關(guān)注 可疑
槡
{Σ
9 i=1
( bi - ei )
2
}
根據(jù)相關(guān)系數(shù)進(jìn)行判斷的分級(jí)標(biāo)準(zhǔn)
相關(guān)系數(shù)分級(jí)標(biāo)準(zhǔn) 0. 99 < r ≤1 0. 97 < r ≤0. 99 r ≤0. 97 說(shuō)
[10 ]
明
完全符合 Benford 法則 存在一定程度篡改數(shù)據(jù)的可能性 有篡改數(shù)據(jù)的跡象, 需特別注意
Benford 法則和面板模型的綜合 三、
雖然 Benford 法則 在 數(shù) 據(jù) 質(zhì) 量 的 診 斷 中 已 經(jīng) 得 到不少運(yùn)用, 但是應(yīng) 當(dāng) 指 出 其 仍 然 存 在 不 少 有 待 進(jìn) 一步研究改進(jìn)的問(wèn)題 。 第一, 并不是所有的數(shù)據(jù)樣本都一定服從 Benford 法則 。 能夠用 Benford 法則來(lái)進(jìn)行分析的數(shù) 也 據(jù)應(yīng)該符合以下條件: ① 數(shù)值既不是完全隨機(jī)的, 不能過(guò)度集中于某個(gè)區(qū)間; ② 數(shù)值不能存在上下限; ③ 數(shù)值在一個(gè)很寬 的 范 圍 里 連 續(xù) 變 動(dòng), 不存在間斷 點(diǎn)或間斷區(qū)間; ④ 數(shù)字沒(méi)有被特別賦值; ⑤ 數(shù)值的形 成受多種因素的影響, 是多種因素綜合作用的結(jié)果 。 第二, 就 Benford 法 則 本 身 來(lái) 說(shuō), 如果數(shù)據(jù)檢測(cè) 結(jié)果符合 Benford 法 則 的 頻 率 分 布, 也并不意味著 一定不存在數(shù)據(jù)質(zhì)量問(wèn)題 。 因?yàn)楫?dāng)數(shù)據(jù)總量非常大 的時(shí)候, 并且有質(zhì)量問(wèn)題的數(shù)據(jù)發(fā)生次數(shù)不多時(shí), 它 們就會(huì)淹沒(méi)在大樣本的規(guī)律之中, 而不能被發(fā)現(xiàn) 。 第三, 在現(xiàn)實(shí)中, 人們更希望了解的不僅是何類(lèi) 統(tǒng)計(jì)數(shù)據(jù)可能存在質(zhì)量問(wèn)題, 而是哪一個(gè)單位 、 哪一 個(gè)時(shí)間的數(shù)據(jù)可能存在問(wèn)題 。 對(duì)于上 述 問(wèn) 題, 我們提出以下進(jìn)一步完善的 思路: 首先, 利 用 Benford 法 則 檢 驗(yàn) 何 種 統(tǒng) 計(jì) 指 標(biāo) 有
四、 實(shí)證分析
( 一) 數(shù)據(jù)來(lái)源 實(shí)證分析采用 的 數(shù) 據(jù) 來(lái) 源 于 兩 個(gè) 方 面: 2002 - 2008 年的數(shù)據(jù) 來(lái) 源 于 2003 - 2009 年 版 的《中 國(guó) 開(kāi) ; 2009 - 2010 年 的 數(shù) 據(jù) 來(lái) 源 于 中 國(guó) 開(kāi) 發(fā) 發(fā)區(qū)年鑒 》 區(qū)網(wǎng)站的統(tǒng)計(jì)公報(bào)( http : / / www. cadz. org. cn / ) 。 在 上述資料 來(lái) 源 中, 各 開(kāi) 發(fā) 區(qū) 公 布 的 指 標(biāo) 不 盡 相 同。 因此我們選取了各 開(kāi) 發(fā) 區(qū) 都 發(fā) 布 的 地 區(qū) 生 產(chǎn) 總 值 、 工業(yè)總產(chǎn)值( 現(xiàn)價(jià)) 、 工業(yè)增加值( 現(xiàn)價(jià) ) 、 稅收 收入 、 出口總額 、 進(jìn)口總額 六 個(gè) 重 要 的 經(jīng) 濟(jì) 指 標(biāo) 作 為 分 析 的對(duì)象 。 另外, 我國(guó)國(guó)家級(jí)開(kāi)發(fā)區(qū)在 2002 - 2008 年 2009 年 以 后 擴(kuò) 大 為 90 個(gè), 考慮到各 之間為 54 個(gè), 年數(shù)據(jù)的一致性, 這里我們只采用 2002 - 2010 年均 有數(shù)據(jù)的 54 個(gè)開(kāi)發(fā)區(qū)作為研究對(duì)象 。
第 29 卷第 11 期
劉云霞等: 關(guān)于綜合運(yùn)用 Benford 法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究
· 77 ·
表3
首位數(shù)字 Benford Law 地區(qū)生產(chǎn)總值 工業(yè)總產(chǎn)值 工業(yè)增加值 稅收收入 出口總額 進(jìn)口總額 476 467 462 463 467 461 Obs 1 30. 103 31. 513 29. 764 30. 952 31. 965 30. 835 31. 67 2 17. 609 15. 126 18. 415 17. 316 15. 983 14. 989 19. 306
各指標(biāo)首位數(shù)字的頻率分布
3 12. 494 12. 395 14. 989 11. 255 12. 527 11. 991 11. 497 4 9. 691 9. 034 10. 493 9. 74 6. 695 10. 707 7. 592 5 7. 918 9. 664 6. 638 7. 576 6. 695 10. 493 9. 111 6 6. 695 5. 462 6. 852 7. 143 6. 479 7. 709 6. 941 7 5. 799 6. 723 4. 711 5. 628 8. 639 6. 21 4. 555 8 5. 1151 4. 832 5. 567 5. 628 5. 616 4. 069 5. 423 9 4. 576 5. 252 2. 57 4. 762 5. 4 2. 998 3. 905
( 二) 6 個(gè)指 標(biāo) 首 位 數(shù) 字 的 頻 率 分 布 及 Benford 分布的檢驗(yàn) 由于 Benford 法 則 具 有 樣 本 量 越 大, 效果越明 顯的特點(diǎn), 所以我們 將 這 6 個(gè) 指 標(biāo) 9 年 的 數(shù) 據(jù) 合 在 一起來(lái)觀察它們的 首 位 數(shù) 字 的 頻 率 分 布, 從而更好 地驗(yàn)證它們是否 符 合 Benford 法 則 。 表 3 是 6 個(gè) 指 標(biāo) 9 年數(shù)據(jù)首位數(shù)字出現(xiàn)的頻率分布表 。 從表 3 可 以 看 出, 各指標(biāo)首位數(shù)字的頻率分布 與 Benford 法則的頻 率 分 布 有 一 定 差 別 。 但 這 種 差 別是否顯著還需要進(jìn)行一定的檢驗(yàn) 。 我們根據(jù)公式 ( 5 ) ~ ( 10 ) , 計(jì)算有關(guān)統(tǒng)計(jì)量, 用來(lái)檢驗(yàn)各指標(biāo)數(shù)據(jù) 首位數(shù)字 的 頻 率 分 布 是 否 符 合 Benford 法 則, 計(jì)算 結(jié)果見(jiàn)表 4 。
表4 2002 - 2010 年各指標(biāo)首位數(shù)字頻數(shù)分布與 Benford 分布的擬合優(yōu)度檢驗(yàn)
r 地區(qū)生產(chǎn)總值 工業(yè)總產(chǎn)值 工業(yè)增加值 稅收收入 出口總額 進(jìn)口總額 0. 9871 0. 9883 0. 9975 0. 9791 0. 9818 0. 9921 χ
2
這 說(shuō) 明, 率 分 布 比 Benford 法 則 的 頻 率 分 布 要 大 , 出現(xiàn)質(zhì)量問(wèn)題的數(shù)據(jù)很有可能就出現(xiàn) 在 首 位 數(shù) 為 1、 7、 8 及 9 的數(shù)據(jù)中。因此審查數(shù)據(jù)時(shí), 對(duì)那些首 7、 8 及 9 的稅收收入數(shù)據(jù)的開(kāi)發(fā)區(qū)應(yīng)多 位數(shù)為 1、 加考察。 ( 三) 建立面板數(shù)據(jù)模型 為了充分利用 54 個(gè) 國(guó) 家 級(jí) 開(kāi) 發(fā) 區(qū) 在 不 同 時(shí) 間 上的數(shù)據(jù)信息, 我們 將 通 過(guò) 面 板 模 型 來(lái) 進(jìn) 一 步 診 斷 哪些開(kāi)發(fā)區(qū) 在 哪 些 年 份 的“稅 收 收 入 ” 指標(biāo)可能存 在數(shù)據(jù)質(zhì)量問(wèn)題 。 在模 型 的 建 立 中, 考慮到各國(guó)家級(jí)開(kāi)發(fā)區(qū)的具 稅收優(yōu)惠政策等不同, 因而導(dǎo)致 體情況如產(chǎn)業(yè)結(jié)構(gòu) 、 不同開(kāi)發(fā)區(qū) 的“稅 收 收 入 ” 指標(biāo)與其他指標(biāo)之間的 關(guān)系也存在差異 。 為 了 體 現(xiàn) 這 種 差 異, 我們采用面 板數(shù)據(jù)的 變 系 數(shù) 模 型 來(lái) 對(duì) 現(xiàn) 有 數(shù) 據(jù) 進(jìn) 行 擬 合 。 另
V* N 0. 7121 0. 8935 0. 3952 1. 3068 * 1. 092 0. 7062
m 0. 0248 0. 025 0. 0124 0. 03 0. 0262 0. 021
d 0. 0368 0. 037 0. 0167 0. 0485 0. 0433 0. 0365
外, 由于地區(qū)生產(chǎn)總值 、 出口總額 、 進(jìn)口總額 、 工業(yè)總 產(chǎn)值 、 工業(yè)增加值等 5 個(gè)指標(biāo)之間相關(guān)性比較高, 如 果都加入模型作為自變量將存在多重共線(xiàn)性 。 為降 低多重共線(xiàn)性的影響, 本文經(jīng)過(guò)篩選, 選取了地區(qū)生 產(chǎn)總值作為模型的 解 釋 變 量, 稅收收入作為被解釋 變量 。 從本文主要目的是篩選數(shù)據(jù)質(zhì)量存在問(wèn)題的 開(kāi)發(fā)區(qū)這一角度 來(lái) 看, 這 種 處 理 方 法 是 合 適 的。具 體模型為: TAX it = α + β i GDP it + u it ( 11 ) i = 1, 2, …, 54 ; t = 1 , 2, …, 9 。 TAX it 為 各 其中, GDP it 為各開(kāi)發(fā)區(qū) 在 個(gè)開(kāi)發(fā)區(qū)在某一年的稅收收入, α 是模型的截距項(xiàng), β i 為斜率系 某一年的生產(chǎn)總值, u it 是隨機(jī)誤差項(xiàng) 。 數(shù), 其隨開(kāi)發(fā)區(qū)的不同而不同, 我們利用廣義最小二乘法對(duì)上述模型進(jìn)行了估 計(jì) 。 從檢驗(yàn)結(jié)果可 以 看 出, 面板數(shù)據(jù)模型中的截距 項(xiàng)和各開(kāi)發(fā)區(qū)的斜 率 系 數(shù) 非 常 顯 著, 同時(shí)調(diào)整后的 R 2 達(dá)到了 0. 976 , 模 型 整 體 擬 合 效 果 較 好。這 為 我 們下一步分析提供了較好的基礎(chǔ) 。
6. 3596 9. 0590 1. 2042 12. 9646 10. 7981 6. 2312
注: 表中帶 * 的數(shù)據(jù)表示大于顯著性水平 10% 的臨界值 。
6 個(gè) 指 標(biāo) 的 相 關(guān) 系 數(shù) 中, 表 4 的數(shù)據(jù) 表 明, 除 “稅 收 收 入 ” 為 0. 9791 外 , 其 他 5 個(gè) 指 標(biāo) 都 在 0. 99 6 個(gè)指標(biāo)的 χ 值都小于 左右。從 χ 統(tǒng)計(jì) 量 來(lái) 看, 10 % 顯 著 性 水 平 的 臨 界 值, “稅 收 收 入 ” 的 χ 值是 其中最大的; 從 V V
* N * N 2 2 2
檢 驗(yàn) 來(lái) 看, 只 有“稅 收 收 入 ” 的
* N
統(tǒng) 計(jì) 量 值 大 于 顯 著 性 水 平 10 % 的 V
臨界值;
“稅 收 收 入 ” 另 外, 的 m 值和 d 值在 6 個(gè)指標(biāo)中也 是最大的。所 以, 雖然各種擬合優(yōu)度檢驗(yàn)的結(jié)果 不大一樣, 但 可 以 推 斷 出“稅 收 收 入 ” 這個(gè)指標(biāo)的 數(shù)據(jù)可能存在一定的質(zhì)量問(wèn)題。從 其 首 位 數(shù) 分 布 7、 8 及 9 的數(shù)據(jù)的頻 情況看, 該 指 標(biāo) 首 位 數(shù) 為 1、
· 78 ·
統(tǒng)計(jì)研究
2012 年 11 月
( 四) 根 據(jù) 殘 差 分 析 查 找 稅 收 收 入 異 常 的 開(kāi) 發(fā)區(qū) 在面 板 數(shù) 據(jù) 模 型 的 結(jié) 果 中, 利用殘差所提供的 如 信息可以對(duì)數(shù)據(jù) 的 質(zhì) 量 進(jìn) 行 診 斷 。 一 般 情 況 下, 果模型可靠, 則殘差 特 別 大 的 樣 本 點(diǎn) 數(shù) 據(jù) 出 現(xiàn) 質(zhì) 量 問(wèn)題的可能性較大 。 根據(jù) 2002 - 2010 年的殘差數(shù)據(jù), 我們計(jì)算了每 即: 個(gè)開(kāi)發(fā)區(qū)每年殘差的標(biāo)準(zhǔn)化數(shù)值, z ij = x ij - x 珋 i σi ( 12 )
參考文獻(xiàn)
[ 1 ]George Judge , Laura Schechter. Detecting Problems in Survey Data Using Benford ’ s Law[J]. The Jounal of Human Resources , 2009 , 44 : 1 - 24 . [ 2 ]Hill T. P. A Statistical Derivation of the Significant-Digit Law[J]. Stat. Sci , 1996 , 10 : 354 - 363 . [ 3 ]許滌龍, 金瑛 . 基 于 Benford 法 則 的 M2 統(tǒng) 計(jì) 數(shù) 據(jù) 準(zhǔn) 確 性 研 究 [J]. 統(tǒng)計(jì)與信息論壇, 2010 ( 8 ) . [ 4 ]Mark J. Nigrini. The Detection of Income Tax Evasion Through an Analysis of Digital Frequencies [D]. Ph. D. thesis. Cincinnati ,, University of Cincinnati , 1992. [ 5 ]張?zhí)K彤 . 奔福德定律: 一 種 舞 弊 審 計(jì) 的 數(shù) 值 分 析 方 法[J]. 中 國(guó) 2005 ( 11 ) . 注冊(cè)會(huì)計(jì)師, [ 6 ]王福勝, 李勛, 孫遜 . 奔福德定律及其在審計(jì) 中 的 應(yīng) 用 研 究[J]. 2007 ( 3 ) . 財(cái)會(huì)通訊, [ 7 ]狄為, 施鵬仙 . 基于 Benford 定律的會(huì)計(jì)舞弊發(fā) 現(xiàn) 研 究[J]. 會(huì) 計(jì) 2010 ( 9 ) . 之友, [ 8 ]Giles , David E. Benford ’ s Law and Naturally Occurring Prices in Certain EBay Auctions[J]. Applied Economics Letters , 2007 , 14 ( 3 ) : 157 - 61 . [ 9 ]Stephens , Michael A. Use of the Kolmogorov-Smirnov , Cramer-Von Mises and Related Statistics without Extensive Tables[J]. Journal of the Royal Statistical Society , Series B , 1970 , 32 ( 1 ) : 115 - 22. [ 10]許存興, 王大江, 張 芙 蓉. 上 市 公 司 審 計(jì) 意 見(jiàn) 實(shí) 證 分 析 - 基 于 Benford 法則的造假檢測(cè)[J]. 南京財(cái)經(jīng)大學(xué)學(xué)報(bào), 2009 ( 4 ) .
x ij 是第 i 年第 j 個(gè)開(kāi)發(fā)區(qū)的殘差, x 其中, 珋 i 是第 i 年所有開(kāi)發(fā)區(qū)殘差 的 平 均 值, σi 是 第 i 年 所 有 開(kāi) 發(fā) 區(qū)殘差的標(biāo) 準(zhǔn) 差 。 如 果 某 個(gè) 開(kāi) 發(fā) 區(qū) 的 z ij 值 大 于 2 , 就可以認(rèn)為該開(kāi)發(fā)區(qū)稅收收入數(shù)據(jù)很可能是異常數(shù) 我們發(fā)現(xiàn) 9 年間各開(kāi)發(fā)區(qū)共有 28 個(gè)異常 據(jù) 。 據(jù)此, 數(shù)據(jù) 。 觀察這些異 常 數(shù) 據(jù) 的 首 位 數(shù) 分 布, 結(jié)合前述 Benford 法則的分析結(jié)果( 即首位數(shù)為 1 、 7、 8及9的 數(shù)據(jù)可能存 在 質(zhì) 量 問(wèn) 題 ) , 我們發(fā)現(xiàn)面板模型檢驗(yàn) 發(fā)現(xiàn) 的 28 個(gè) 異 常 數(shù) 據(jù) 中 有 18 個(gè) 數(shù) 據(jù) 同 時(shí) 也 是 Benford 法則診 斷 可 能 存 在 問(wèn) 題 的 數(shù) 據(jù) 。 對(duì) 這 些 開(kāi) 發(fā)區(qū)這些年份的稅 收 數(shù) 據(jù) 有 必 要 做 進(jìn) 一 步 的 檢 查, 查出其可能存在問(wèn)題的原因 。 這 18 個(gè)數(shù)據(jù)主要集中在 9 個(gè)開(kāi)發(fā)區(qū), 即與其他 開(kāi)發(fā)區(qū)相比, 這 9 個(gè)開(kāi)發(fā)區(qū) GDP 的回歸系數(shù)明顯較 高 。 將各開(kāi)發(fā)區(qū) GDP 的 回 歸 系 數(shù) 從 高 到 低 排 序 之 后發(fā)現(xiàn), 排名前 6 位 的 開(kāi) 發(fā) 區(qū) 中 有 5 個(gè) 開(kāi) 發(fā) 區(qū) 屬 于 稅收數(shù)據(jù)可能存 在 問(wèn) 題 的 開(kāi) 發(fā) 區(qū) 。 對(duì) 此, 一個(gè)可能 區(qū)內(nèi)企 的解釋是: 由于各個(gè)開(kāi)發(fā)區(qū)所處的地區(qū)不同, 業(yè)類(lèi)型也不同, 導(dǎo)致開(kāi)發(fā)區(qū)之間 GDP 與稅收的關(guān)系 本來(lái)就存在差異 。 相比平均稅負(fù)比較低的開(kāi)發(fā)區(qū)而 言, 平均稅負(fù)較高的 開(kāi) 發(fā) 區(qū) 人 為 調(diào) 低 稅 收 的 沖 動(dòng) 更 大, 這就導(dǎo)致這些開(kāi) 發(fā) 區(qū) 在 某 些 時(shí) 期 上 報(bào) 的 稅 收 收 入可能會(huì)低于其應(yīng)有的真實(shí)水平 。
作者簡(jiǎn)介 34 歲, 劉云霞, 女, 山西省人, 廈門(mén)大學(xué)經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)系 助理教授, 碩士生導(dǎo)師 。 研究方向?yàn)榻y(tǒng)計(jì)分析與數(shù)據(jù)挖掘 。 37 歲, 吳曦明, 男, 廈門(mén)大學(xué) 經(jīng) 濟(jì) 學(xué) 院 統(tǒng) 計(jì) 系 講 座 教 授 、 ( 美) 《美 國(guó) 農(nóng) 美國(guó)得克薩斯農(nóng)機(jī)大學(xué)農(nóng)業(yè) 經(jīng) 濟(jì) 學(xué) 系 副 教 授, 業(yè)經(jīng)濟(jì) 》 雜 志 副 主 編。研 究 方 向 為 計(jì) 量 經(jīng) 濟(jì) 學(xué)、 金 融 計(jì) 量、 宏觀經(jīng)濟(jì) 、 勞動(dòng)經(jīng)濟(jì) 。 59 歲, 曾五一, 男, 福建省人, 廈門(mén)大學(xué)經(jīng)濟(jì)學(xué)院統(tǒng)計(jì)系 博士生導(dǎo)師, 中國(guó)統(tǒng)計(jì)學(xué)會(huì)顧問(wèn) 、 教育部統(tǒng)計(jì)學(xué) 教 學(xué) 指 教授 、 導(dǎo)分委員會(huì)副主任委員 、 國(guó)家統(tǒng)計(jì)局咨詢(xún)委員 。 研究 方 向 為 國(guó)民經(jīng)濟(jì)統(tǒng)計(jì) 、 統(tǒng)計(jì)理論與方法 。
( 責(zé)任編輯: 程 晞)
本文關(guān)鍵詞:關(guān)于綜合運(yùn)用Benford法則和面板模型檢測(cè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):169494
本文鏈接:http://www.sikaile.net/jingjilunwen/jjtj/169494.html