giangle: Benford's law

Tôi đã có lần đề cập đến Benford's law trên blog này. Mấy hôm nay giới blogosphere lại bàn tán sôi nổi về đề tài này sau một bài viết của Jialan Wang, một giáo sư tài chính tại Washington University. Với những ai chưa biết Benford's law có thể tóm tắt qui luật này như sau: các con số (hệ thập phân) trong tự nhiên (vd độ dài một con sông, chiều cao một tòa nhà, lợi nhuận một công ty...) có một tính chất kỳ lạ là first digit có một distribution không đồng đều mà tuân thủ theo qui luật giảm dần, số 1 có xác suất xuất hiện khoảng 30%, số 2 khoảng 17.6%,... số 9 khoảng 4.5%:

(Nguồn Wikipedia)

Qui luật này trái ngược với intuition của nhiều người (cho rằng các con số có xác suất xuất hiện như nhau) cho nên nó có một ứng dụng rất thú vị là dùng để điều tra khả năng các con số được làm giả hoặc bị hiệu chỉnh. Một người khi làm giả/hiệu chỉnh số liệu sẽ có xu hướng đưa ra những con số có first digit tuân thủ theo uniform distribution, do đó có thể bị phát hiện nếu những con số làm giả được phân tích để so sánh với phân bố theo Benford's law. Jialan Wang đã làm đúng như vậy với số liệu về asset và revenue của 20000 công ty Mỹ, so sánh xác suất phân bổ các số thập phân của first digit với Benford's law và tính sum of square (SS) cho tất cả các sai số này. Nếu SS lớn thì sai lệch so với Benfords' law cao và nhiều khả năng số liệu đã được hiệu chỉnh. Kết quả của Wang cho thấy một xu hướng "làm giả" số liệu khá rõ, tăng liên tục trong suốt 50 năm qua.

(Nguồn: Jialan Wang)

Tim Harford cách đây không lâu cũng chỉ ra một nghiên cứu của một nhóm tác giả Đức dùng phương pháp này để kiểm tra mức độ "trung thực" của số liệu thống kê kinh tế của Hi lạp. Kết luận của nhóm nghiên cứu này là số liệu của Hi lạp cách biệt với Benford's law nhiều nhất so với số liệu của các thành viên khác trong EMU, dấu hiệu cho thấy Hi lạp đã sửa số liệu thống kê cho "đẹp" để được tham gia vào liên minh Euro. Tương tự như vậy một nhóm nghiên cứu của IMF cũng dùng phương pháp này để đánh giá chất lượng các thống kê kinh tế mà các nước nộp cho IMF (mặc dù một nghiên cứu khác cho rằng phương pháp này chưa chắc đã chính xác). Đến đây chắc bạn sẽ đặt câu hỏi vậy số liệu thống kê của TCTK VN thì sao, liệu có cách quá xa Benford's law hay không?

Để đánh giá mức độ "trung thực" theo Benfords' law của số liệu do TCTK công bố, tôi thu thập một số nhóm số liệu (từ Datastream) với tiêu chí những số liệu này có độ lớn thay đổi khá nhiều trong sample (multiple magnitude) và có số observation lớn hơn 100. Sau đó tôi tính empirical distribution của các số thập phân ở first digit rồi so sánh với Benfords' law distribution. Tất nhiên empirical distribution không thể trùng chính xác với Benfords' law, tuy nhiên có thể dùng Chi-square test để đánh giá mức độ sai lệch này có statistically significant hay không. The bài báo của IMF (link bên trên) và của một nhóm nghiên cứu khác (link trong comment của Đỗ Quốc Anh bên dưới), statistic sau đây tuân thủ theo Chi-square distribution với 8 degree of freedom nến số observation lớn hơn 30.

Ở 5% confidence level Chi-square stat có giá trị là 15.51, nghĩa là nếu statistic tính được nhỏ hơn con số này thì không thể phân biệt được empirical distribution với theoretical Benfords' law. Ngược lại nếu số statistic lớn hơn 15.51 thì số liệu thống kê có khác biệt đáng kể so với Benfords'. Dưới đây là kết quả tôi tính toán được với số statistic của mỗi trường hợp trong ngoặc đơn trên title của đồ thị:

Như vậy có thể thấy số liệu nominal GDP (chia theo nhóm ngành) và số retail sales (chia theo ownership và nhóm ngành) tuân thủ khá tốt Benfords' law (statistic <15), trong khi những nhóm khác (money supply, SBV balance sheet, current/capital accounts, industrial outputs) có kết quả khác rất xa lý thuyết. Tất nhiên sai lệch so với Benfords' law không có nghĩa là số liệu không chính xác, cần tìm hiểu kỹ thêm tính chất của nhóm số liệu trước khi "kết tội" TCTK. Nhưng đây là dấu hiệu đầu tiên cảnh báo các nhà nghiên cứu phải thận trọng khi sử dụng những số liệu này, TCTK cũng nên xem xét lại qui trình thu thập và compile số liệu của mình.

5 comments:

Đỗ Quốc AnhOctober 17, 2011 at 8:52 PM
Em cung moi biet duoc bai viet nay, chuan bi ra tren Review of Economics and Statistics: "Do Countries Falsify Economic Data Strategically? Some Evidence That They Might - forthcoming", Review of Economics and Statistics (T. Michalski and G. Stoltz). Link o day: http://halshs.archives-ouvertes.fr/docs/00/60/88/62/PDF/Cheating-HAL.pdf. Em nghi la bai viet kha manh ve Benford's Law.
sonOctober 18, 2011 at 12:00 AM
Anh Giang cho một cái tổng quan về tình hình Trung Quốc và so sánh tương quan trên bình diện thế giới được không ?

Em hiện rất quan tâm đến anh hàng xóm này, và triển vọng của nó nữa.

Trân trọng!
giangleOctober 18, 2011 at 4:42 PM
@Đỗ Quốc Anh: Thanks.

@son: Tôi không phải là ... wikipedia mà cái gì cũng viết được :-) Trước đây tôi có viết vài bài về China trên blog này rồi, chủ yếu về đồng RMB, ban chịu khó search lại nếu quan tâm.
VuA NguyenNovember 1, 2011 at 3:06 PM
Cảm ơn anh Giang đã giới thiệu lý thuyết này, rất là bổ ích.
runawayyyFebruary 29, 2012 at 9:46 PM
nghe cứ như đùa mà hóa ra lại thật !!! Không ngờ có thể dùng thống kê học để phát hiện ai nói dối.
Quả là thú vị.
Cảm ơn bác Giang đã chia sẻ.