Mathematics   > Home   > Applied Mathematics: Deterministic and Stochastic   > Issue 1   > Article

# Smooths Tests of Goodness-of-fit for the Newcomb-Benford distribution

## Tests d’adéquations lisses pour la loi de Newcomb-Benford

Gilles R. DUCHARME
IMAG - Univ. Montpellier - CNRS

Samuel KACI
IMAG - Univ. Montpellier - CNRS

Credo VOVOR-DASSU
IMAG - Univ. Montpellier - CNRS

Published on 22 May 2020   DOI : 10.21494/ISTE.OP.2020.0516

### Mots-clés

The Newcomb-Benford probability distribution is becoming very popular in many areas using statistics, notably in fraud detection. In such contexts, it is important to be able to determine if a data set arises from this distribution while controlling the risk of a Type I error, i.e. falsely identifying a fraud, and a Type II error, i.e. not detecting that a fraud occurred. The statistical tool to do this work is a goodness-of-fit test. For the Newcomb-Benford distribution, the most popular such test is Pearson’s chi-square test whose probability of a Type II error is known to be large. Consequently, other tests have been recently introduced. The goal of the present work is to build new goodness-of-fit tests for this distribution, based on the smooth test principle. These tests are then compared to some of their competitors. It turns out that the proposals of the paper are globally preferable to existing tests and should be seriously considered in fraud detection contexts, among others. The R package BENFORDSMOOTHTEST is available on GitHub to compute the test statistics.

La loi de probabilité de Newcomb-Benford est de plus en plus utilisée dans les applications de la statistique, notamment en détection de fraude. Dans ces contextes, il importe de déterminer si un jeu de données est issu de cette loi de probabilité en contrôlant les risques d’erreur de Type I, soit de faussement identifier une fraude, et de Type II, soit de ne pas la détecter. L’outil statistique qui permet d’exécuter ce genre de tâche est le test d’adéquation. Pour la loi de Newcomb-Benford, le test d’adéquation le plus populaire est le test du khi-deux de Pearson dont la probabilité d’erreur de Type II est reconnue comme étant assez grande. En conséquence, d’autres tests ont été écemment introduits. Le but de ce travail est de proposer de nouveaux tests d’adéquation pour cette loi, basés sur le principe des tests lisses. Ces tests sont ensuite comparés aux meilleurs tests existants pour ce problème. Il en ressort que nos propositions sont globalement préférables aux tests existants et pourraient être utilisées dans les applications, notamment en détection de fraude. Un package de R,BENFORDSMOOTHTEST, est disponible sur le site GitHub pour effectuer nos tests.