Combattere le frodi con la legge di Benford

Più simile a una formula magica che a una legge matematica la Legge di Benford è usata per la rilevazione di frodi e di falsi e per individuare la genuinità di distribuzioni casuali di numeri. Descrizione, esempi di applicazione ed esperimento su questa legge.

Descrizione

Sono venuto a conoscenza dell’esistenza di questa legge vedendo una puntata di Connected, una serie di documentari di Latif Nasser su Netflix.

Secondo questa legge, se si prende una raccolta di dati reali e si analizzano i numeri che la compongono prendendo in considerazione solo la prima cifra significativa di questi numeri (per esempio: 1.2 diventa 1, 3678 diventa 3, 0.8 diventa 8) allora si può verificare che il numero di occorrenze di ciascuna cifra rispetta una proporzione ben determinata.
Ovvero: I numeri che cominciano con “1” sono il 30,01%, i numeri che cominciano con “2” sono il 17,6% e così via:

In modo più formale la Legge di Benford può essere definità in questo modo:

Dove P(n) è la frequenza con cui deve essere presente la cifra n.

 

Esempi d’utilizzo

I dati da analizzare possono essere di qualsiasi tipo, possono riguardare le cose più disparate e possono essere estratti:

  • da una dichiarazione dei redditi,
  • da un bilancio di una azienda o di uno stato,
  • dalla codifica di una immagine digitale,
  • dai risultati di una elezione,
  • dalla sequenza del fatoriale di un numero,
  • dal risultato di un censimento o di una indagine statistica,
  • da dati astronomici (es. distanza di pianeti o stelle dalla Terra)

e così via.

Ma cosa c’entra tutto ciò con la scopera delle frodi e perché questa legge viene usata dalle Agenzie Fiscali di tutti i paesi per scoprire i bilanci falsificati?

In pratica se una sequenza di numeri non ha una “origine reale” e quindi casuale, ma è stata manomessa per ottenere un preciso scopo (es. per pagare meno tasse) allora non rispetta più la legge di Benford.

Detto in altri termini, se si prende una sequenza di numeri e questa sequenza non rispetta la Legge di Benford, allora è quasi sicuro che questi numeri sono stati manomessi e non sono “genuini”.

E’ per questo che questa legge viene usata per verificare la bontà dei dati nei campi più disparati. Sul sito Testingbenfordslaw.com [4] o nella puntata 4 (Cifre) del documentario Connected [8] è possibile vedere alcuni esempi di utilizzo della legge.

Quindi il grafico di una sequenza “genuina” è:

Il grafico della frequenza di una sequenza “manomessa” potrebbe essere di questo tipo:

I dati in rosso sono quelli falsificati, quelli in verde quelli originali.

Spiegazione della legge presente sul canale Youtube dell’Università Bicocca di Milano:

 
 

Esperimento


Ho provato ad applicare questa legge ai dati pubblicati dall’OMS riguardo alla diffusione del Corona Virus [7].
Ho usato il tool online dCode [3] per verificare la corrispondenza alla legge di Benford.
Il dataset preso in considerazione è questo e mostra per ogni nazione ripettivamente: il numero dei nuovi casi giornalieri da febbraio 2019 ad agosto 2019, il numero cumulativo dei nuovi casi, il numero di nuovi morti giornaliero, il numero cumulativo di morti.
Ho considerato i dati cumulativi al 10 agosto 2020.
 
Questi i dati e le percentuali:
 
Il tool dCode considera i dati aderenti alla legge di Benford se il p-value [10] è minore di 0.05 (95%), quindi è importante anche definire qual è il margine di errore accettato. Il concetto di p-value esula dallo scopo di questo articolo.
 
Il risultato è stato:
 
 
 
Quindi i dati pubblicati dall’OMS sul Covid-19 sembrano rispettare la legge di Benford.
 
 
Utilizzando i dati grezzi forniti dallOMS, senza il raggruppamento al 10 agosto 2020, l’aderenza alla legge sembra essere ancora maggiore:
 
 
 
 

Condisiderazioni


Non sono a conoscenza di una dimostrazione di questa legge, la cui validità è però empiricamente verificabile.
Credo che non sia tanto una proprietà dei singoli fenomeni, ma una proprietà matematica intrinseca delle sequenze casuali di numeri.
 
Esiste una estensione della legge che riguarda le prime due cifre dei numeri:

 

 

Fonti e riferimenti:

  1. Legge di Benford su Wikipedia.
  2. Video sulla legge di Benford dell’Università Bicocca di Milano.
  3. Tool online per verificare la legge su raccolte di numeri.
  4. Alcuni esempi online della legge.
  5. La legge di Benford: imparare a intercettare le frodi di Christiane Rousseau.
  6. La legge di Benford, Appunti dell’Università Bicocca di Milano.
  7. Dati ufficiali sul Covid-19 dell’OMS (Organizzazione Mondiale della Sanità, WHO). 
  8. Connected su Netflix (Stagione 1 – Puntata 4 – Cifre).
  9. Analisi dei dati e prevenzione delle frodi con la Legge di Benford (Applicazione di Benford a un caso reale) di Gaetano di Marco su Geotrading.it.
  10. Definizione del Valore p (p-value) su Wikipedia.
4 anni ago

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *