Algoritmo per il calcolo della running mean e running variance

In statistica la varianza di una variabile aleatoria X è un numero, indicato con Var(X) che fornisce una misura di quanto siano vari i valori assunti dalla variabile, cioè di quanto essi differiscano dalla media µ. In altri è il valore medio del quadrato degli scarti, cioè la somma dei quadrati degli scarti per le relative probabilità. La varianza è quindi una misura di concentrazione: minore (maggiore) è la varianza, peggiore (maggiore) è la concentrazione (dispersione) dei dati attorno al valore medio.La formula matematica per il calcolo della varianza per un’intera popolazione di dimensione N è:

La formula per il calcolo di una stima corretta della varianza di un campione di grandezza n è invece:

Gli algoritmi precedenti possono, però, essere migliorati. Il problema della perdita di cifre significative è descritta e analizzata daDonald Knuth (Art of Computer Programming, Vol 2, Seminumerical Algorithms“, section 4.2.2), un informatico statunitense. La soluzione prevede di calcolare media e varianza utilizzando equazioni di ricorrenza nel caso di data stream:

È di notevole interesse la dimostrazione che dalle formule classiche portano alla scrittura delle formule di ricorrenza:


Lascia un commento