Il pensiero statistico sarà un giorno necessario al cittadino efficiente quanto l’abilità di leggere e scrivere.
H.G. Wells
1. Storia e Folklore
How to Lie with Statistics (Come mentire con la Statistica), di Darrell Huff, testo da cinquant’anni considerato fondamentale sull’argomento, da qualche tempo non è più disponibile in Italia.
Delle due, una – o qualcuno lo sta (finalmente!) traducendo nella nostra lingua, o la situazione politica è molto peggio di quanto non ci vogliano far credere. [1]
Vogliamo parlare di cinquanta per cento di probabilità?
Di trenta-settanta?
La statistica è utilissima, ma non gode di buona fama presso il pubblico, e in certi momenti pare che piaccia solo all’omino che ci legge i suoi dati in TV, e magari ai due o tre ospiti della stessa trasmissione, che annuiscono vigorosamente per mostrare il proprio compiacimento al fatto che i numeri confermino le loro scelte o le loro proposte.
Ma i più ritengono la statistica una specie di cortina di fumo, un metodo per distorcere i fatti o piegarli ai propri desideri, per poter dimostrare tutto e il contrario di tutto.
Anche in campo scientifico la distinzione è spesso fra chi «fa ricerca» e chi «fa statistica», e i primi tendono a snobbare i secondi (salvo poi farsi revisionare i dati prima della pubblicazione).
Eppure la statistica è fondamentale per qualsiasi studio naturalistico alla scala dell’ecosistema, dove la mole di dati è troppo grande per poter essere trattata in qualsiasi altro modo, e una gran parte della fisica di base è interessata a studiare fenomeni statistici, perché la luce è un’onda o una particella, fate voi, potete decidere lanciando una moneta. E la medicina fa largo uso di studi epidemiologici, che altro non sono che la forma più antica di statistica. In campo umanistico, si usa la statistica per gli studi testuali di attribuzione autorale, sia in letteratura che in storia della musica. E ci sono analisi statistiche in antropologia e archeologia, naturalmente. In campo economico e finanziario, sia gli investimenti che le polizze assicurative e previdenziali non sono altro, a ben guardare, che complessi giochi d’azzardo (il nostro assicuratore scommette che non avremo incidenti in auto, e ci paga un certo numero di volte la posta che noi versiamo annualmente), e quindi descrivibili in termini statistici.
Eppure, nella percezione generale, pare ancora che esistano due domini ben distinti e separati – le statistiche e la realtà.
L’aspetto leggermente malfamato della statistica sembra essersi appiccicato addosso a questo ramo della matematica fin dalle sue origini.
Troppe storie di dadi, di scommesse…
Nel sedicesimo secolo, Girolamo Cardano scrisse un libriccino (uno dei 131 testi a lui attribuiti) intitolato «Liber de Ludo Aleae», sorta di primo manuale di gestione del rischio per coloro i quali affidino le proprie magre risorse ai dadi e altri simili mezzi, appunto, aleatori.
Una generazione dopo toccò a Galileo Galilei che, prima di fondare il moderno metodo scientifico e farsi un sacco di amici in Vaticano, si dedicò a «Sopra le Scoperte dei Dadi», un trattato sulla matematica dei fenomeni casuali. E intanto Blaise Pascal, ex bambino prodigio col vizio del gioco e della gozzoviglia (glielo aveva ordinato il medico), venne sfidato dal suo degno compare di crapula, il Cavalier de Meré, a trovare una risposta al problema tanto complesso quanto marginale nel grande disegno delle cose: supponiamo che una partita a carte venga interrotta prima della fine (da una rissa, a esempio, o dall’arrivo delle forze dell’ordine); in quale modo spartire il piatto fra i giocatori? Pascal osservò il cavaliere all’opera, e poi scrisse a Fermat, e i due elaborarono le basi della moderna statistica in un fitto scambio epistolare.
Anche all’epoca, naturalmente, valeva il principio per cui un francese o un italiano non possono avere un’idea divertente, che subito un inglese le trova un’applicazione seria: in meno di un decennio, le osservazioni di Cardano, Galilei e del duo Pascal/Fermat vennero applicate da John Grout allo studio della mortalità nell’area urbana londinese.
1662 – era nata l’analisi statistica come noi la conosciamo.
Secondo i maligni, da allora, l’unico vero cambiamento (non necessariamente in meglio) è stato Microsoft Excel.
La statistica si può agevolmente descrivere come un corpus di metodi matematici ed empirici, il cui scopo è organizzare dei dati – solitamente, ma non esclusivamente, misure o conteggi – al fine di semplificare il lavoro dell’operatore di descrizione e studio dei dati medesimi nel loro insieme, e delle relazioni che fra essi intercorrono.
È molto meno complicato di quanto non sembri.
Così come la cassiera in banca riordina, girandole tutte nello stesso verso, le banconote che noi le diamo per poterle contare più velocemente, il procedimento statistico riordina i nostri dati, rendendo più visibili certe peculiarità – valori anomali, somiglianze e differenze fra gruppi.
Toccherà poi a una persona, che speriamo preparata e onesta, ricavare il significato delle peculiarità portate in vista dalla statistica.
L’analisi statistica ci permette di «mungere il campione», per usare una colorita espressione americana, ricavando dall’insieme dei dati più di quanto non avessimo in partenza. Ma non risposte.
Solo «cibo per le idee», solo nuove piste da battere nella nostra esplorazione.
Niente di più. Niente di meno.
È forse questa libertà di interpretazione, che lascia i più, che dalla matematica vorrebbero certezze, un poco sospettosi.
E d’altra parte, che dire degli operatori, degli analisti, degli statistici? Sono tutti onesti, preparati, animati solo da una sana curiosità accademica?
Personalmente, io credo nella basilare onestà di chi compie l’analisi: in tanti anni ho visto solo un caso, peraltro tanto plateale quanto sciocco, di uso meno che scrupoloso della statistica in ambito scientifico. In tutti gli altri casi, ho visto applicare metodi sbagliati in buona fede, e ho visto trarre le conclusioni sbagliate in buona fede, ma non ho mai incontrato persone che, poste davanti all’evidenza, non abbiano accettato con equanimità le critiche, e corretto i propri errori. O gli errori altrui: ho visto spacciare come propri i dati e le analisi altrui in più occasioni di quanto mi piacerebbe ammettere.
Certo, io ho esperienza di ambiti in cui i finanziamenti sono modesti, se non assenti, e nei quali dal risultato di una ricerca può dipendere l’esito di una conferenza, certo non l’assegnazione di danari statali o l’acquisizione di cattedre, titoli, premi.
Quando il denaro, o il potere, entrano nell’equazione, temo che la questione dell’onestà diventi meno semplice da risolvere.
E nell’odiosa arena della politica mediatica, la statistica diventa spesso davvero un’arma per oscurare la verità: basta citare dei numeri, anche a caso, e fare riferimento agli «studi», all’«analisi degli esperti», per dare autorevolezza alle affermazioni più ridicole (si veda a riguardo «Balle!», di Al Franken, di fresco pubblicato da Mondadori).
Armati dunque dell’immortale principio di Lyon Sprague deCamp, che recita «fai agli altri quello che gli altri vorrebbero fare a te, e possibilmente faglielo prima», passiamo ora all’attacco, studiando brevemente la statistica quale sorgente di menzogne e dati falsati, in ambito scientifico e sociale.
Ci concentreremo solo sul come. Un perché, lo si trova sempre.
2. Accorgimenti Operativi – La Menzogna in Pratica
Nel 1978, uno studio svolto a Cincinnati rivelò che il trenta per cento della popolazione (campione casuale certificato) era favorevole all’abolizione della Legge per gli Affari Pubblici del 1975.
La Legge per gli Affari Pubblici del 1975 non è mai esistita.
L’esperimento venne replicato, su un campione ancora più controllato, dal «Washington Post» nel 1995. Il 43% degli intervistati espresse un’opinione (mentre gli altri si limitarono a un cauto e giustificato «Non saprei»), e di questi, oltre la metà si disse favorevole all’abolizione!
I ragazzi del «Post» tentarono allora un altro trucco, su due diversi campioni, essendo noto l’orientamento politico dei partecipanti; al primo gruppo venne rivolta la domanda «Il presidente Clinton vuole abolire la Legge per gli Affari Pubblici del 1975. Lei è d’accordo?»; il secondo gruppo si sentì invece chiedere «Il Congresso del Partito Repubblicano vuole chiedere l’abolizione della Legge per gli Affari Pubblici del 1975. Lei è d’accordo?»
I risultati furono sorprendenti.
Il 53 % degli intervistati si dissero favorevoli all’abolizione di una legge che non esisteva, e della quale evidentemente non sapevano nulla.
Se la proposta fosse arrivata da Clinton, avrebbe potuto godere del supporto del 36% dei democratici, e solo del 16% dei repubblicani.
Nel caso della proposta repubblicana, il 36% dei repubblicani si dissero d’accordo all’abolizione della legge che non c’era, insieme con il 19% dei democratici.
In base all’eccellente lavoro di Jessica Utts «Seeing Through Statistics» (dal quale è tratto l’istruttivo esempio che abbiamo appena visto), sono sette gli elementi che ogni ricerca statistica pubblicata dovrebbe includere (e se non li include, ponetevi delle domande)
1. La fonte della ricerca e del finanziamento
2. I ricercatori che hanno avuto contatto diretto col campione
3. Gli individui o gli oggetti studiati e come sono stati scelti
4. L’esatta natura delle misure o delle domande
5. Le condizioni in cui si è svolta la misurazione
6. Le differenza estranee fra i gruppi che vengono confrontati
7. La scala degli effetti o delle differenze evidenziati dallo studio
Un esempio classico della questione del finanziamento è dato dai moltissimi studi effettuati sul possibile collegamento fra fumo e cause di morte prematura (prevalentemente cancro e problemi cardiaci) svolti dal dopoguerra a oggi; si tratta di studi epidemiologici: proprio come fece John Grout nel 1662, i ricercatori compilano tabelle di morti e di ricoveri, registrando caso per caso l’età del decesso (o della crisi che ha portato al ricovero), dati quantificabili sullo stile di vita del soggetto, e se questi fumasse (e con quale incidenza) o si trovasse a passare una parte consistente (e quanto) del proprio tempo in ambienti saturi di fumo di seconda mano. Fatto questo, si elabora il tutto, cercando delle correlazioni, vale a dire applicando un metodo matematico che porti in luce i legami fra una causa (il fumo, attivo o passivo) e un effetto (il decesso o il ricovero).
Ora, per tornare al punto uno: nessuna ricerca finanziata dalle major del tabacco ha mai rilevato alcuna correlazione credibile fra fumo e danni alla salute, correlazione che normalmente risulta, invece, e ben chiara, dagli studi finanziati da fonti non direttamente coinvolte nella questione.
D’altra parte, bando ai romanticismi, ci sorprenderebbe forse il contrario? Le major del tabacco fanno i propri interessi.
Ma noi allora facciamo i nostri: se chi ha finanziato ed eseguito il lavoro non è chiaramente segnalato sul lavoro pubblicato, è lecito da parte nostra immaginare che abbia un buon motivo per tenersi nascosto; e la nostra diffidenza si può ragionevolmente estendere ai risultati dello studio.
Dal canto suo, il rilevatore (volutamente o involontariamente) può influenzare i risultati dello studio, a esempio le risposte a un questionario, durante il contatto col campione. Può rivelare troppo sugli scopi dello studio (permettendo così al soggetto intervistato di mentire) o semplicemente spingere in qualche modo il soggetto ad «abbellire» la realtà.
Immaginate a esempio di essere fermati per strada da un avvenente rappresentante del sesso opposto che, proponendovi con un sorriso smagliante di partecipare a un sondaggio, vi chiede a bruciapelo se siete soddisfatti o meno della vostra vita sessuale.
Cosa rispondete?
No, non ditemelo. Ma immaginate ora che la domanda arrivi da membro del vostro stesso sesso. Date la stessa risposta?
E delle due, qual è quella onesta?
Ok, quella più onesta.
Volete un esempio più semplice e dignitoso, così cambiamo discorso?
Un censimento dello Hunan (Cina), nel 1951, stimò la popolazione della regione a 28 milioni di persone. Nel 1956 la popolazione della stessa regione risultò essere 105 milioni di persone.
Tasso di crescita da record? No: nel primo caso, si trattava di un censimento per conto del fisco e dell’ufficio leva, nel secondo di un censimento per l’assegnazione di sussidi economici. E in entrambi i casi i censiti conoscevano lo scopo dello studio.
Esistono poi procedure metodologiche, note ai ricercatori, che sono garantite per influenzare drasticamente un’analisi statistica: conosco a esempio un metodo per disporre un campione di sabbia fine su un piattello per l’analisi al microscopio, che è garantito per selezionare una sola specie di fossile, sulle trenta o sessanta che in media si trovano mescolate al sedimento; basta usare questo piccolo accorgimento, tutte le altre specie risulteranno sottostimate, e all’osservazione il campione apparirà caratterizzato da condizioni biologiche (e quindi ambientali ed ecologiche) assolutamente peculiari e fuori dalla media.
Un autentico gioco di prestigio – solo che coincide con le azioni che chiunque, non conoscendo il trucco, eseguirebbe – insomma, bisogna sapere che il problema esiste per poterlo evitare.
Ribadiamo quindi l’ovvio: il campione per la statistica, dovrebbe essere casuale e rappresentativo – esistono metodi (pratici e statistici) che permettono di verificare che lo sia.
Questo succede di rado, e spesso volutamente.
Il conduttore televisivo che invita il pubblico a votare si o no a un sondaggio telefonico in diretta, e che a fine trasmissione ci dice che il 75% degli italiani ha detto sì all’origano sulla pizza margherita, se non altro pecca di presunzione. Il suo campione, infatti, non rappresenta gli italiani, ma solo quella percentuale (ridotta, anche se è duro ammetterlo) che guarda quella trasmissione a quell’ora, e fra questi, solo i pochi che hanno tempo, voglia e modo di telefonare.
E naturalmente nessuno garantisce che qualcuno non abbia telefonato trenta volte. O abbia mentito.
E fintanto che si parla di pizza, va tutto bene.
La possibile ambiguità delle misure e della costruzione delle domande del questionario è un altro cavallo di battaglia della ricerca tendenziosa. Considerate le due domande seguenti (ancora un esempio preso da Utts):
– È favorevole all’omicidio di bambini innocenti perpetrato attraverso l’aborto?
– Crede che esistano circostanze nelle quali, per tutelare i diritti della madre, l’aborto sia ammissibile?
La forma della domanda spinge il soggetto del sondaggio in una determinata direzione. Si può essere più sbrigativi utilizzando parole-chiave (la differenza fra «portatori di handicap» e «malati di mente») o richiamandosi all’ignoranza o ai pregiudizi della popolazione intervistata – come nel caso della Legge per gli Affari Pubblici del 1975; chiedere «Cosa farebbe se sua figlia sposasse uno Svizzero» e «Cosa farebbe se sua figlia sposasse un extracomunitario» è, da un punto di vista puramente formale, esattamente la stessa cosa.
Ma qui la questione è più che formale.
Oppure il questionario è inadeguato.
Un esempio originale, e di primissima mano: l’estate passata io e il mio amico Marco Q. (entrambi lettori patologici) veniamo fermati in una via del centro da una avvenente giovane donna la quale ci chiede se possa farci un paio di domande sui nostri hobby. E perché no, diciamo noi.
La prima domanda riguarda i nostri interessi: musica, lettura, cinema – tutte categorie perfettamente rappresentate nei negozi della catena che ha commissionato l’indagine – quindi, il formulario automaticamente esclude interessi (la pittura, il pattinaggio a rotelle) che pure sono praticati da una fetta consistente del pubblico. Che statistica ne verrà fuori?
Io e Marco, comunque, rispondiamo che ci interessano tutti e tre i soggetti.
Imbarazzo. Ma uno in particolare?
Qui abbiamo pochi dubbi. I libri, certamente.
Ottimo. Visibilmente sollevata, la signorina mette una croce nella casella e passa alla domanda successiva: il genere – narrativa internazionale, thriller, best-seller, saggistica, classici…
Di fantascienza neppure l’ombra, ma questo è un problema mio. Entrambi rispondiamo esaurientemente, ben felici di aver suscitato un nuovo sorriso smagliante della rilevatrice (ricordate cosa si diceva sull’influenza dell’operatore?)
Terza domanda: quanti libri acquisti all’anno?
Rapido calcolo mentale. Una settantina. Si, fra i settanta e i cento.
Sguardo smarrito della giovane.
Il suo formulario include infatti le seguenti categorie:
– meno di cinque
– da cinque a dieci
– più di dieci
Ecco fatto, statistica completamente sballata, rilevatrice infelice.
Vogliamo lasciarla in depressione? Non vogliamo magari dirle, «Ok, dai, segna più di dieci», che oltretutto è formalmente corretto?
E ho almeno dieci altri amici che hanno vissuto la stessa esperienza.
Sarei quasi portato a pensare che la storia che gli italiani leggono poco, sia una questione di formulari sottodimensionati. Cosa ne dite?
Anche le condizioni ambientali sono essenziali, ma anche facilmente trascurate dai media: chissà perché, ma tutti i sondaggi sembrano sempre indicare una certa simpatia degli italiani per la pena di morte immediatamente dopo un omicidio particolarmente efferato. E se invece avessimo fatto la stessa domanda al popolo, chessò, la settimana prima di Pasqua?
Ma è anche questione di dove veniamo intervistati, e come.
Se quella dannata domanda sulla vostra soddisfazione sessuale vi fosse stata rivolta da una voce anonima per telefono, avreste risposto diversamente? La risposta, per la media umana, è sì.
Le «differenze estranee fra gruppi» suona complicato, ma si spiega alla svelta con un altro esempio: uno studio del 1991 «dimostra» che i mancini muoiono prima dei destri. Come hanno fatto a stabilirlo?
Semplice – i ricercatori hanno mandato una lettera ai parenti di un campione casuale di defunti recenti, chiedendo con quale mano scrivesse il trapassato. Ne risulta che l’età media di morte per i mancini è 61 anni, mentre per i destri è 75. I destri morti sono più vecchi, con quasi quindici anni di differenza.
Ciò che lo studio non considera è però che più si va indietro nel tempo, più forte era la tendenza, a scuola e in famiglia, a obbligare i bambini a scrivere con la destra (a volte a suon di botte col righello sulla «mano sbagliata», come capitò a mio padre quando studiava dai preti). I più anziani nella popolazione, quindi, probabilmente se non erano destri furono obbligati a diventarlo. Automaticamente, la percentuale di mancini fra i rappresentanti più anziani della popolazione venne ridotta artificialmente da un fattore che l’analisi non ha considerato.
E infine c’è la questione della scala delle affermazioni risultanti: uno studente dell’ateneo torinese, alcuni anni or sono, discusse una tesi sulla condizione della donna nelle Valli Occitane nella prima metà del ventesimo secolo, basando tutte le proprie conclusioni (accompagnata da tanto di percentuali e grafici variopinti) sulle interviste rilasciategli da sole sette anziane donne occitane, tutte residenti nello stesso paese.
Con che faccia allora sostenere che «Il 40% delle donne occitane fra le due guerre…»?
Di tutte le donne occitane?
I numeri che stiamo considerando sono importanti; se dovessimo decidere in base a cosa identificare una persona, a cosa ci affideremmo, di preferenza: al viso, o alle impronte digitali?
Domanda banale, si direbbe.
Il viso va bene a piccola scala, per riconoscere la mamma o distinguere il mio amico Valter dal mio amico Vincenzo, ma un vecchio proverbio piemontese sostiene che «Ci sono molti somari che si assomigliano», e noi stessi abbiamo almeno una volta scambiato qualcuno per qualcun altro, o siamo stati scambiati per un’altra persona (come nella vecchia gag di Totò, «Pasquale, brutto mascalzone…!»)
In totale, esistono solo un paio di migliaia di permutazioni forma del viso/tratti del viso possibili nella nostra specie. Se siamo davvero sei miliardi, ognuno di noi dovrebbe allora avere qualcosa come tre milioni di sosia. Pare incredibile. È solo quando aggiungiamo all’equazione il fatto che circa la metà dei nostri possibili sosia sono del sesso opposto, un terzo mal contato dei restanti sono diversamente pigmentati, e che tutti gli altri hanno età variabili da 0 a 100 anni e una storia medica e gastronomica fondamentalmente diversa dalla nostra, che cominciamo a capire perché la nostra faccia sembri unica.
E per le impronte digitali è quasi lo stesso, ma cambiano i numeri.
Il disegno dell’epidermide dei polpastrelli delle nostre dita è a tal punto complesso che le permutazioni sono nell’ordine degli svariati miliardi, e perciò statisticamente è estremamente improbabile che due persone abbiano lo stesso schema di anse e circonvoluzioni nello stesso momento. Ma «estremamente improbabile» non vuol dire «impossibile».
Dopotutto, se credessimo che «estremamente improbabile» volesse davvero dire «impossibile», non giocheremmo alla lotteria.
Fin qui, i possibili errori (in buona fede, vivaddio, in buonissima fede) che può commettere l’operatore svolgendo l’analisi.
A questi aggiungerei, per simpatia, un ottavo punto che la Utts esclude dalla sua lista, probabilmente per eccessiva fiducia nei ricercatori – quello che sia stata svolta l’analisi sbagliata, o si sia cercata una correlazione dove non c’era.
Il fatto che i numeri rivelino e sottolineino un legame palesemente ridicolo non rende il legame meno ridicolo: negli anni ’50 venne rilevata la stretta e quasi perfetta correlazione matematica fra lo stipendio dei pastori presbiteriani in Massachussets e il prezzo del rum all’Avana.
Prova di una manipolazione occulta del mercato da parte di religiosi etilici?
E che dire dell’allargarsi dell’angolo fra i piedi col crescere dell’età delle donne, segnalato da un medico nel dopoguerra? O del rapporto stretto e indiscutibile che lega il numero di matrimoni e il numero di suicidi nel corso dell’anno? La gente si sposa o si uccide preferibilmente nei periodi di festa – qual è la causa, e quale l’effetto?
O stiamo semplicemente cercando un legame che non c’è?
Un legame, naturalmente, che possiamo anche capovolgere – come quando spieghiamo le scarse letture degli italiani coi questionari sottodimensionati, e non viceversa.
3. La Mano è Più Veloce dell’Occhio – Introduzione alla tendenziosità.
Ma quando il pubblico arriva a fruire della statistica, i calcoli e le correlazioni sono fatti, e ci troviamo soli davanti a un grafico colorato, a una bella tabella, e magari a un opinionista che strilla ai suoi oppositori che lì sul foglio lui ha dei numeri precisi, mica delle balle. O magari sfoderano PowerPoint, e ci martellano le sinapsi con trenta slide coloratissime e incomprensibili, fitte di testo illeggibile, e solo due grafici belli grossi e nitidi e dannatamente convincenti. Siamo nel regno della presentazione, dove anche la ricerca più solida, onesta, indipendente, corretta e impeccabile può essere trasformata in una valanga di carta straccia.
Cominciamo con i grafici.
Se è vero che un buon disegno vale più di mille parole, allora è anche vero che un grafico falsato può essere molto più convincente di un pistolotto tendenzioso e fasullo.
I grafici a torta sono particolarmente pericolosi. Eccellenti strumenti per rappresentare percentuali in maniera intuitiva, soffrono dello stesso problema di adimensionalità delle statistiche. Come nel caso delle percentuali sulle donne occitane ricavate da sole sette interviste visto poc’anzi, un grafico a torta può mascherare un dato basato su un campione limitato e poco rappresentativo. Inoltre, l’occhio è connesso in maniera subdola col cervello – si può dimostrare (come? Ma con uno studio statistico, che diamine!) che la maggior parte della popolazione tende a sottostimare le fette del grafico a torta inferiori al 30%, e a sovrastimare quelle superiori al 60% – vediamo sempre le fette grosse come se fossero più grosse, e quelle piccole come se fossero più piccole.
E chi fa statistica lo sa.
Altri trucchetti visivi includono di solito l’adattamento dell’asse del grafico agli scopi del relatore – variare la scala appiattisce impennate deliranti o trasforma un encefalogramma piatto in una corsa sulle montagne russe.
La buona pratica consiste sempre nel verificare i dati di partenza, e poi di ragionare sui numeri scordandosi per il momento il grafico.
La domanda ultima è: ha senso?
Ma i numeri, dal canto loro, sono delle brutte bestie.
Qui la buona pratica impone due comportamenti che sono apparentemente mutuamente esclusivi. Da una parte, è bene diffidare delle cifre troppo «tonde», perché raramente un conteggio su un campione significativo (diciamo su cinquecento/mille persone scelte a caso su tutta la popolazione del paese, intervistate in ambiente asettico e senza influenze esterne) porta a un risultato tondo, un bel 40% netto. Figuriamoci in campo scientifico dove due volte su tre si lavora su logaritmi di dati cumulativi.
D’altra parte, cifre come «il 36,95% degli elettori» sparate a bruciapelo durante una notte selvaggia a un talk-show suonano abbastanza fasulle all’orecchio smaliziato; un essere umano normale non memorizza le statistiche fino alla seconda cifra decimale solo per poi fare conversazione, e a meno che non legga da un foglio, uno dice piuttosto cose tipo «quasi il 37%» o magari «circa il 40%» (vedi caveat precedente).
E qui il 32,6% dei lettori butta a terra questa copia di LN e strilla «scribacchino della malora, niente cifre tonde, niente decimali, e allora di cosa diavolo posso fidarmi?»
Del lavoro complessivo.
Non accettate mai cifre fluttuanti nel nulla: se non vi dicono quanto era grande il campione, come era composto, esattamente che domanda gli è stata rivolta e da chi (pensate a un agente in uniforme che vi chiede «È favorevole all’uso di droghe leggere?»), e quando («Internet è davvero utile?» – domanda rivolta a un campione «casuale» selezionato fra i frequentatori del mercato di Piazza Madama Cristina, Torino, fra le nove e trenta e le undici di mattina), se non vi dicono queste cose, sentitevi autorizzati a dubitare.
E le statistiche di vendita?
Qui entriamo nell’ambito del «cambiar discorso», atteggiamento al quale l’ormai irreperibile testo di Huff dedicava un intero capitolo.
La patacca in copertina che dichiara «Un milione di copie vendute» viene di solito considerata un dato a garanzia della qualità di un libro. Ma le copie vendute non hanno nulla a che vedere né con le copie effettivamente lette (che potrebbero anche essere di più, se il milione include le acquisizioni delle biblioteche) né con quanto quel milione di acquirenti abbia poi effettivamente apprezzato il libro; alzi la mano chi non ha mai comprato un libro francamente brutto, dicendosi poi che sarebbe stato meglio non comprarlo. O chi lo ha comprato e poi non lo ha letto.
Lo stesso vale ovviamente per gli incassi al botteghino, e nella stessa categoria (e nello stesso ordine di grandezza) ricade anche il «Milione di posti di lavoro» a suo tempo sbandierato da un oscuro uomo politico della Ruritania per tirare acqua al proprio mulino (si era ai tempi del Kaiser Guglielmo e si sa, i popoli erano allora più facili da infinocchiare). Ora, anche ammettendo che effettivamente si siano creati un milione di nuovi posti di lavoro, il dato risulterebbe certo più interessante se venisse accompagnato anche dal numero di posti di lavoro perduti nello stesso intervallo di tempo. E considerando che anche spalare la neve dopo le tormente è un lavoro, per quanto precario e sottopagato (ancorché dignitosissimo e, per qualche giorno, essenziale), includere anche una miglior definizione dei posti di lavoro costituenti il milione non sarebbe una cattiva idea.
Perché qui stiamo usando un numero per vendere un prodotto, e senza una maggior definizione del significato del numero, il pubblico non può farsi una corretta immagine del prodotto.
«Centomila clienti soddisfatti» suona niente male, ma ci lascia col dubbio di quanti siano stati i clienti insoddisfatti. E perché.
A seguire, nella scatola degli effetti speciali per rendere appetibili statistiche dubbie troviamo le informazioni spurie di contorno.
Si tratta di dati che non hanno strettamente a che vedere con la statistica, coi numeri, coi calcoli eseguiti, ma servono a dare maggior peso a questi, e magari a rendere più accettabile, più autorevole, più vera, alle nostre orecchie, la conclusione tratta dall’analisi.
I casi più eclatanti di solito riguardano l’attribuzione dei dati a una fonte autorevole (l’ONU, l’UNESCO, GreenPeace), per mascherarne le origini dubbie.
Ma è possibile fare giochi ancora più sottili.
Un esempio?
Eccovi serviti: tutte le statistiche citate in questo articolo a titolo di esempio sono autentiche. Una, tuttavia, è accompagnata da informazioni spurie, inventate a hoc per colmare un vuoto di informazioni che non avrebbe reso meno valido l’esempio (che è comunque autentico), ma solo meno soddisfacente, meno completo.
Provate a chiedervi di quale esempio si tratti.
In calce all’articolo trovate la soluzione.
C’è poi il problema delle statistiche a caso, che non è un vero problema statistico, è più una semplice questione di menzogne e basta.
Come quando all’inizio cercavamo di decidere la probabilità che il governo abbia fatto sparire il libro sulle menzogne statistiche, molto spesso vengono presentati al pubblico numeri che «suonano bene», e utilizzati per punteggiare un discorso che non ha nulla di scientifico, o di onesto.
E infine c’è l’affronto più osceno, l’atteggiamento di certi personaggi che, messi con le spalle al muro dai dati numerici, scrollano il capo e si limitano a dire «Con le statistiche si può dimostrare qualsiasi cosa».
Appunto.
Darrell Huff, How to lie with statistics
W.W. Norton & Company, paperback ed., pp. 136, ill. di Irving Geis, $ 11,56
Darrell Huff, Mentire con le statistiche
Monti & Ambrosini, pp. 206, a cura di Giancarlo Livraghi e Riccardo Puglisi, € 15,00
—————————————————————————————————————————————————-
Soluzione e compiti per le vacanze: è vero, e pubblicato da fonte attendibile (Huff, 1954), che una provincia cinese passò da 28 a 105 milioni di persone in cinque anni, al semplice variare degli scopi del censimento. Non conosciamo tuttavia né di quale provincia si trattasse, né gli anni durante i quali venne eseguito il censimento. Quei dati (Hunan, 1951 e 1956) sono falsi.
D’altra parte, senza quei dati, dovete ammettere che l’informazione sarebbe stata molto meno credibile.
E allora, eccovi il compito da fare a casa: se questa era una notizia vera che per sembrare vera aveva bisogno di dati inventati, quante notizie false sfruttano lo stesso trucco per convincerci della propria veridicità?
Devi effettuare l'accesso per postare un commento.