ricercavalutativa

Quando i numeri non servono a nulla

Un sondaggio pubblicato il 3 gennaio 2021, sul Corriere della Sera rivela una volta ancora, in maniera incontrovertibile, che:

i sondaggi politici sono fatti alla carlona;
al netto degli errori sistematici, dicono cose ovvie che già si sapevano;
hanno una funzione retorica, e quindi ideologica, e in conclusione manipolatrice.

Poiché il problema non è solo dei sondaggi politici, ma di tutto un uso retorico dei dati numerici, vale la pena approfondire per trarne indicazioni di natura generale, utili anche agli scienziati sociali e ai valutatori di politiche.

Andiamo con ordine.

I sondaggi politici sono fatti alla carlona

Questo pubblicato dal Corriere in particolare - rivela una notina in fondo all’articolo - è basato su 33.000 interviste ricavate da 183.700 contatti. Una semplice divisione ci rivela quindi che ogni intervista è il frutto di 5/6 telefonate (in media); qualcuno non risponde, qualcuno manda subito l’intervistatore a quel paese… Anche se non siete esperti statistici comprendete bene che quello che viene chiamato “campione rappresentativo” non è mai il gruppo di persone sapientemente selezionato per rappresentare l’intera popolazione, ma sempre e solo il fondo del barile, quelli che accettano, alla fine, di rispondere, dopo numerosi tentativi non andati a buon fine. È facile comprendere come certe categorie di persone siano meno inclini a rispondere (per esempio professionisti) e quindi in quei casi non si saranno fatti 5 o 6 tentativi ma, probabilmente, dozzine. Occorre quindi chiedersi: quelli che alla fine rispondono, hanno davvero le medesime caratteristiche sociali, culturali, psicologiche, dei tanti che hanno attaccato il telefono in faccia al disturbatore? Ovviamente no. Non possiamo sapere in cosa differiscono ma è evidente che una differenza, socialmente apprezzabile, esiste, e tale differenza distorce, modifica, inquina la natura delle risposte di costoro, che si pretenderebbero “rappresentative”.

Sempre la notina ci informa che le interviste sono state fatte tramite “mixed mode (CATI/CAMI/CAWI)”, cose oscure che significano che i 33.000 sono in parte stati raggiunti via telefono (CATI - Computer Assisted Telephone Interviewing): quindi c’è un intervistatore/trice davanti a un computer, c’è una selezione automatica dei numeri, se all’altro capo qualcuno risponde l’intervistatore imputa le dichiarazioni, solitamente tramite codici. CAMI è quasi la stessa cosa, ma l’intervista è stata indirizzata a telefoni cellulari. Questa scelta è dovuta ai diversi pubblici delle due telefonie; ormai molte persone abbandonano il telefono domestico e usano solo lo smartphone, e anche queste differenze hanno a che fare con stili di vita e modelli culturali sociologicamente correlati a età, classe sociale e altro, e bisogna avere dei dati molto approfonditi per campionare le due categorie di cittadini in maniera adeguata. Ma poi c’è anche il CAWI (Computer Assisted Web Interviewing) che funziona più o meno così: il questionario è sul Web; i potenziali intervistati sono invitati ad accedere sul sito e compilare il form in autonomia. Qui ovviamente occorre chiedersi (oltre alle differenze fra utenti Web e telefonici che - come sopra - rinvia a tratti socio-culturali differenti) chi siano esattamente costoro; la risposta, generalmente, è questa: sono un elenco affidabile (per l’azienda intervistatrice) di mercenari delle risposte, di habitué, in alcuni casi pagati, generalmente consapevoli di “cosa fare e come farlo”. Questo guazzabuglio viene nascosto nel termine mixed mode che - lo sanno i più esperti - rimanda lessicalmente a un’indirizzo metodologico assai più arduo e nobile, chiamato mixed method, col quale non ha proprio nulla a che fare.

Ma non è finita, perché quella valanga di tentativi di interviste, dalla quale si è estratto il gruppo (definirlo ‘campione’, a questo punto, è arduo), sono state realizzate fra il 10 settembre e il 16 dicembre; tre mesi! Tre mesi in cui, per esempio, si è passati dall’esuberanza estiva rispetto al virus alle preoccupazioni della seconda ondata e alla promessa vaccinale, con tutte le ricadute politiche del caso; con le elezioni americane e i sui riflessi culturali e ideologici anche in Italia, e via via tutte le questioni che hanno certamente influito, in maniera differente, nel far mutare parere politico agli intervistati, così che chi era simpatizzante di un partito a inizio indagine poteva non esserlo più alla fine, con nuove distorsioni e fattori di errore nei risultati finali.

E questo è quanto si può inferire da quel poco che viene dichiarato (per obbligo di legge) nella menzionata notina, che gli “aggiustamenti” fatti per far quadrare i conti sono noti solo a chi queste indagini le fa, e da quello che trapela - a mezza voce - negli ambienti specializzati. Se desiderate saperne di più su quanto male siano fatti i sondaggi, rinvio a un mio vecchio post sul blog Hic Rhodus.

I sondaggi (ma in generale tutte le ricerche di questo tipo) ci dicono cose che sapevamo già

Una cosa poco avvertita dal fruitore medio di statistiche (in questo caso lettori del Corriere, ma in altri casi funzionari pubblici che devono valutare una politica, decisori, tecnici…) è che in generale dicono cose che già sapevamo.

Nel caso del sondaggio che sto utilizzando come esempio, apprendiamo che in generale due terzi, o più, di coloro che alle Europee 2019 hanno votato un determinato partito, oggi lo rivoterebbe. E che il terzo scarso che cambierebbe lista lo farebbe per lo più a favore di liste affini, o quanto meno della stessa area (destra vs. sinistra). Stiamo imparando qualcosa? Questo risultato è forse inatteso? No, evidentemente. Si potrebbe cavillare che sì, in generale il risultato era noto e atteso, ma se ne ignoravano le esatte proporzioni, le percentuali esatte! A questa obiezione posso facilmente opporre le seguenti argomentazioni: i) sondaggi fatti alla carlona, come detto, non danno nessunissima garanzia sulla qualità dei dati e la validità dei numeri, quindi dobbiamo prenderli come informazioni “in generale”, e non come cifre esatte; ii) al netto del punto precedente (e quindi con validità generale anche per ricerche, analisi e valutazioni ottimamente realizzate) quei numeri sono il frutto di dichiarazioni spontanee di individui con idee variabili, motivazioni cangianti, momenti dell’intervista incontrollabili, e sempre sotto l’egida del “postulato del mal di pancia”; vale a dire che le risposte dipendono sì dalla propria più o meno radicata idea politica (nel caso dei sondaggi) o opinione sull’oggetto della domanda, ma può mutare in base a una quantità di fattori anche personali (sentirsi a disagio, avere da poco litigato col coniuge, avere appunto un attacco di mal di pancia) in virtù della complessità della domanda posta, un elemento questo che chi segue il sondaggismo, specie nei talk show, non può non avere percepito; iii) infine, anche al netto del punto precedente e approdando a questioni di natura più epistemologica, dobbiamo chiederci quale significato reale abbiano queste informazioni; nel sondaggio in questione, per esempio, apprendiamo che il 74,2% degli intervistati che votarono Forza Italia alle Europee, oggi rivoterebbero lo stesso partito. Chiediamoci: se anziché 74,2% il risultato fosse stato 71,6 o 76,1%, avremmo reagito differentemente? No, ovviamente, perché per note ragioni relative al funzionamento del nostro cervello noi ancoriamo il risultato approssimativamente al settimo decile (in modo da concepirlo meglio) e tralasciamo i dettagli che costituiscono semplicemente una sorta di nebbia, di rumore entro il quale il dato è inserito. Quindi, lo spreco di tempo e risorse, per dirci cose già intuibili (sulla base di teorie sociologiche, psicologiche, politologiche), dalle quali tratteniamo solo l’idea all’ingrosso, non è in alcun modo giustificata.

A meno che…

A meno che i dati rilevati (rilevandoli bene) non siano informazioni su proprietà continue, di natura fisica (e poche altre) dove valori differenti rimandano a reali stati differenti sulla proprietà indagata: il dato esatto della pressione di una caldaia può fare la differenza fra una caldaia funzionante e una che scoppia; il dato esatto sulla glicemia può fare la differenza fra un individuo sano, uno malato e uno morto; il dato esatto sulle spese nell’ambito di un Fondo strutturale fa la differenza, non solo contabile, su quanto realizzato, quanto potenzialmente ancora realizzabile e in alcuni casi, induttivamente, sulla capacità di ben spendere delle Regioni. Sì, i dati servono e sono importanti, se ben costruiti. Ma questi casi sono molto particolari: l’ingegneria, la medicina, la fisica e la chimica, hanno bisogno di dati.

Ma la sociologia, l’economia (che finge di essere rigorosa), l’amministrazione pubblica, la valutazione delle politiche e, certo, anche il sondaggismo, cercano di copiare l’esattezza di altre scienze e di altre pratiche, sfornando statistiche con tanto di decimali, con una inutilità esasperante, perché i numeri funzionano sul piano lessicale, mentre le culture, le opinioni, le valutazioni, le ideologie, le visioni del mondo, funzionano sui piani semantico e pragmatico. Un discorso molto lungo e complesso che non si può approfondire qui, ma che i lettori avranno ritrovato anche in precedenti note su questo blog della Centrale, per esempio questa.

La funzione retorica e manipolatrice dei dati

In conclusione occorre fare una riflessione sul significato di questa marea di informazioni che la stampa ci sforna quotidianamente. I sondaggi, sempreverdi; ma anche le classifiche (delle città dove si vive meglio, dei paesi più felici, delle università migliori…) e altre discutibili proposte informative che condividono, tutte, nessuna esclusa, queste caratteristiche: i) una metodologia discutibile, o comunque debole; ii) delle inferenze logiche (dai dati proposti alle conclusioni che se ne traggono) infarcite da fallacie, iii) un carattere assertivo, al limite del dogmatico, proprio in virtù del fatto che sono sostenute da dati, da numeri e quindi - nella vulgata collettiva - certi, validi, infine veri.

Per ragioni che credo abbiamo chiaramente mostrato, questi “dati” si prestano a un uso demagogico, strumentale: volete fare una campagna politica contro una categoria di individui? State pur certi che si possono trovare dei dati che mostrano come costoro siano delinquenti, o fannulloni, o qualcos’altro capace di ispirare sentimenti negativi verso quel gruppo sociale. Desiderate uscire dall’Euro? Facilissimo mostrare dati che illustrano come l’Euro ci abbia impoveriti a scapito dei famelici banchieri tedeschi. Siete contrari al vaccini? Si trovano tantissimi dati sulla loro pericolosità, a sostegno delle vostre tesi!

Qui non sto parlando di dolo, che pure negli esempi citati sono frequenti, ma di sapiente scelta dei dati più opportuni al fine di sostenere una tesi anziché un’altra. Questo ha a che fare con quanto sopra chiamavamo piano “lessicale” dei dati. I dati - intesi come numeri - sono come le parole del dizionario; dicono poco, e male, rispetto ai concetti complessi che vogliamo esprimere nella nostra socialità; i demagoghi, i mestatori, gli azzeccagarbugli della nostra articolata e complessa società, usano indifferentemente parole (nella forma di slogan, di asserti) e numeri per indirizzare l’opinione pubblica, per sollevare dubbi strumentali, per contribuire a far modificare la visione della politica.

Nel campo tecnico, come nel caso della valutazione delle politiche, questi pericoli non sono affatto scongiurati, ma presenti esattamente allo stesso modo. Tutta la ricerca sociale, e la valutazione delle politiche che ne è parte, viene realizzata da individui con interessi, motivazioni, debolezze, soggetti a lusinghe e ricatti, capaci e sovente meno capaci tecnicamente… molto spesso ignari delle problematiche epistemologiche relative alla natura del dato, sua costruzione e implicazioni di questo processo. La ricerca valutativa, poi, è così inserita in un contesto amministrativo e politico, a volte frustrante, a volte oppressivo per il valutatore, dove una errata cultura del dato porta a scivolare nel piano inclinato che - nel nostro ambiente - può essere rappresentato dalla battuta “dobbiamo costruire mezza dozzina di indicatori per l’assessore”. E alzi la mano chi non si è mai trovato in questa situazione.

Cambio di paradigma

Per finalità storiografiche qualcuno ci descrive le “generazioni” valutative, o le “ondate”, “fasi” o altro; i meno raffinati si limitano a menzionare un generico passato positivista (i valutatori usano anche il termine ‘realista’) e un presente costruttivista, intendendoli comunque in maniera progressiva (il povero e ottuso positivismo e il rampante e promettente costruttivismo) ma i conti, in realtà, non tornano mai bene, nel senso che non riesce mai a cogliere - in queste rappresentazioni schematiche - il “dove siamo” nella mappa valutativa. Il problema sta nelle etichette, che si capisce - anche senza sforzi sociologici - che obbligano a semplificazioni buone per piccoli esercizi didattici, non per rappresentare la varietà e la ricchezza teorica e metodologica delle scienze sociali e della valutazione. Né i percorsi che ha fatto negli anni.
Noto che gli autori e le autrici delle “ondate” sono bravi narratori di mitologie poco al dentro della questione essenziale, che è il paradigma del metodo. Se guardiamo questo, se lo guardiamo veramente, comprendiamo una cosa piuttosto semplice. Fra positivisti e costruttivisti del secolo scorso, e primi anni di questo, sono cambiati gli approcci e gli accenti, ma non la natura del loro pensiero scientifico. Almeno, non in maniera dirimente.
Certo, i positivisti ingenui, cartesiani, della prima metà dello scorso secolo credevano possibile standardizzare la ricerca per cogliere una verità ultima, rappresentabile con dati certi e incontrovertibili. Questo monismo scientifico è stato abbastanza chiaramente superato dal dualismo costruttivista da quando si è reso evidente il fallimento del mandato monista nello studio delle relazioni sociali. Le differenze etniche, sociali, psicologiche e molteplici altre, la variabilità del comportamento per mille e mille elementi cangianti e imponderabili, hanno alla fine convinto a volgere lo sguardo verso l’impossibilità della standardizzazione, e ancor più la sua totale inutilità.
Ciò non di meno, la maggior parte degli autori schierati nel caucus costruttivista continuano a produrre lo stesso tipo di dati prodotti dai loro avi positivisti; anche se lo fanno camuffandoli. La cosa funziona più o meno così: devo valutare l’efficacia di una politica sociale (è un esempio a caso, mettete voi la politica o programma che preferite); poiché so (io che sono un costruttivista), che non posso misurare quell’efficacia, cerco altre strade, indirette, per potere soddisfare la domanda valutativa (e poter fatturare a chi quella domanda ha posto); faccio dei questionari, organizzo dei focus group, mi invento qualche giravolta e, se ho anche qualche decente base statistica, costruisco un bell’algoritmo per mettere insieme tutti questi risultati e dire poi al committente che, in una scala centesimale, la sua politica “vale” 87/100.
Il lettore capisce, ovviamente, che sto esagerando. Ma se fa parte di questa comunità di pratiche, di ricercatori sociali e valutatori, ha certamente esperienza di questo: nove volte su dieci il committente chiede - e il professionista offre - dei numeri: indicatori (intesi come numeri), percentuali, tabelle, valori. Realizzare una ricerca valutativa con soli quattro o cinque focus group, per rilasciare poi un rapporto puramente descrittivo di quanto detto in quelle riunioni, può andare bene per il professionista sottopagato che fa una micro ricerca sul servizio sociale di una cooperativa di provincia, ma non certo per la valutazione di un programma o di una politica. E quindi numeri, accidenti! L’inutile customer satisfaction sopravvive alla propria banalità perché produce numeri: gli utenti (cittadini, clienti) hanno detto, al 47,3%, che… Gli sterili indicatori sociali, che pure avrebbero nobili avi, sono ridotti alla prostituzione del numero perché lasciano intendere di essere oggettivi, comparabili, asettici. E i costruttivisti ci stanno dentro con tutti e due i piedi. Semmai fanno precedere qualche intervista alla customer satisfaction, o seguire qualche tecnica di gruppo alla costruzione degli indicatori. Ma fanno questo.
È - quello descritto - il paradigma della costruzione del dato intesa come misurazione o - per i meno sprovveduti fra i costruttivisti - conteggi, ordinamenti e quasi-misurazioni ottenute con scale cardinali (molto amate dai costruttivisti perché sembrano essere l’alibi inattaccabile per il delitto perfetto). Poiché sono un costruttivista, e so che non posso “misurare” i tuoi pareri e comportamenti, ti somministro delle scale; oppure ti lascio libero di parlare e poi sottopongo il trascritto di quanto mi hai raccontato a un bel software che farà l’analisi testuale; oppure ancora, in epoca di social media, faccio una sentiment analysis su Facebook. C’è questa idea di evitare il grezzo positivismo a livello di premessa e promessa, per poi cercare soluzioni esattamente positiviste (se preferite: post-positiviste). E poi ci sono sempre le scappatoie, come le presunte tecniche miste (mixed method) che nessuno sa cosa siano ma sono - proprio per questo - una figata pazzesca e forniscono un alibi perfetto: faccio cinque focus group (inutili ma qualitativi e tanto costruttivisti) per impostare un bel questionario (standardizzato e tanto realista).
Fortunatamente comincia ad apparire un nuovo paradigma. Un nuovo paradigma vero, non solo una nuova etichetta al paradigma vecchio. Il nuovo paradigma parte dalla vera, autentica, convinta considerazione che la verità cartesiana, molto semplicemente, non vale per le relazioni sociali (che è ciò di cui si occupano gli scienziati sociali e quindi i valutatori). Non è “per colpa” di queste scienze, da sempre considerate “deboli”; molto banalmente le relazioni sociali non sono l’oggetto della verità cartesiana, non lo possono essere. Ignoro, e non voglio discutere qui, se tale verità esiste nell’Universo; forse sì, non è il mio campo; forse esiste una sola verità fisica, le stelle, e le galassie e i buchi neri sono - forse - descrivibili in maniera univoca (quando avremo imparato a farlo) ed esisteranno secondo quella verità, in eterno. Ma non è così per gli esseri umani e le loro relazioni sociali. Se capiamo questo, se lo capiamo veramente e non astrattamente, avremo una piccola ma intensa epifania di questo genere: ma cosa me ne importa se quella politica sociale è “buona” per 87/100? E cosa diavolo significherebbe, poi, “buona”? E che ridicolaggine è 87/100? E quel 47,3% che avrebbe risposto in un determinato modo, alla domanda del mio questionario, mamma mia che assurdità!
Il nuovo paradigma che vedo emergere riguarda la costruzione del dato come costruzione di senso. Il nuovo paradigma sa che non c’è una verità, e che qualunque percentuale di risposta, qualunque misurazione statistica avrebbe altri valori se rifatta, se riproposta appena appena diversamente, se gli intervistati cambiano, se l’ora dell’intervista cambia, se qualche partecipante al mio focus group ha il mal di pancia… Rincorrere il dato inteso come misurazione assomiglia allo sforzo di un bambino che costruisce la sua piccola diga di sabbia contro le onde del mare.
Il nuovo paradigma riguarda il senso delle cose. Riguarda quindi la semantica e la pragmatica assai più della mera sintassi (sintassi = risposta a un questionario; numeri e indici; …); riguarda l’induzione e l’abduzione assai più della lineare e troppo controllabile deduzione. Riguarda modelli di ricerca e disegni di valutazione che non si pongono come risposta di verità (ti dico come stanno le cose, se hai fatto bene o male) ma come costruzione di domande assennate, quelle domande che aiutano tutti gli utilizzatori del nostro lavoro a capire il mondo (quel pezzetto di mondo nel quale operano). Porsi le domande giuste significa sapere dare un senso alle cose.
C’è una considerazione che vado facendo da un po’ di tempo: salvo casi drammaticamente perversi di cui non ho conoscenza, qualunque politica funziona. Una nuova politica del lavoro, un nuovo servizio sociale, un nuovo programma di sostegno alle imprese, non può che impiegare energie e risorse risolvendo alcuni aspetti, almeno, del problema cui intendeva rispondere. Può farlo benissimo, benino o malino, certo, ma solo se chiariamo - con esercizi faticosissimi e sempre discutibili, cosa significhino “veramente” questi aggettivi; per chi significano quelle cose; con che limiti; fino a quando… Quelle politiche possono funzionare meglio o peggio di altre, certo, ma solo se chiariamo - con approssimazioni mastodontiche di cui dovremo fingere di ignorare la portata - con quali criteri realizziamo il confronto, essendo i suoi oggetti assolutamente differenti fra di loro.
Voglio dire: qualunque artificio intendiamo utilizzare, noi non sapremo mai quanto veramente sia buona una politica (o programma), ma siamo legittimati a pensare che quelle energie profuse, quel tempo investito, quei capitali impegnati, siano serviti, almeno un po’, a migliorare qualcosa per qualcuno. Quel miglioramento non ci sarebbe stato senza quella politica. La valutazione dell’efficacia di una politica quindi, ha sempre due soli valori: 0 (zero) o 1, dove 0 significa “nessuna politica” e 1 significa “un qualche beneficio per qualcuno”.
Cercare di trovare un valore intrinseco migliore di 1, con strategie di ricerca aderenti al vecchio paradigma, è sterile, inutile, sostanzialmente falso.
Questa riflessione retrocede fino alle domande valutative. La domanda valutativa “Quanto è stata efficace la mia politica?” è sbagliata; o, quanto meno, la risposta è sempre e solo questa: “Fra 0 e 1, la tua politica è stata efficace 1, e non poteva essere altrimenti”.
La corretta domanda valutativa deve invece essere: “Che senso ha avuto questa politica?” Ovviamente questa macro domanda iper generica si sostanzierà in domande specifiche quali: “Chi ha vinto e chi ha perso in questa politica?”; “Quali elementi implementativi hanno rallentato il dispiegamento dei risultati?”; “Quali attori hanno operato delle frizioni negative sul programma? Perché?”; “Quali elementi di contesto hanno favorito od ostacolato il dispiegarsi dei meccanismi che hanno condotto al risultato finale?”; “Che ruolo hanno giocato gli operatori?”. Eccetera.
Cogliere il senso della politica (e non pretendere di misurarne gli effetti) è il solo e unico modo per imparare dalla valutazione e con la valutazione.
Sì, lo so: trovare un committente che accetti di fare queste domande valutative è decisamente difficile. Capita, ma raramente. Il mercato della valutazione, almeno in Italia, vive nel loop di committenti ingenui che fanno domande sbagliate e professionisti mediocri che danno loro risposte inutili; l’uno rinforza l’altro.
Ugualmente, il bravo professionista preme, spinge, insiste per far avanzare il livello della sua prestazione; incalza il committente affinché capisca il significato dell’analisi delle politiche e gli spiega come non cadere nello sciocchezzario di moda al momento (l’analisi controfattuale; la valutazione di impatto sociale…). Poi, ovviamente, tutti noi dovremo fare i quattro indicatori, redigere il maledetto questionario, fornire una bella regressione statistica… Facciamolo, ma sapendo e capendo quello che facciamo (e migliorando grandemente quegli indicatori, strutturando al meglio quel questionario, inserendo quella regressione in un disegno di ricerca intelligente).