Volevo fare alcune analisi statistiche sulla distribuzione in Italia del cinque per mille. Gli elenchi disponibili sul sito web dell'Agenzia delle Entrate (relativi all'anno 2008) esistono solo in formato PDF, che non può essere facilmente utilizzato per fare analisi sui dati, perché non contiene dati grezzi, ma loro elaborazioni. Dunque ho dovuto ingegnarmi per tornare ai dati grezzi.
Io ho semplicemente aperto i file PDF con Evince (un lettore PDF liberamente disponibile in ogni distribuzione di GNU/Linux) e copia-incollato tutto il loro contenuto in un file di testo (i file .txt). Poi ho utilizzato gli script Python allegati per pulire il testo e formattare in modo comodamente utilizzabile i dati contenuti (nei file .csv).
Lo script “decodifica.py” è in grado di decodificare quasi ogni file, ad eccezioni di “sportive5x1000_esclusi.txt”, che segue una sintassi leggermente diversa. Per questo file bisogna utilizzare “decodifica_sportie_escluse.py”.
I file generati sono separati da spazi e possiedono le seguenti colonne:
Tutti i dati, compresi i sorgenti degli script utilizzati per trattarli, sono disponibili per il download.
Ovviamente, pur ritenendo che i file .csv generati siano sostanzialmente fedeli ai PDF dai quali sono partito, il procedimento che ho utilizzato è perlopiù euristico, dunque molto soggetto ad errori. Dunque non posso offrire alcuna garanzia sulla correttezza del mio lavoro.
Sono comunque interessato a sapere di eventuali errori che siano stati trovati, magari anche per correggere i miei script.
Sarebbe bello se, anche per un motivo di trasperenza e di correttezza, l'Agenzia
delle Entrate pubblicasse gli stessi dati in formato facilmente utilizzabile
da un computer, in modo che sia possibile (e facile) fare analisi statistiche
ed elaborazioni senza doversi inventare i trucchi sporchi che ho dovuto
utilizzare io. Purtroppo, che mi risulti, questo ancora non avviene, anche
a causa della scarsa cultura che abbiamo a proposito della trasparenza
e verificabilità di ciò che fa il nostro Stato.