Innovazione di processo e infrastrutturale per la gestione degli indicatori delle statistiche economiche e degli aggregati di Contabilità nazionale
http://www.istat.it/it/archivio/193422
Una breve introduzione ad Elsa Morante, vita e opere
Chiara Rossi, Elena Forconi - CNOut: Esigenze e soluzioni adottate
1. CNOut:
Esigenze e soluzioni adottate
Chiara Rossi
Elena Forconi
12 dicembre 2016
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
2. Il progetto CNOut prende spunto dall’esigenza di ottemperare
all’obbligo regolamentare di inviare i dati richiesti dal TP in formato
SDMX, a partire dalla prima trasmissione dei dati in SEC 2010
prevista per settembre 2014.
L’attività è iniziata a fine 2013 ed è ancora in fase di
completamento con l’inclusione delle informazioni inerenti la
Finanza Pubblica e le statistiche ambientali, oltre alla produzione
delle tavole Supply & Use.
E’ stato adottato un ciclo iterativo ed incrementale.
1. La nascita di CNOut 1/2
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
3. 1. La nascita di CNOut 2/2
CNOut è il risultato di un Gdl che ha lavorato alla definizione e
realizzazione di:
- una base dati per l’archiviazione centralizzata degli output prodotti
dalla Contabilità Nazionale su dbms Oracle
- dei processi di caricamento della base dati
- dei processi di derivazione dei dati per le esigenze di diffusione
(quali calcoli di indici, rapporti caratteristici, aggregazioni ecc.)
- dei processi di controllo di congruenza e correttezza
- dei processi di diffusione sia verso gli utilizzatori nazionali (I.Stat)
che verso Eurostat (SDMX)
- di un sistema per l’interrogazione ad uso interno della base dati
(basato su Microstrategy)
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
4. L’esigenza di partenza consisteva nel poter rispondere da un unico
punto a qualsiasi richiesta di dati validati prodotti dalla contabilità
nazionale.
Questo ha comportato l’archiviazione non solo delle serie diffuse
(Eurostat, I.stat) ma anche di serie validate ma non diffuse o con
livelli di dettaglio maggiore, ad uso interno o utili per rispondere
prontamente e senza sforzo aggiuntivo a ulteriori richieste di
informazioni esterne (ad esempio allargamento – volontario – delle
serie fornite nella tavola relativa ai principali aggregati della
Pubblica amministrazione –T02- per Eurostat).
La scelta finale di cosa caricare (quale livello di disaggregazione,
quali variabili) nel DB è stata concordata con i responsabili dei dati.
2. Archivio centralizzato di CN
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
5. Un requisito era quello di recare minor disturbo possibile ai
produttori dei dati prelevando le informazioni così come vengono
prodotte, ovvero con diverse tipologie di formati e organizzazione.
Ciò ha comportato l’adozione di due tipologie di processi di
alimentazione:
a) basata su DB Oracle: caricamento nel db di dati di input che
sono memorizzati in tabelle Oracle o in file csv;
b) basato su Kettle: caricamento di dati di input memorizzati in
formato dif, csv, excel.
Il «Cruscotto applicativo» svincola il gestore dalla conoscenza del
singolo processo, permettendo l’esecuzione del caricamento
attraverso delle scelte da menu
3. Esigenze nel caricamento e soluzioni adottate
1
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
6. Come accennato, quando il DB è stato progettato era emersa l’esigenza
di effettuare dal DB, e salvare nello stesso, alcune elaborazioni standard
di dati (come ad esempio rapporti caratteristici, aggregazioni, ecc.).
Le procedure da applicare ai diversi set di dati (ANA, ASA, GGS, dati
territoriali, eccetera) possono essere di tipo standard (ad esempio:
concatenamento, calcolo dei tassi di crescita), gerarchico (aggregazioni
per branca, per settore, per area territoriale, per tipo di tassa), oppure
derivare da formule ad hoc (rapporti sul PIL).
Le procedure di tipo aggregativo gerarchico e/o standard sono state
integrate nel processo ETL (Exctract, Transforme, Load) ed eseguite
quindi durante il caricamento dei dati. In alcuni casi vengono eseguite (a
richiesta) dal gestore del sistema (procedura pl/sql).
Il sistema supporta due tipologie di calcolo: somma algebrica
(aggregazioni) o prodotti (tassi di crescita, concatenamento, rapporti).
Il gestore del sistema è in grado di definire il calcolo ad hoc
semplicemente memorizzando le informazioni sugli operatori in
opportune tabelle del db.
4. Processi di derivazione
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
7. Un tipo particolare di formule è costituito da quelle di controllo.
Attualmente vengono caricati sul db più di 30 flussi di dati (ovvero fonti).
Spesso gli stessi aggregati sono presenti, con diverso livello di dettaglio
e/o con diverse dimensioni (attributi), in flussi diversi.
Ad esempio il valore aggiunto è presente nei :
- Conti dei settori istituzionali annuali
- Conti dei settori istituzionali trimestrali
- Conti dei settori istituzionali territoriali
- Conti economici nazionali trimestrali
- Conti economici nazionali annuali
- Conti economici territoriali
- Conti economici delle Pubbliche Amministrazioni
Le formule di controllo consentono di verificare la coerenza e correttezza
del dato nei vari flussi, aumentando quindi la qualità dell’informazione.
5. Processi di controllo
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
8. Cosa accade se si deve diffondere una nuova tavola per Eurostat ?
Il gestore è in grado di definire univocamente le serie richieste attraverso i
metadati definiti nelle tabelle dei fatti (dimensioni) e memorizzando tali
informazioni, e la loro eventuale transcodifica, in una apposita tabella oracle. Si
predispone il mapping opportuno tra DB e Reference infrastrucure e dal cruscotto
si richiama la nuova tavola.
Cosa accade se si deve diffondere un nuovo dataset per I.stat ?
Analogamente, il gestore definisce univocamente le serie richieste attraverso i
metadati definiti nelle tabelle dei fatti (dimensioni) e memorizzando tali
informazioni, e la loro eventuale transcodifica, in una apposita tabella oracle che
viene letta da una funzione oracle (da cruscotto) e genera un file fisico (.csv).
Anche in questo caso il «Cruscotto applicativo» svincola il gestore dalla
conoscenza del singolo processo, permettendo l’esecuzione attraverso delle scelte
da menu. Per I.Stat consente anche il caricamento diretto dei file csv nel DWH di
istituto.
6. Esigenze nella diffusione e soluzioni adottate
1
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
9. 7. Interrogazione ad uso interno: utilizzo di Microstrategy
Per l’interrogazione e analisi dei dati archiviati nel database, ad uso
interno, è stato individuato Microstrategy (piattaforma di BI), per favorire
un accesso semplice e immediato alle informazioni.
Sono stati predisposti un totale di 25 report differenziati per tipologia:
- Tematici: Conti economici, Conti per settore istituzionale, Investimenti
e Occupazione distinguendoli ulteriormente in annuali, trimestrali o
territoriali.
- Confronti: Confronti tra valori da Conti economici annuali o trimestrali
e Conti per settore istituzionale annuali e trimestrali.
- Tavole di simildiffusione Eurostat e per i comunicati stampa.
- Navigazione gerarchica: possibilità di navigare il dato mediante
operazioni di drill attraversando le diverse gerarchie presenti nel
database: Flussi e Aggregati, Livelli di Branca, Prodotto, Spesa e
Gerarchia Territoriale.
I report sono stati realizzati privilegiando l’utilizzo di “prompt”: filtri
impostati preliminarmente all’esecuzione del report stesso, che
favoriscono la personalizzazione massima dell’interrogazione del dato.
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
10. 8.1 Report: Conti economici trimestrali
1
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
11. 8.2 Report: Conti economici trimestrali
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
12. 8.3 Report: Conti economici trimestrali
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
13. 8.4 Report: Spesa Annuale Famiglie
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
14. 8.5 Report: Spesa Annuale Famiglie
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
15. 8.6 Report: Spesa Annuale Famiglie
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
16. Il GdL si è riunito per la prima volta a ottobre 2013;
Il 30 settembre 2014 sono state inviate ad Eurostat le prime tavole in formato
SDMX.
Ad oggi 34 delle 42 tavole richieste all’Istat dal Programma di Trasmissione del
Regolamento sui Conti Nazionali in SEC2010 sono prodotte direttamente da
CNOut.
9. Stato attuale
n. tavole
n.serie
per invio
n.invii
richiesto
n.
tavole
inviate
n.serie
inviate
n. dataset
alimentati
n.serie
per invio
n.
invii
n.serie
inviate
ANA 8 (T01A) 344 2 16 688
7 (T03, T05, T20, T22) 8.500 1 7 8.500
QNA 8 (T01Q) 953 9 72 8.577 4 2.092 9 18.828
2 (flash) 4 4 8 16 1 3 4 12
REG 4 (T10, T12, T13) 8.522 1 4 8.522 5 65.170 1 65.170
ASA 2 (T08, T26) 1.006 2 4 2.012 3 1.747 2 3.494
QSA 1 (T0801) 458 4 4 1.832 1 897 4 3.588
FIP 1 (T02) 365 2 2 730 2 733 2 1.466
1 (T11) 7.840 1 1 7.840 1 7.440 1 7.440
1 30 4 120
TOTALE AL 1/12/2016 34 27.992 26 118 38.717 23 91.316 29 126.526
Per Eurostat Per I.stat
5 13.204 2 26.408
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016
17. Oltre ai lavori già in corso, per il completamento dell’acquisizione e
successiva diffusione di aggregati inclusi nel TP si prevede di inserire
in CNOut i dati dei conti satellite, del debito pensionistico e dei
ulteriori nuovi aggregati, richiesti dalle istituzioni internazionali, e in
corso di definizione.
Poiché in Contabilità, in particolare in Finanza Pubblica, sono in
corso evoluzioni/modifiche nel processo di produzione, sarà
necessario procedere a manutenzioni evolutive del sistema.
Ulteriore attenzione dovrà essere rivolta all’implementazione, utilizzo
e diffusione all’interno della Contabilità dello strumento di navigazione
sulla base dati (Microstrategy)
10. Impegni futuri
CNOut, Forconi E. e C. Rossi, 12 dicembre 2016