Les systèmes géodécisionnels de type SOLAP (Spatial On-Line Analytical Processing) sont dédiés à l’analyse spatio-temporelle des données ainsi qu’à leur exploration interactive selon une approche dite multidimensionnelle. Cette approche exploite le croisement d’axes d’analyse (ex. produit, région, année) organisés en hiérarchies (ex. région : pays-province-région-MRC-ville) afin d’offrir plusieurs niveaux de détails d’information. Cette information ainsi obtenue se doit d’être pertinente et significative afin de servir le processus décisionnel. Il est donc primordial de s’assurer, dès la définition de ces systèmes, de leur adéquation avec les besoins identifiés. Pour obtenir les différents niveaux d’information synthèse, il est nécessaire d’agréger les données qui proviennent des systèmes opérationnels. Les exemples d’agrégation issus du monde OLAP appartiennent généralement à un monde déterministe où tout est parfaitement défini par des règles administratives et sans ambiguité, réalité à laquelle les phénomènes géographiques ne correspondent que rarement. L’agrégation de données géospatiales ne se résume pas seulement à simplement appliquer un opérateur d’agrégation sur un jeu de données comme on le fait pour les applications en comptabilité, en gestion des ventes ou en marketing. Ce processus s’avère plus complexe puisqu’il doit typiquement prendre en considération la nature géométrique et sémantique de la donnée géospatiale, les caractéristiques spatiales et sémantiques des axes d’analyse, les propriétés des opérateurs d’agrégation, le contexte de l’application, les besoins décisionnels, etc. La clé du succès repose alors sur l’expérience du concepteur d’application SOLAP puisqu’il doit effectuer plusieurs choix ayant des impacts sur les résultats et les types d’analyses possibles. Cette présentation portera donc sur les réflexions nécessaires à la définition d’un processus d’agrégation de données géospatiales approprié lors de la définition d’une application SOLAP. Elle traitera également des impacts potentiels des choix effectués sur l’information synthèse résultante, sur sa qualité et sur le type de décision escompté. Ces notions seront principalement présentées à l’aide d’exemples concrets de plusieurs domaines d’application.
Présentation du Keynote du jeudi 20 octobre 2016 - M. Paul Ramsey
L'agrégation de données géodécisionnelles : questions pour mieux la définir
1. L’agrégation de données
géodécisionnelles :
questions pour mieux la définir
Eve Grenier
Université Laval
Yvan Bédard
Université Laval
Nicholas Chrisman
Réseau GEOIDE, Université Laval
Géomatique 2011
13 octobre 2011
2. Plan de la présentation
Approche analytique
Agrégation de données
Questions
3. Approche analytique
Type de
véhicule
Cause
Date
Secteur
et
heure
Position
Nb de
passagers
Nb de Nb de
blessés décès
4. Approche analytique
Axes d’analyse Type de
véhicule
Cause
Date
Secteur
et
heure
Position
Nb de
passagers
Nb de Nb de
blessés décès
Données recherchées
8. Agrégation de données
• Processus d’agrégation Blessés
– Donnée recherchée
Somme
– Opérateur d’agrégation
– Axes d’analyse
• Spécificités de l’agrégation géodécisionnelle
– Type de géométrie
– Définition sémantique
– Interrelations spatiales
– Comportement temporel
9. Agrégation de données
• Validation du résultat
Option 1 Option 2
Moyenne (A1)
Population Moyenne Somme
Somme (A2, A3, A4)
Années Occupation Age Région
10. Question – Donnée recherchée
• Données géospatiales
– Données géométriques
– Données descriptives Superficie : 15 ha
– Métadonnées Superficie estimée en ha
• Représentation multiple
Feu no 325
Jour 1 Jour 2 Jour 3 Étendue totale
11. Question – Donnée recherchée
• Données géospatiales
– Données géométriques
– Données descriptives Superficie : 15 ha
– Métadonnées Superficie estimée en ha
Quelle représentation géométrique doit-on choisir?
• Représentation multiple
Feu no 325
Convient-elle pour l’échelle de l’affichage souhaitée?
Doit-on privilégier la donnée descriptive ou géométrique?
Jour 1 Jour 2 Jour 3 Étendue totale
12. Question – Opérateur d’agrégation
Position d’accident routier
Enveloppe convexe Ellipse de distribution
13. Question – Opérateur d’agrégation
Quel opérateur/algorithme peut-on choisir pour
mettre en valeur les données et répondre aux besoins?
Est-ce que la nature de l’opérateur implique de
traiter seulement les données détaillées?
Est-ce que le résultat de l’agrégation est significatif?
14. Question – Axe d’analyse
Option 1 1 maladie/personne
Option 2 toutes les maladies nb personnes
Maladie Option 3 règle d’agrégation spécifique par niveau
Règle d’agrégation
spécifique
Région socio-sanitaire Médecin
15. Question – Axe d’analyse
Est-ce qu’il existe une relation unique entre la donnée
recherchée et l’axe d’analyse?
Est-ce que le type d’axe d’analyse nécessite
des règles spécifiques afin d’agréger correctement?
16. Conclusion
• Agrégation de données géodécisionnelles adéquate
– Pas de solution unique
– Traitement des données géospatiales plus complexe
– Réflexions nécessaire
– Impacts directs sur les décisions
19. Types de donnée recherchée
• Types de données numériques [Lenz et Shoshani, 1997]
– Inventaire (stock ) : inventaire d’auto, nombre de citoyens
– Cumul (flow ) : naissance mensuelle, revenu annuel
– Valeur par unité (value-per-unit ) : coût par unité produite,
taux de change
• Types de données géospatiales
– Phénomène ponctuel : position accident routier
– Phénomène durable : segment de travaux routiers
– Instantané de phénomène évolutif à fréquence temporelle fixe :
feux de forêt évalué quotidiennement
– Instantané de phénomène évolutif à fréquence temporelle
variable suivant l’évolution
20. Classes opérateurs d’agrégation
• 3 classes d’opérateurs [Gray et al., 1997]
– Distributive
Peut diviser les données à traiter en plusieurs ensembles
disjoints sans affecter le résultat final
Ex. somme, minimum, maximum
– Algébrique
Peut être exprimé comme une fonction d’opérateurs distributifs
Ex. moyenne (somme / dénombrement)
– Holistique
Doit absolument être utilisé sur la totalité des données à évaluer
pour obtenir le bon résultat
Ex. médiane
21. Catégories opérateur agrégation
• Opérateurs mathématiques
(somme, moyenne, minimum, maximum)
• Opérateurs géométriques
(fusion, intersection, centroïde, enveloppe convexe)
• Opérateurs combinant un opérateur mathématiques avec
un opérateur d’analyse géospatiale
(moyenne superficie, maximum intersection, somme-
distance, densité surfacique)
22. Références
• [Gray et al., 1997]
Gray, J., S. Chaudhuri, et al. (1997). Data Cube: A
relational aggregation operator generalizing group-
by, cross-tab, and sub-totals, Data Mining and
Knowledge Discovery, 1(1), pp. 29-53.
• [Lenz et Shoshani, 1997]
Lenz, H. & A. Shoshani (1997). Summarizability in OLAP
and Statistical Data Bases. Proceedings of the 9th
International Conference on Scientific and Statistical
Database Management, Olympia, USA, pp. 132-143.