Différence entre table de faits et table de dimensions

Différence entre table de faits et table de dimensions.

Organiser un vaste ensemble de données dans une structure facilement accessible est crucial. Le schéma en étoile fournit une approche efficace, comprenant deux éléments clés : la table de faits et les tables de dimensions. Les tables de dimensions entourent une table de faits centrale, créant ainsi une forme en étoile ou en flocon de neige. Des distinctions claires entre ces composants nécessitent une compréhension complète de leurs concepts et rôles individuels, garantissant une compréhension solide de leurs objectifs spécifiques. Explorons maintenant la différence entre les deux!

Table de Faits vs Table de Dimensions

Paramètres Table de Faits Table de Dimensions
Basique Contient des données quantitatives concernant les événements commerciaux Fournit un contexte descriptif et des attributs pour les données dans la table de faits
Séquence de création Créée après la table de dimensions Créée en premier
Composants Faits, mesures et indicateurs Attributs descriptifs
Quantité de composants Moins d’attributs et plus d’enregistrements Moins d’enregistrements et plus d’attributs
Marqué par Granularité ou niveau atomique Mots, exhaustivité, niveau de détail
Hiérarchie Absent Présente
Emplacement dans le schéma en étoile Milieu Bords
Objectif Analyse et prise de décision Stockage de données et de processus
Croissance Verticale Horizontale

Qu’est-ce qu’une Table de Faits?

La table de faits est une collection complète d’attributs dérivés de la table de dimensions. Elle contient des données quantitatives où les attributs de la table de dimensions influencent les valeurs. Cette table contient des données dénormalisées pour l’analyse. Composée de deux colonnes, une colonne contient des clés étrangères, tandis que l’autre contient des données ou des valeurs correspondantes. La colonne des clés étrangères est liée aux attributs de la table de dimensions, tandis que la deuxième colonne contient des valeurs numériques. L’expansion verticale dans la table de faits est plus prononcée, reflétant un nombre croissant d’enregistrements, par opposition à l’expansion horizontale avec moins d’attributs.

Qu’est-ce qu’une Table de Dimensions?

La table de dimensions est la partie significative du schéma en étoile qui fournit des dimensions mesurables pour les tables de faits. La table connaît une expansion horizontale avec des milliers de lignes avec des mises à jour non fréquentes. Elle est organisée de manière hiérarchique et comprend des données quantitatives. La table de dimensions contient également deux clés, clés primaire et clés de substitution. La clé primaire concerne la présence d’une identité unique dans chaque ligne ou enregistrement. La clé de substitution générée par le système est associée à l’identification des lignes dans la table.

Caractéristiques de la Table de Faits et de la Table de Dimensions

Les caractéristiques de la table de faits et de la table de dimensions sont les suivantes:

Caractéristiques de la Table de Faits:

  1. Comprend des données provenant de différentes tables de dimensions.
  2. Contient des clés primaires ou étrangères, y compris des clés concaténées pour l’identification des lignes.
  3. Une table de faits de haute qualité contient des informations détaillées au plus haut niveau, l’étendue des informations étant déterminée par la granularité de la table de faits.
  4. Les enregistrements de données dans la table de faits n’ont pas de valeurs nulles.
  5. Des dimensions non additives peuvent être présentes, reflétant des dimensions qui ne peuvent pas être simplement ajoutées les unes aux autres.
  6. Les attributs de la table de faits sont catégorisés comme entièrement additives, semi-additives et non additives, en fonction de leur comportement à travers les dimensions.
  7. Les attributs entièrement additives ont des valeurs dans toutes les dimensions. En revanche, les attributs semi-additifs ont des valeurs dans des dimensions spécifiques, et les attributs non additives représentent l’unité de mesure de base dans le processus organisationnel.
  8. Les dimensions de la table de faits servent de subdivisions des lignes et colonnes en fonction des dimensions de base.

Caractéristiques de la table de dimension :

  1. Contient des données descriptives textuelles ou catégorielles qui fournissent un contexte à la table de faits.
  2. Possède des attributs qui permettent de regrouper, filtrer et catégoriser les données dans la table de faits.
  3. Utilisée pour fournir un contexte commercial et des détails sur des aspects spécifiques des données dans la table de faits.
  4. A généralement moins d’enregistrements par rapport à la table de faits.
  5. Permet d’interroger et d’analyser les données sous différents angles, améliorant les informations sur les données.
  6. Utilisée pour définir des hiérarchies qui permettent d’approfondir les données.
  7. Peut contenir des données redondantes en raison de la dénormalisation des données, améliorant les performances des requêtes.
  8. N’est généralement pas directement connectée mais liée à la table de faits via des clés étrangères.
  9. Souvent présente dans les schémas en étoile ou en flocon de neige pour une organisation efficace des données.

Types : Table de faits vs Table de dimension

Il existe différents types de faits et de dimensions. De plus, il existe différents types de table de faits et de table de dimension.

Types de tables de faits

Tables de faits de transaction

Elles capturent les événements commerciaux ou de transaction individuels dès qu’ils se produisent. Les mises à jour de commandes et les actions discrètes dans les opérations de vente en sont un exemple. Ces tables ont également un niveau de détail élevé et augmentent considérablement en taille. L’utilisation de ces tables est adaptée à l’analyse des données à un niveau granulaire. Cependant, elles peuvent nécessiter des requêtes complexes pour des performances optimales.

Tables de capture périodique

Ces tables stockent des données agrégées à des intervalles prédéfinis. Ces tables sont préférées pour stocker les données résumées de moments et de périodes spécifiques. C’est important lorsque l’on souhaite analyser les tendances et les changements dans le temps sans affecter les transactions individuelles.

Tables de capture cumulative

Ces tables sont importantes pour suivre l’évolution d’un processus ou d’un flux de travail au fil du temps. Elles contiennent des informations plus superficielles, couvrant les étapes ou les jalons de différents processus. Dans ces tables, les lignes représentent la progression de l’entité à travers différentes étapes, ce qui facilite le suivi et l’analyse du processus. Elles sont utilisées dans la gestion de projet, l’exécution des commandes et les cycles de production.

Tables de faits sans mesures

Ces tables ne contiennent pas de faits ou de données mesurables. Elles sont utilisées pour capturer les relations entre les dimensions essentielles pour l’analyse contextuelle. Elles sont utilisées pour obtenir des informations sur les modèles et les tendances.

Types de faits

  • Faits sommatifs : Ils sont utilisés avec des fonctions d’agrégation telles que average(), sum() et autres.
  • Faits semi-sommatifs : Ils nécessitent quelques fonctions d’agrégation telles que minimum() et maximum().
  • Faits additifs : Ces faits peuvent être additionnés entre les dimensions et sont utilisés avec des fonctions d’agrégation.
  • Faits non-additifs : Ils englobent l’utilisation de faits, de pourcentages ou de ratios où les fonctions d’agrégation ne fonctionnent pas.

Types de tables de dimension

Le type de table de dimension varie selon la dimension. Voici les types courants des deux :

Dimensions en évolution lente ou SCD

Ici, les dimensions subissent des changements lents plutôt que des changements périodiques. Les changements dans les tables peuvent être effectués de trois manières, type 1, type 2 et type 3.

  • Le type 1 consiste à écraser la valeur précédente et est donc rentable. Cependant, il ne tient pas compte de l’historique des données.
  • Le type 2 consiste à ajouter une nouvelle ligne et, par la suite, la valeur. L’historique est conservé mais cela consomme de l’espace et entraîne des dépenses supplémentaires. De plus, les détails d’information sont répétés car toutes les entités restent les mêmes, seules quelques valeurs changent.
  • Le type 3 consiste à ajouter une colonne qui fournit à la fois l’historique et évite les pertes de coûts excessives.

Dimension dégénérée

Ici, la dimension ou l’attribut est stocké dans la table de faits plutôt que dans une table de dimension distincte. Par exemple, les numéros de facture ou de transaction sont des dimensions dégénérées.

Dimension encombrante

La table de dimension encombrante comprend un mélange d’attributs non liés et différents. Ainsi, la table est moins complexe et convient souvent aux dimensions en constante évolution.

Dimensions de jeu de rôle

La table comprend de nombreuses relations valides avec la table de faits. Elle implique l’utilisation d’attributs spécifiques pour différents attributs multiples. Par exemple, la dimension de date sera utilisée à la fois pour la “date de commande” et la “date d’expédition”.

Dimension conforme

L’attribut est utilisé à plusieurs endroits dans les tables de faits de l’entrepôt de données. Cela maintient la cohérence et évite les divergences.

Exemple : Table de faits vs Table de dimension

Essayons de comprendre la table de faits et la table de dimension avec certains exemples. Supposons qu’il y ait une production de nouilles dans une industrie. La table de faits comprend des données organisées sur le traitement des aliments, le stockage et les informations de livraison. La table de faits peut être structurée comme suit :

Numéro de série Mesures planifiées
1 Données de traitement
2 Données d’emballage
3 Données de stockage
4 Données de livraison

La table de faits organise une structure des mesures planifiées de l’ensemble du processus de production. La table de dimension sera créée à partir de la table de faits comme suit.

Données de traitement

Des informations détaillées sur le traitement seront rapportées dans la table.

Matériau de traitement Fournisseur Date d’expiration
Farine blanche Fournisseur A xx-xx-yy
Sel Fournisseur B xx-xx-yy
Huile Fournisseur C xx-xx-yy

Données d’emballage

L’emballage comprend des informations structurées spécifiquement sur l’emballage.

ID du matériau d’emballage Fournisseur Type de matériau Prix unitaire
111 Fournisseur K Plastique 10 $
112 Fournisseur L Carton 9,5 $
113 Fournisseur M Papier d’emballage 7,2 $

Données de stockage

Les informations de stockage sont préparées via une table de dimension, où des analyses détaillées ont été effectuées sur chaque produit stocké.

Numéro de produit Supervision Numéro de salle Numéro de tablette
51 Officier A B1 B-B2
52 Officier B C2 C-H13
53 Officier C H1 H-Y2

Données de livraison

La table de dimension représente des observations organisées sur les données de livraison.

Code de remorque Supervision Ville de livraison Date de livraison
AA2 Agent X Atlanta xx-xx-yy
AA53 Agent Y Albany xx-xx-yy
BC1 Agent Z Homerville xx-xx-yy

Limites de la table de faits et de la table de dimension

Les limites des tables de faits et de dimensions sont énumérées individuellement comme suit :

Table de faits

  • Les tables de faits sont préparées pour contenir des données jusqu’à une certaine limite, au-delà de laquelle elles ne sont pas prises en charge et nécessitent des modifications supplémentaires telles que la restructuration des tables et le traitement des données.
  • En cas de modifications spécifiques dans la source de données, la table doit être re-accumulée.
  • Une explication approfondie n’est pas obtenue à l’aide d’une table de faits. Plus les informations sont nombreuses, plus la performance de la requête est complexe.
  • Dans l’analyse ou les modifications en temps réel, nous ne pouvons pas être sûrs de l’intégrité des données de la table de faits.
  • Plus l’échelle est grande, plus il est difficile de maintenir les performances dans la table de faits.

Table de dimension

Il y a certaines limitations dans les tables de dimensions :

  • Des problèmes de redondance des données se produisent lorsque les valeurs se répètent. La résolution du problème par dénormalisation peut aggraver le problème.
  • Les données historiques et l’intégrité des données sont assez difficiles lorsque des modifications sont apportées aux attributs de dimension de manière opportune. Ainsi, pour maintenir l’exactitude, des types de dimensions à changement lent (SCDs) sont nécessaires.
  • Les tables de dimensions sont spécifiques aux informations pré-accumulées couvrant tous les aspects importants des besoins analytiques. Ainsi, en raison d’une flexibilité limitée, un traitement supplémentaire peut nécessiter une accumulation de données personnalisée.
  • La performance de l’efficacité n’est pas compatible avec l’augmentation de l’évolutivité. Par conséquent, des stratégies efficaces sont nécessaires pour maintenir la vitesse d’analyse et la réactivité.
  • L’intégrité des données peut être entravée par des données inexactes, ce qui entraîne des erreurs dans l’analyse.

Conclusion

En conclusion, comprendre les rôles des tables de dimension et de faits dans les systèmes d’entreposage de données et d’intelligence d’affaires est primordial pour une analyse de données efficace. Avec leurs applications étendues, une différenciation précise est cruciale pour des opérations fluides. Les tables de faits contiennent des données numériques, tandis que les tables de dimension fournissent un contexte descriptif aux informations stockées dans les tables de faits. Lorsqu’il s’agit de requêtes relatives à “quoi” et “combien”, consultez la table de faits. Pour des informations sur “qui”, “où”, “quand” et “pourquoi”, référez-vous à la table de dimension. Cette compréhension fondamentale permet une utilisation optimale de ces tables pour une prise de décision améliorée et des capacités analytiques.

Prêt à approfondir votre compréhension de l’analyse de données ? Développez vos compétences avec le programme Blackbelt d’Analytics Vidhya et excellez dans le monde des insights basés sur les données.

Questions fréquemment posées

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Débloquer la créativité Comment l'IA générative et Amazon SageMaker aident les entreprises à produire des créations publicitaires pour des campagnes marketing avec AWS

Les agences de publicité peuvent utiliser l'IA générative et les modèles de base texte-image pour créer des créations...

AI

Découvrez CityDreamer un modèle génératif compositionnel pour des villes 3D illimitées.

La création de décors naturels en 3D a fait l’objet de nombreuses recherches ces dernières années. Des avancées...

Recherche en IA

Les chercheurs du MIT proposent l'algorithme Simple Pseudo-Label Editing (SimPLE) pour une meilleure qualité d'étiquetage pseudo dans l'auto-formation.

Des chercheurs du CSAIL (Computer Science and Artificial Intelligence Lab) du MIT ont développé une nouvelle approche...

AI

Fondamentaux de la détection d'anomalies avec la distribution gaussienne multivariée

Notre capacité innée à reconnaître des motifs nous permet d'utiliser cette compétence pour combler les lacunes ou pré...