Différence entre table de faits et table de dimensions
Différence entre table de faits et table de dimensions.
Organiser un vaste ensemble de données dans une structure facilement accessible est crucial. Le schéma en étoile fournit une approche efficace, comprenant deux éléments clés : la table de faits et les tables de dimensions. Les tables de dimensions entourent une table de faits centrale, créant ainsi une forme en étoile ou en flocon de neige. Des distinctions claires entre ces composants nécessitent une compréhension complète de leurs concepts et rôles individuels, garantissant une compréhension solide de leurs objectifs spécifiques. Explorons maintenant la différence entre les deux!
Table de Faits vs Table de Dimensions
Paramètres | Table de Faits | Table de Dimensions |
---|---|---|
Basique | Contient des données quantitatives concernant les événements commerciaux | Fournit un contexte descriptif et des attributs pour les données dans la table de faits |
Séquence de création | Créée après la table de dimensions | Créée en premier |
Composants | Faits, mesures et indicateurs | Attributs descriptifs |
Quantité de composants | Moins d’attributs et plus d’enregistrements | Moins d’enregistrements et plus d’attributs |
Marqué par | Granularité ou niveau atomique | Mots, exhaustivité, niveau de détail |
Hiérarchie | Absent | Présente |
Emplacement dans le schéma en étoile | Milieu | Bords |
Objectif | Analyse et prise de décision | Stockage de données et de processus |
Croissance | Verticale | Horizontale |
Qu’est-ce qu’une Table de Faits?
La table de faits est une collection complète d’attributs dérivés de la table de dimensions. Elle contient des données quantitatives où les attributs de la table de dimensions influencent les valeurs. Cette table contient des données dénormalisées pour l’analyse. Composée de deux colonnes, une colonne contient des clés étrangères, tandis que l’autre contient des données ou des valeurs correspondantes. La colonne des clés étrangères est liée aux attributs de la table de dimensions, tandis que la deuxième colonne contient des valeurs numériques. L’expansion verticale dans la table de faits est plus prononcée, reflétant un nombre croissant d’enregistrements, par opposition à l’expansion horizontale avec moins d’attributs.
Qu’est-ce qu’une Table de Dimensions?
La table de dimensions est la partie significative du schéma en étoile qui fournit des dimensions mesurables pour les tables de faits. La table connaît une expansion horizontale avec des milliers de lignes avec des mises à jour non fréquentes. Elle est organisée de manière hiérarchique et comprend des données quantitatives. La table de dimensions contient également deux clés, clés primaire et clés de substitution. La clé primaire concerne la présence d’une identité unique dans chaque ligne ou enregistrement. La clé de substitution générée par le système est associée à l’identification des lignes dans la table.
Caractéristiques de la Table de Faits et de la Table de Dimensions
Les caractéristiques de la table de faits et de la table de dimensions sont les suivantes:
- Introduction au Contrôle de Version des Données
- Nouveau modèle de texte vers image de Metas – Explication du document CM3leon
- Cette semaine en IA, 18 août OpenAI en difficulté financière • Stability AI annonce StableCode
Caractéristiques de la Table de Faits:
- Comprend des données provenant de différentes tables de dimensions.
- Contient des clés primaires ou étrangères, y compris des clés concaténées pour l’identification des lignes.
- Une table de faits de haute qualité contient des informations détaillées au plus haut niveau, l’étendue des informations étant déterminée par la granularité de la table de faits.
- Les enregistrements de données dans la table de faits n’ont pas de valeurs nulles.
- Des dimensions non additives peuvent être présentes, reflétant des dimensions qui ne peuvent pas être simplement ajoutées les unes aux autres.
- Les attributs de la table de faits sont catégorisés comme entièrement additives, semi-additives et non additives, en fonction de leur comportement à travers les dimensions.
- Les attributs entièrement additives ont des valeurs dans toutes les dimensions. En revanche, les attributs semi-additifs ont des valeurs dans des dimensions spécifiques, et les attributs non additives représentent l’unité de mesure de base dans le processus organisationnel.
- Les dimensions de la table de faits servent de subdivisions des lignes et colonnes en fonction des dimensions de base.
Caractéristiques de la table de dimension :
- Contient des données descriptives textuelles ou catégorielles qui fournissent un contexte à la table de faits.
- Possède des attributs qui permettent de regrouper, filtrer et catégoriser les données dans la table de faits.
- Utilisée pour fournir un contexte commercial et des détails sur des aspects spécifiques des données dans la table de faits.
- A généralement moins d’enregistrements par rapport à la table de faits.
- Permet d’interroger et d’analyser les données sous différents angles, améliorant les informations sur les données.
- Utilisée pour définir des hiérarchies qui permettent d’approfondir les données.
- Peut contenir des données redondantes en raison de la dénormalisation des données, améliorant les performances des requêtes.
- N’est généralement pas directement connectée mais liée à la table de faits via des clés étrangères.
- Souvent présente dans les schémas en étoile ou en flocon de neige pour une organisation efficace des données.
Types : Table de faits vs Table de dimension
Il existe différents types de faits et de dimensions. De plus, il existe différents types de table de faits et de table de dimension.
Types de tables de faits
Tables de faits de transaction
Elles capturent les événements commerciaux ou de transaction individuels dès qu’ils se produisent. Les mises à jour de commandes et les actions discrètes dans les opérations de vente en sont un exemple. Ces tables ont également un niveau de détail élevé et augmentent considérablement en taille. L’utilisation de ces tables est adaptée à l’analyse des données à un niveau granulaire. Cependant, elles peuvent nécessiter des requêtes complexes pour des performances optimales.
Tables de capture périodique
Ces tables stockent des données agrégées à des intervalles prédéfinis. Ces tables sont préférées pour stocker les données résumées de moments et de périodes spécifiques. C’est important lorsque l’on souhaite analyser les tendances et les changements dans le temps sans affecter les transactions individuelles.
Tables de capture cumulative
Ces tables sont importantes pour suivre l’évolution d’un processus ou d’un flux de travail au fil du temps. Elles contiennent des informations plus superficielles, couvrant les étapes ou les jalons de différents processus. Dans ces tables, les lignes représentent la progression de l’entité à travers différentes étapes, ce qui facilite le suivi et l’analyse du processus. Elles sont utilisées dans la gestion de projet, l’exécution des commandes et les cycles de production.
Tables de faits sans mesures
Ces tables ne contiennent pas de faits ou de données mesurables. Elles sont utilisées pour capturer les relations entre les dimensions essentielles pour l’analyse contextuelle. Elles sont utilisées pour obtenir des informations sur les modèles et les tendances.
Types de faits
- Faits sommatifs : Ils sont utilisés avec des fonctions d’agrégation telles que average(), sum() et autres.
- Faits semi-sommatifs : Ils nécessitent quelques fonctions d’agrégation telles que minimum() et maximum().
- Faits additifs : Ces faits peuvent être additionnés entre les dimensions et sont utilisés avec des fonctions d’agrégation.
- Faits non-additifs : Ils englobent l’utilisation de faits, de pourcentages ou de ratios où les fonctions d’agrégation ne fonctionnent pas.
Types de tables de dimension
Le type de table de dimension varie selon la dimension. Voici les types courants des deux :
Dimensions en évolution lente ou SCD
Ici, les dimensions subissent des changements lents plutôt que des changements périodiques. Les changements dans les tables peuvent être effectués de trois manières, type 1, type 2 et type 3.
- Le type 1 consiste à écraser la valeur précédente et est donc rentable. Cependant, il ne tient pas compte de l’historique des données.
- Le type 2 consiste à ajouter une nouvelle ligne et, par la suite, la valeur. L’historique est conservé mais cela consomme de l’espace et entraîne des dépenses supplémentaires. De plus, les détails d’information sont répétés car toutes les entités restent les mêmes, seules quelques valeurs changent.
- Le type 3 consiste à ajouter une colonne qui fournit à la fois l’historique et évite les pertes de coûts excessives.
Dimension dégénérée
Ici, la dimension ou l’attribut est stocké dans la table de faits plutôt que dans une table de dimension distincte. Par exemple, les numéros de facture ou de transaction sont des dimensions dégénérées.
Dimension encombrante
La table de dimension encombrante comprend un mélange d’attributs non liés et différents. Ainsi, la table est moins complexe et convient souvent aux dimensions en constante évolution.
Dimensions de jeu de rôle
La table comprend de nombreuses relations valides avec la table de faits. Elle implique l’utilisation d’attributs spécifiques pour différents attributs multiples. Par exemple, la dimension de date sera utilisée à la fois pour la “date de commande” et la “date d’expédition”.
Dimension conforme
L’attribut est utilisé à plusieurs endroits dans les tables de faits de l’entrepôt de données. Cela maintient la cohérence et évite les divergences.
Exemple : Table de faits vs Table de dimension
Essayons de comprendre la table de faits et la table de dimension avec certains exemples. Supposons qu’il y ait une production de nouilles dans une industrie. La table de faits comprend des données organisées sur le traitement des aliments, le stockage et les informations de livraison. La table de faits peut être structurée comme suit :
Numéro de série | Mesures planifiées |
---|---|
1 | Données de traitement |
2 | Données d’emballage |
3 | Données de stockage |
4 | Données de livraison |
La table de faits organise une structure des mesures planifiées de l’ensemble du processus de production. La table de dimension sera créée à partir de la table de faits comme suit.
Données de traitement
Des informations détaillées sur le traitement seront rapportées dans la table.
Matériau de traitement | Fournisseur | Date d’expiration |
---|---|---|
Farine blanche | Fournisseur A | xx-xx-yy |
Sel | Fournisseur B | xx-xx-yy |
Huile | Fournisseur C | xx-xx-yy |
Données d’emballage
L’emballage comprend des informations structurées spécifiquement sur l’emballage.
ID du matériau d’emballage | Fournisseur | Type de matériau | Prix unitaire |
---|---|---|---|
111 | Fournisseur K | Plastique | 10 $ |
112 | Fournisseur L | Carton | 9,5 $ |
113 | Fournisseur M | Papier d’emballage | 7,2 $ |
Données de stockage
Les informations de stockage sont préparées via une table de dimension, où des analyses détaillées ont été effectuées sur chaque produit stocké.
Numéro de produit | Supervision | Numéro de salle | Numéro de tablette |
---|---|---|---|
51 | Officier A | B1 | B-B2 |
52 | Officier B | C2 | C-H13 |
53 | Officier C | H1 | H-Y2 |
Données de livraison
La table de dimension représente des observations organisées sur les données de livraison.
Code de remorque | Supervision | Ville de livraison | Date de livraison |
---|---|---|---|
AA2 | Agent X | Atlanta | xx-xx-yy |
AA53 | Agent Y | Albany | xx-xx-yy |
BC1 | Agent Z | Homerville | xx-xx-yy |
Limites de la table de faits et de la table de dimension
Les limites des tables de faits et de dimensions sont énumérées individuellement comme suit :
Table de faits
- Les tables de faits sont préparées pour contenir des données jusqu’à une certaine limite, au-delà de laquelle elles ne sont pas prises en charge et nécessitent des modifications supplémentaires telles que la restructuration des tables et le traitement des données.
- En cas de modifications spécifiques dans la source de données, la table doit être re-accumulée.
- Une explication approfondie n’est pas obtenue à l’aide d’une table de faits. Plus les informations sont nombreuses, plus la performance de la requête est complexe.
- Dans l’analyse ou les modifications en temps réel, nous ne pouvons pas être sûrs de l’intégrité des données de la table de faits.
- Plus l’échelle est grande, plus il est difficile de maintenir les performances dans la table de faits.
Table de dimension
Il y a certaines limitations dans les tables de dimensions :
- Des problèmes de redondance des données se produisent lorsque les valeurs se répètent. La résolution du problème par dénormalisation peut aggraver le problème.
- Les données historiques et l’intégrité des données sont assez difficiles lorsque des modifications sont apportées aux attributs de dimension de manière opportune. Ainsi, pour maintenir l’exactitude, des types de dimensions à changement lent (SCDs) sont nécessaires.
- Les tables de dimensions sont spécifiques aux informations pré-accumulées couvrant tous les aspects importants des besoins analytiques. Ainsi, en raison d’une flexibilité limitée, un traitement supplémentaire peut nécessiter une accumulation de données personnalisée.
- La performance de l’efficacité n’est pas compatible avec l’augmentation de l’évolutivité. Par conséquent, des stratégies efficaces sont nécessaires pour maintenir la vitesse d’analyse et la réactivité.
- L’intégrité des données peut être entravée par des données inexactes, ce qui entraîne des erreurs dans l’analyse.
Conclusion
En conclusion, comprendre les rôles des tables de dimension et de faits dans les systèmes d’entreposage de données et d’intelligence d’affaires est primordial pour une analyse de données efficace. Avec leurs applications étendues, une différenciation précise est cruciale pour des opérations fluides. Les tables de faits contiennent des données numériques, tandis que les tables de dimension fournissent un contexte descriptif aux informations stockées dans les tables de faits. Lorsqu’il s’agit de requêtes relatives à “quoi” et “combien”, consultez la table de faits. Pour des informations sur “qui”, “où”, “quand” et “pourquoi”, référez-vous à la table de dimension. Cette compréhension fondamentale permet une utilisation optimale de ces tables pour une prise de décision améliorée et des capacités analytiques.
Prêt à approfondir votre compréhension de l’analyse de données ? Développez vos compétences avec le programme Blackbelt d’Analytics Vidhya et excellez dans le monde des insights basés sur les données.
Questions fréquemment posées
We will continue to update IPGirl; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Visualisations de New York City
- Rice et IIT Kanpur annoncent les lauréats du prix de recherche collaborative
- L’importance des LLM spécifiques à un domaine
- Utilisation de LangChain et ChatGPT pour expliquer du code Python
- La science des données a changé, mais n’est pas morte!
- Commencez avec le TALN grâce à notre nouveau cours d’introduction au TALN
- Simplification des Transformers NLP de pointe en utilisant des mots que vous comprenez – partie 2 – Entrée