Analyse de groupe multiple en modélisation d’équations structurelles

Multiple group analysis in structural equation modeling.

Tester les effets à travers les sous-populations

L’analyse à groupes multiples (AGM) est une technique statistique qui permet aux chercheurs d’étudier les différences entre les sous-populations ou les segments démographiques, en permettant la spécification de modèles d’équations structurelles (MES) avec des estimations spécifiques au groupe ou avec des estimations égales entre les groupes.

Les différences dans les moyennes, les régressions, les charges, les variances et les covariances des variables peuvent être étudiées en utilisant l’AGM, car tous ces paramètres peuvent être modélisés dans le MES. Ainsi, bien que d’autres techniques de modélisation (par exemple, l’analyse de variance ou la régression avec des effets d’interaction) permettent d’étudier le rôle d’une variable de regroupement, ces techniques sont moins flexibles que l’AGM dans le MES.

Figure 1. Aperçu général de l’analyse à groupes multiples et de la stratégie pour faire des inférences. Image par l’auteur.

Utilisations courantes de l’analyse à groupes multiples

Chaque fois qu’il y a un intérêt à explorer les différences entre les groupes, l’AGM peut être un outil utile. Lorsque les données sont recueillies sur des individus, les groupes sont le plus souvent définis en fonction de facteurs ayant peu de niveaux (par exemple, le sexe, l’ethnicité, la profession, la situation familiale, l’état de santé, etc.), mais peuvent également être définis en fonction d’une variété d’autres facteurs en fonction du domaine, des données et du contexte analytique. Voici quelques exemples de questions auxquelles l’AGM peut répondre dans quelques domaines différents :

Recherche sur les consommateurs

  • La satisfaction (ou la qualité) du produit est-elle différente selon les segments démographiques ?

People analytics

  • La performance (ou la motivation) des employés est-elle égale dans toutes les branches ou divisions de l’entreprise ?

Soins de santé

  • Les résultats déclarés par les patients diffèrent-ils en fonction du fabricant de médicaments ?

Marketing

  • La nouvelle campagne de marketing est-elle efficace pour augmenter la réputation de la marque dans différentes zones géographiques ?

Psychologie

  • Exist-t-il des différences interculturelles dans l’expérience émotionnelle ?

Éducation

  • La croissance de la réalisation académique est-elle égale entre les femmes et les hommes ?

Mesure des variables non observées dans les groupes multiples

Toutes les questions énumérées ci-dessus impliquent des variables qui ne sont pas observées directement (par exemple, la satisfaction, la performance, etc.), également connues sous le nom de variables latentes. Étant donné que ces variables ne peuvent pas être observées directement, elles sont difficiles à mesurer.

Figure 2. Comparaison de la mesure des variables non observées (latentes) versus observées. Image par l’auteur.

Une telle difficulté est que différents groupes peuvent avoir des conceptualisations différentes de ces variables. Posez-vous la question :

Qu’est-ce que la satisfaction ?

Qu’est-ce qu’une bonne performance ?

Est-il probable que vos réponses à ces questions soient différentes de celles de personnes ayant des expériences de vie différentes ?

Très souvent, la réponse est oui.

Heureusement, nous pouvons tester empiriquement si différents groupes conceptualisent les variables latentes de manière similaire. Ce test est effectué avec l’AGM dans le cadre du MES et est connu sous le nom d’invariance factorielle (alias invariance de mesure). Les tests d’invariance factorielle sont essentiels pour garantir que les comparaisons entre les groupes sont valides ; par conséquent, ces tests doivent être effectués avant de comparer les régressions ou les moyennes entre les groupes (alias paramètres structurels) s’il y a des variables latentes.

Figure 3. Le défi de la modélisation des variables non observées est qu’elles peuvent ne pas mesurer la même chose à travers les sous-populations. Image par l’auteur.

Tester les différences de paramètres

Pour tester les différences de paramètres entre les groupes, les chercheurs ajustent généralement des MES avec et sans contraintes d’égalité entre les groupes. Ensuite, les deux modèles résultants sont comparés à l’aide d’un test du rapport de vraisemblance (équivalent à un test de différence du chi carré) et de différences dans d’autres statistiques d’ajustement (par exemple, l’indice de qualité de l’ajustement et l’erreur quadratique moyenne d’approximation) pour évaluer si l’imposition de contraintes produit une détérioration statistiquement significative de l’ajustement du modèle. Si l’ajustement du modèle ne se détériore pas de manière significative, alors le modèle avec les contraintes d’égalité est conservé, et on conclut que les populations considérées ne diffèrent pas de manière significative sur le(s) paramètre(s) testé(s). En revanche, si l’ajustement du modèle se détériore de manière significative, le modèle sans contraintes (c’est-à-dire où chaque groupe est autorisé à avoir sa propre estimation) est conservé, et on conclut que les populations considérées diffèrent de manière significative sur le(s) paramètre(s) testé(s).

La figure ci-dessous illustre la stratégie derrière MGA dans un exemple à deux groupes où une simple régression linéaire est ajustée. Cette figure montre des contraintes d’égalité placées sur un paramètre. Le modèle 1 a zéro degré de liberté (c’est-à-dire qu’il est entièrement saturé), tandis que le modèle 2 a un degré de liberté résultant de la contrainte d’égalité. Ces modèles sont comparés sur la base de la différence de leurs chi-carrés, qui est également distribuée selon la loi du chi-carré avec des degrés de liberté égaux à un (la différence entre les degrés de liberté entre les modèles). Un test moins spécifique peut être effectué en plaçant des contraintes d’égalité sur plusieurs paramètres à la fois.

Figure 4. Stratégie derrière MGA dans un exemple à deux groupes avec une simple régression linéaire. Image par l’auteur.

Les SEM ont été développés comme des modèles confirmatoires. C’est-à-dire que l’on élabore des hypothèses, on les traduit en un modèle statistique testable et les inférences sont utilisées pour déterminer si les données soutiennent les hypothèses. Cette approche est également appliquée dans MGA et est essentielle pour éviter de grands taux d’erreur de type I, qui conduisent à trouver des effets statistiques qui ne sont pas réellement présents dans la (les) population (s) d’étude. Pour cette raison, il n’est pas recommandé de réaliser toutes les comparaisons possibles entre les groupes.

Intuition derrière l’estimation de MGA

Avis de non-responsabilité : Les paragraphes ci-dessous s’adressent aux méthodologistes qui souhaitent approfondir leur compréhension de MGA. Cette section suppose que les lecteurs comprennent l’estimateur du maximum de vraisemblance à information complète. De plus, les étapes décrites ici ne servent qu’à expliquer la logique derrière MGA. En réalité, réaliser MGA avec ces étapes serait inefficace car le logiciel statistique devrait utiliser des algorithmes qui simplifient ce processus.

L’estimation de MGA n’est pas différente de celle d’un SEM simple avec des données manquantes. Dans une implémentation standard de MGA-SEM, les utilisateurs soumettent les données qu’ils souhaitent analyser ainsi qu’une variable de regroupement, qui indique le groupe auquel chaque observation appartient. Une étape simple de manipulation des données – en utilisant la variable de regroupement – est requise pour configurer l’analyse pour plusieurs groupes. La figure ci-dessous illustre les données fournies pour l’analyse et la restructuration des données pour MGA.

Figure 5. Données entrées par les utilisateurs et données après restructuration pour effectuer une analyse à plusieurs groupes. Image par l’auteur.

Les données résultantes peuvent maintenant être utilisées avec le maximum de vraisemblance à information complète comme estimateur pour s’assurer que toutes les lignes des données sont soumises à l’analyse malgré la présence de données manquantes. Quelques résultats pratiques des données restructurées sont :

  • La vraisemblance de la log de n’importe quelle ligne est influencée uniquement par les cellules non manquantes, de sorte que l’ajout de la vraisemblance de log de toutes les lignes “Groupe 0” donne la vraisemblance de log pour ce groupe. De même, l’ajout de la vraisemblance de log de toutes les lignes “Groupe 1” donne la vraisemblance de log pour le groupe 1. La vraisemblance de log de chaque groupe est utilisée pour estimer une statistique chi-carré pour le modèle global, qui quantifie l’ajustement inadapté pour chaque groupe.
  • Le modèle de données manquantes interdit l’estimation de tout paramètre entre les variables des groupes (par exemple, la covariance de Var1_0 et Var1_1 n’est pas estimable), ce qui est sans conséquence car MGA s’intéresse à la comparaison des effets entre les groupes plutôt qu’aux estimations entre les groupes.
  • Le “SEM vanille” permet de placer des contraintes d’égalité sur les paramètres. Ainsi, en utilisant les données restructurées dans SEM, on peut spécifier deux modèles identiques avec chaque sous-ensemble de variables de groupe, et des contraintes d’égalité peuvent être placées sur des paramètres équivalents entre les groupes. Pour réitérer, tout cela peut être fait dans SEM standard sans demander explicitement au logiciel d’effectuer MGA.

Heureusement, ces étapes n’ont pas besoin d’être effectuées par les utilisateurs qui souhaitent réaliser une analyse à plusieurs groupes en SEM ! Le logiciel SEM rend la modélisation de modèles à plusieurs groupes très simple en permettant aux utilisateurs de spécifier une variable de regroupement. Cependant, la manipulation des données (Figure 5) et l’utilisation de SEM standard pour effectuer MGA-SEM approfondiront votre compréhension de ce sujet. Pour en savoir plus, consultez les ressources citées ci-dessous.

Exemple étape par étape d’analyse à plusieurs groupes appliquée dans JMP.

Chapitre de livre sur l’analyse à plusieurs groupes pour l’invariance factorielle (de mesure) :

Widaman, K. F., & Olivera-Aguilar, M. (2022). Investigating measurement invariance using confirmatory factor analysis. Handbook of Structural Equation Modeling , 367.

Article de journal sur l’utilisation d’indices d’ajustement alternatifs pour tester l’invariance :

Chen, F. F. (2007). Sensibilité des indices de bonté de l’ajustement à l’absence d’invariance de mesure. Modélisation par équations structurelles : une revue pluridisciplinaire, 14 (3), 464–504.

Cet article a été initialement publié dans la communauté d’utilisateurs de JMP le 27 février 2023.

We will continue to update IPGirl; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI

Une approche simple pour créer des transformateurs personnalisés en utilisant les classes de Scikit-Learn

La préparation des données est l'une des étapes les plus importantes du cycle de vie des sciences des données. Étant ...

AI

Nettoyage des données avec Pandas

Ce tutoriel étape par étape s'adresse aux débutants pour les guider à travers le processus de nettoyage et de prétrai...

Science des données

Préparation avancée des données en utilisant des transformateurs personnalisés dans Scikit-Learn

Scikit-Learn offre de nombreux outils utiles pour la préparation des données, mais parfois les options pré-construite...

AI

Simplification des Transformers NLP de pointe en utilisant des mots que vous comprenez - partie 3 - Attention

Les Transformers ont eu un impact sérieux dans le domaine de l'IA, peut-être dans le monde entier. Cette architecture...

AI

De GeoJSON aux graphiques de réseau Analyser les frontières des pays du monde en Python

Python offre une large gamme de bibliothèques qui nous permettent de résoudre facilement et rapidement des problèmes ...

AI

Pourquoi la liaison probabiliste est plus précise que les approches de correspondance floue ou basées sur la fréquence des termes.

Un problème généralisé de qualité des données est d'avoir plusieurs enregistrements différents qui font référence à l...