Analyse des données multidimensionnelles

Thème de recherche

Equipe de Statistique
Responsable de l'équipe: Valentin Patilea
Equipe de Statistique
 
Thèmes, groupes de travail
 
Evènements
 
Autres équipes IRMAR
 
Composantes
 
Pour ce thème, nos recherches sont centrées sur les représentation euclidiennes d'objets multidimensionnels. Une part de ces recherches a trait aux propriétés fondamentales des méthodes factorielles et des matrices de distances. L'autre partie, plus importante en terme de volume d'activité, est dédiée à l'élaboration de nouvelles méthodes d'analyse de tableaux multiples en particulier à l'aide d' extensions de l'Analyse Factorielle Multiple (AFM).

Propriétés des distances euclidiennes

Un des objectif est d'étudier des transformations permettant de rendre euclidienne une mesure de dissimilarité qui ne l'est pas. En particulier, nous avons établi une condition concernant les carrés des pré-distances entre n objets suffisante pour que la matrice correspondante des pré-distances soit euclidienne. Cette inégalité a été examinée en regard des transformation rendant euclidienne une matrice de pré-distances.

AFM et modèle INDSCAL

Parmi ses nombreux résultats, l'AFM fournit une estimation des paramètres du modèle INDSCAL possédant de bonnes propriétés. La clé réside dans une interprétation géométrique du modèle dans un espace contenant les matrices de produits scalaires de dimension donnée. Cette interprétation conduit à une solution analytique unique alors que la solution usuelle est algorithmique. Mais surtout elle permet d'une part d'introduire de façon naturelle plusieurs indicateurs statistiques d'aide à l'interprétation qui se révèlent fort utiles lors des interprétations et d'autre part, d'étendre le potentiel d'application de ce modèle par la possibilité d'éléments supplémentaires (variables ou groupes de variables). Il résulte de ces travaux un regain d'intérêt pour ce modèle séduisant mais finalement peu utilisé jusqu'alors.

AFM et approche PLS

Entre les méthodes de régression PLS et l'AFM, certaines analogies existent et conduisent à des convergences de résultats parfois étonnantes. En particulier, si l'on adopte le point de vue de l' analyse canonique généralisée au sens de Carrol, la recherche de variables canoniques dans l'AFM peut être vue comme une régression PLS des variables générales sur les variables d'un groupe. Ce résultat ajoute des propriétés à ces variables canoniques qui de ce fait voient leur interprétation enrichie. Dans cette veine, un regard croisé entre l'AFM et la méthodologie « PLS path modelling » (PLSPM) de H. Martens a fait l'objet d'une collaboration avec M. Tenenhaus (HEC) : en un certain sens, les deux méthodes peuvent être vues comme des approches exploratoire (AFM) et modélisante (PLS P M) complémentaires

AFM de tableaux de contingence (AFMTC)

Une extension de l'AFM à un ensemble de tableaux de contingence présentant des lignes homologues a été mise au point avec M. Bécue (Université de Barcelone). Comme en AFM usuelle, le problème de l'équilibre des différents tableaux au sein d'une analyse globale se pose. Mais une autre difficulté est spécifique de ces données : celui de la comparaison de tableaux de contingence ayant (au moins) un ensemble en commun mais avec des marges différentes selon les tableaux. La prise en compte de cette spécificité est nécessairement empirique : il reste alors à évaluer les propriétés des solutions proposées et développer des indicateurs permettant à l'utilisateur d'évaluer précisément l' impact, sur ses données, des choix faits. L'AFMTC répond à cet objectif. A partir de là, plusieurs extensions sont actuellement l' objet de nos recherches : prise en compte de groupes de variables, quantitatives ou qualitatives, simultanément à un ensemble de tableaux de contingence ; analyse d'un tableau de contingence dont à la fois les lignes et les colonnes sont partitionnées.

AFM hiérarchique (AFMH)

Cette méthode s'applique à des tableaux individus x variables dans lesquels l'ensemble des variables est structuré selon un arbre hiérarchique induit par une suite de partitions emboîtées. L' exemple type d'un tel ensemble est un questionnaire structuré en thèmes et sous-thèmes. Cette problématique n'avait jamais été étudiée alors que le champ d'application est immense. La généralisation de l' AFM à ce type de données, dite AFM hiérarchique (AFMH), constitue une part majeure de la thèse (soutenue en 2003) de S. Lê, alors doctorant au sein du laboratoire. La mise au point de l'AFMH aux variables quantitatives est terminée. La prise en compte de variables qualitatives, et surtout de données mixtes, est en cours. Ce nouveau développement est essentiel du point de vue des applications puisqu' il permet l'analyse factorielle de groupes de variables pouvant inclure chacun les deux types de variables.

Analyse factorielle de données mixtes (AFDM)

L'analyse factorielle simultanée de variables quantitatives et qualitatives est un problème fréquent et ancien, réglé en pratique par la discrétisation des variables quantitatives suivie d'une analyse des correspondances multiples (ACM). Cette discrétisation est, dans l' ensemble, une excellente méthodologie mais qui n'est pas très satisfaisante dans deux cas : celui ou les individus statistiques ne sont pas très nombreux (moins de 100 pour fixer les idées) et celui ou le nombre de variables qualitatives est très inférieur à celui des variables quantitatives. En reprenant d'anciens travaux indépendants de B. Escofier et G. Saporta nous avons proposé l'AFDM, méthode qui, grossièrement, se comporte comme l'analyse en composantes principales (ACP) pour les variables quantitatives et comme l'analyse des correspondances multiples pour les variables qualitatives. Outre les représentations usuelles de ces deux méthodes, l'AFDM fournit une représentation simultanée des deux types de variables. Cette méthode a d'emblée suscité l'intérêt d'éditeurs de logiciels : ainsi, fut-elle disponible dans le logiciel Uniwin de Statgraphics trois mois après sa première publication. En introduisant l'AFDM dans l'AFM, voire l'AFMH, on augmente le potentiel d'application de ces deux méthodes en leur permettant de prendre en compte de données encore plus générales (groupes de variables quantitatives, qualitatives ou mixtes).

Analyse factorielle multiple procustéenne (AFMP)

Pour comparer des nuages de points homologues, la méthode la plus répandue dans les pays anglo-saxons, l'analyse procustéenne, fournit une représentation non déformée (en dimension 2) des nuages qui n' avait pas son équivalent en AFM. Or cette dernière présente de son côté des propriétés intéressantes, tant du point de vue théorique que du point de vue des utilisateurs. Sur ce thème, l'idée de base fut d' incorporer des rotations procustéennes en AFM. Il en a résulté une nouvelle méthode, l'Analyse Factorielle Multiple Procustéenne (AFMP) qui est au coeur de la thèse d'Elisabeth Morand, actuellement doctorante au sein du laboratoire.

Ellipses de confiance en analyse factorielle

Le fait de disposer d'une visualisation de l'incertitude autour des éléments représentés sur les graphes d'analyse factorielle est une souhait largement exprimé (à juste titre !) par les utilisateurs. Dans cet esprit, des ellipses de confiance autour de centres de gravité d' ensembles d'individus possédant une modalité en commun ont été proposées dans les années 1980. Curieusement, les éditeurs de logiciels sont très peu nombreux à exploiter cette possibilité. Nous avons proposé des ellipses de confiance dans de nouveaux cas de figure en ACP et les avons généralisé en AFM et AFMH. Ces ellipses sont disponibles (en « exclusivité » ! ) dans les deux logiciels libres que nous avons mis en 2006 sur le marché.

Analyse Procustéenne Généralisée Anisotropique (APGA)

L'analyse procustéenne généralisée (APG) est une méthode bien adaptée pour l'analyse des données de profils sensoriels avec un vocabulaire fixé ou libre. Dans l'APG, la comparaison des différentes configurations nécessite deux ajustements préalables : ajustement par rotation et introduction d'un facteur d'échelle. Un des inconvénients de cette méthode est qu'elle ne permet pas de traiter les cas où les juges n'attachent pas le même facteur d'échelle aux dimensions mises en évidence. Dans ce travail, nous avons proposé une extension qui introduit des facteurs d'échelle qui ne sont pas nécessairement identiques dans toutes les directions. Plus précisément, chaque configuration est multipliée à droite par une matrice diagonale puis par une matrice orthogonale. La principale difficulté est que le problème d'ajustement qui en résulte n'admet pas de solution algébrique et qu'il faut recourir à des outils d' optimisation numérique.

Etude simultanée d'un ensemble de tableaux de dissimilarités

L'étude simultanée d'un ensemble de tableaux de dissimilarités pose d'épineux problèmes mathématiques et algorithmiques. Dans ce travail, nous étudions la convergence de certains algorithmes d'approximation (conditions nécessaires et suffisantes d'optimalité, globalité, etc.)

Membres du thème : J. Benasseni, M. Bennani-Dosse, G. Brossier, F. Husson, S. Lê, A. Mom, E. Morand, J. Pagès.
Animateur : J. Pagès.