Analyse des correspondances - Autre outil : « les mots et réponses caractéristiques »

Autre outil : « les mots et réponses caractéristiques »

4. Analyse des correspondances

140 Les Journées de Tam Đảo 2008

Cette opération donne les résultats suivants, ó on lit par exemple pour le tableau 5.a, que 39,1 % des élèves de la région Red River sont en primaire, et que 21,4% des élèves de cette même région ont un niveau secondaire 2^nd cycle, etc... Comment juger de la signification d’un chiffre particulier dans le tableau précédent ? En fait, les pourcentages qui y apparaissent à chaque ligne doivent être comparés aux pourcentages de la ligne correspondant au Việt Nam entier c’est-à-dire au profil moyen.

Ainsi le pourcentage de 51,2% des élèves du primaire dans la région de Central Highlands n’est intéressant que comparé à la moyenne nationale de 43,9% : il y a une sur-représentation du niveau primaire dans la région de Central Highlands alors qu’il est sous-représenté dans la région Red River (39,1%) et il correspond au profil moyen du Việt Nam dans la région South Central Coast. En revanche cette dernière région est bien représentée par le niveau secondaire 1^er cycle.

On s’intéresse aux profils des lignes parce que l’on cherche les régions dont la répartition des niveaux d’étude des élèves s’écarte le plus de celle de l’ensemble de la population. Mais on cherche également les régions (les lignes) qui se ressemblent ou s’opposent le plus entre elles. C’est le cas de du North West et de Central Highlands qui ont deux profils sensiblement identiques et différents de celui de Red River. La lecture du tableau 5.b est analogue et l’on dispose des profils-colonnes c’est-à-dire la répartition des élèves par régions pour chaque niveau d’étude.

Notons une différence importante entre l’analyse des correspondances et l’analyse en composantes principales : les transformations opérées sur les lignes du tableau et sur les colonnes du tableau sont identiques (car les ensembles mis en correspondance jouent des rơles analogues : il n’y a pas de variables et d’individus, mais des catégories en lignes comme en colonnes).

4.2. Hypothèse d’indépendance

La liaison entre deux variables qualitatives consiste à savoir s’il y a indépendance ou non entre les deux variables. On sait qu’il y a indépendance entre deux variables aléatoires si pour tout i et pour tout j : ƒij = ƒi x ƒj

On dispose du tableau des fréquences observées (cf. tableau 6) c’est-à-dire le tableau des pourcentages sur l’ensemble de la population : ƒij = kij/k.

Parmi les 20,2% d’élèves de la région de Red River par exemple, on devrait observer, sous l’hypothèse d’indépendance, 43,9% d’élèves du niveau primaire (ce qui ferait alors 8,8% de l’ensemble des élèves, au lieu des 7,9% réellement observés), 38,3% d’élèves du niveau secondaire 1^er cycle (ce qui ferait 7,7% au lieu de 8,0), etc.

Tableau 6. Tableau de fréquences observées

Tableau 7. Tableau de fréquences théoriques

Le tableau de “fréquences théoriques” (cf. tableau 7) ƒij = ƒi x ƒj traduit l’hypothèse d’indépendance entre deux variables. Elle s’exprime aussi sur les profils-lignes.

En effet, il en découle que, quelque soit j : ƒij/ƒi = ƒj , si tous les profils “Région” sont identiques entre eux et, par conséquent, identiques au profil moyen correspondant, il y a indépendance entre la région et le niveau d’étude puisque la connaissance de la région ne change pas la répartition des niveaux d’étude. Il en est de même pour les profils-colonnes ó quelque soit i : ƒij/ƒj = ƒi : Ainsi, examiner les proximités entre les profils revient à examiner la proximité entre chaque profil et son profil moyen ce qui permet d’étudier la liaison entre deux variables qualitatives c’est-à-dire l’écart à l’indépendance.

Sur un tableau de dimension importante, la lecture directe des profils-lignes et des profils-colonnes est difficile ainsi que la comparaison de ces profils avec leur profil moyen. Pour cette raison on a recours à l’analyse des correspondances.

35 j : f_ij = f_i_.f_._j

On dispose du tableau des fréquences observées (cf tableau 6) c’est-à-dire le tableau des pourcentages sur l’ensemble de la population : f_ij =k k_ij .

Prim Lower

secon Upper

secon Profil

moy Prim Lower

secon Upper secon Profil Red River moy

Delta 7,9 8,0 4,3 20,2 Red River

Delta 8,8 7,7 3,6 20,2

North East 5,0 4,7 2,3 12,1 North East 5,3 4,6 2,2 12,1

North West 1,7 1,2 0,5 3,4 North West 1,5 1,3 0,6 3,4

North Central

Coast 5,8 6,2 2,8 14,9 North Central

Coast 6,5 5,7 2,7 14,9

South Central

Coast 3,9 3,8 1,6 9,3 South Central

Coast 4,1 3,6 1,7 9,3

Central

Highlands 3,7 2,5 1,1 7,2 Central

Highlands 3,2 2,8 1,3 7,2

South East 6,9 5,4 2,5 14,8 South East 6,5 5,7 2,6 14,8

Mekong River

Delta 8,9 6,6 2,7 18,2 Mekong River

Delta 8,0 7,0 3,3 18,2

Profil moyen 43,9 38,3 17,9 100 Profil moyen 43,9 38,3 17,9 100 Tableau 6 : Tableau de fréquences observées Tableau 7 : Tableau de fréquences théoriques

Le tableau de "fréquences théoriques" (cf tableau 7) f_ij = f_i_.f_._j traduit l’hypothèse d’indépendance entre deux variables. Elle s’exprime aussi sur les profils-lignes. En effet, il en découle que, quelque soit j : f f_ij _i_. = f_._j, si tous les profils "Région" sont identiques entre eux et, par conséquent, identiques au profil moyen correspondant, il y a indépendance entre la région et le niveau d’étude puisque la connaissance de la région ne change pas la répartition des niveaux d’étude. Il en est de même pour les profils-colonnes ó quelque soit i : f f_ij _._j = f_i_.:

Ainsi, examiner les proximités entre les profils revient à examiner la proximité entre chaque profil et son profil moyen ce qui permet d’étudier la liaison entre deux variables qualitatives c’est-à-dire l’écart à l’indépendance.

35 4.2. Hypothèse d’indépendance

On dispose du tableau des fréquences observées (cf tableau 6) c’est-à-dire le tableau des pourcentages sur l’ensemble de la population : f_ij =k k_ij .

Prim Lower

secon Upper

secon Profil

moy Prim Lower

secon Upper secon Profil Red River moy

Delta 7,9 8,0 4,3 20,2 Red River

Delta 8,8 7,7 3,6 20,2

North East 5,0 4,7 2,3 12,1 North East 5,3 4,6 2,2 12,1

North West 1,7 1,2 0,5 3,4 North West 1,5 1,3 0,6 3,4

North Central

Coast 5,8 6,2 2,8 14,9 North Central

Coast 6,5 5,7 2,7 14,9

South Central

Coast 3,9 3,8 1,6 9,3 South Central

Coast 4,1 3,6 1,7 9,3

Central

Highlands 3,7 2,5 1,1 7,2 Central

Highlands 3,2 2,8 1,3 7,2

South East 6,9 5,4 2,5 14,8 South East 6,5 5,7 2,6 14,8

Mekong River

Delta 8,9 6,6 2,7 18,2 Mekong River

Delta 8,0 7,0 3,3 18,2

Profil moyen 43,9 38,3 17,9 100 Profil moyen 43,9 38,3 17,9 100 Tableau 6 : Tableau de fréquences observées Tableau 7 : Tableau de fréquences théoriques

Méthodes statistiques 141

4.3. Distance du Chi-deux et équivalence distributionnelle

Le tableau précédent facilement interprétable montre la pertinence du choix des profils pour représenter une ligne. Nous cherchons maintenant à quantifier la ressemblance ou la dissemblance entre deux régions, c’est-à-dire à calculer une distance entre leurs profils.

Pour mettre en évidence les différences entre deux profils, on utilise la distance du x² entre deux points-lignes i et i’ d’une part et entre deux points-colonnes d’autre part. Ces distances sont données par les équations suivantes :

La distance du x² offre l’avantage de vérifier le principe d’équivalence distributionnelle. Ce principe assure la robustesse des résultats de l’analyse des correspondances vis-à-vis de l’arbitraire du découpage en modalités. Il s’exprime de la façon suivante : si deux lignes (resp. colonnes) du tableau de contingence ont même profil (sont proportionnelles) alors leur agrégation n’affecte pas la distance entre les colonnes (resp. lignes). On obtient alors un nouveau point-ligne (resp. point-colonne) de profil identique et affecté de la somme des fréquences des deux points-lignes (resp.

points-colonnes).

Cette propriété est importante car elle garantit une certaine invariance des résultats vis-à-vis de la nomen-clature choisie pour la construction des modalités d’une variable qualitative.

4.4. Représentation géométrique du tableau de données

Plaçons-nous dans le cadre du tableau des profils-lignes. L’opération de géométrisation consiste à associer à chaque ligne du tableau, un point i dans l’espace des colonnes P^p dont les coordonnées sont ƒij/ƒi pour tout j ≤ p. (Il en est de même, pour le point j de Pⁿ dont les coordonnées sont ƒij/ƒ.j pour tout i ≤ n).

On affecte à chaque point un poids égale à la fréquence de la ligne ƒi= ki/k.

La proximité de deux points i et i’ dans l’espace P^p tient compte de la ressemblance entre les profils des lignes i et i’. Ainsi, nous obtenons:

Figure 6. Nuage des profils-lignes (Régions)

Par exemple la région de Red River est identifiée dans l’espace des niveaux d’étude par les coordonnées (39,1; 39,4; 21,4), et la région de Central Highlands par les coordonnées (51,2; 34,2; 14,5). Ces deux régions ont une répartition des niveaux d’étude différente de celle de la région parisienne ce qui les en éloignent.

4.5. Relation de transition et représentation simultanée

Dans le cas d’un tableau de contingence, les relations de transition qui lient les axes calculés dans les deux espaces (celui des lignes et celui des points-variables), traduisent des relations barycentriques à un coefficient près. La coordonnée de la modalité i d’une des variables est la moyenne des modalités j de l’autre variable pondérées par les fréquences conditionnelles du profil de i. De même, la relation montre que la coordonnée de la modalité j est la moyenne de l’ensemble des modalités i pondérées par les fréquences conditionnelles du profil de j.

Les relations de transition justifient la représentation simultanée des lignes et des colonnes. En effet, si les méthodes factorielles sont fondées sur le calcul des distances entre points-lignes et entre points-colonnes, la distance entre un point-ligne et un point-colonne n’a pas de sens puisque ces points sont dans des espaces différents. L’analyse des correspondances offre cependant la possibilité de positionner et d’interpréter un point d’un ensemble relatif à un espace par rapport à l’ensemble des autres points définis dans l’autre espace.

La figure 7 illustre la représentation simultanée des régions vietnamiennes avec les niveaux d’étude.

Les régions du Sud et la région de North West sont surreprésentées par le niveau primaire, la région de Red River Delta par le niveau secondaire 2^eme cycle et les régions centrales par le niveau secondaire 1^er cycle.

entre deux régions, c’est à dire à calculer une distance entre leurs profils. Pour mettre en évidence les différences entre deux profils, on utilise la distance du ² entre deux points-lignes i et i’ d’une part et entre deux points-colonnes d’autre part. Ces distances sont données par les équations suivantes :

2 2 '

1 . . '.

( , ') 1

^m ^ij ^{i j}

j j i i

f f

d i i

f f f

2 ' 2

1 . . . '

( , ') 1

ⁿ ^ij ^ij

i i j j

f f

d j j

f f f

La distance du ² offre l’avantage de vérifier le principe d’équivalence distributionnelle. Ce principe assure la robustesse des résultats de l’analyse des correspondances vis-à-vis de l’arbitraire du découpage en modalités. Il s’exprime de la façon suivante : si deux lignes (resp. colonnes) du tableau de contingence ont même profil (sont proportionnelles) alors leur agrégation n’affecte pas la distance entre les colonnes (resp. lignes). On obtient alors un nouveau point-ligne (resp. point-colonne) de profil identique et affecté de la somme des fréquences des deux points-lignes (resp. points-colonnes).

Cette propriété est importante car elle garantit une certaine invariance des résultats vis-à-vis de la nomenclature choisie pour la construction des modalités d’une variable qualitative.

4.4. Représentation géométrique du tableau de données

Plaçons-nous dans le cadre du tableau des profils-lignes. L’opération de géométrisation consiste à associer à chaque ligne du tableau, un point i dans l’espace des colonnes ^p dont les coordonnées sont

ij i

f f pour tout j p. (Il en est de même, pour le point j de ⁿ dont les coordonnées sont f f_ij _._jpour tout i n).On affecte à chaque point un poids égale à la fréquence de la ligne f_i_.=k k_i_. .

La proximité de deux points i et i’ dans l’espace ^ptient compte de la ressemblance entre les profils des lignes i et i’. Ainsi, nous obtenons:

Figure 6 : Nuage des profils-lignes (Régions)

14,5). Ces deux régions ont une répartition des niveaux d’étude différente de celle de la région parisienne ce qui les en éloignent.

10 30 50

primary

low_second

up_second

.

Red River Del

.

Central Highlands

.

profil moyen

142 Les Journées de Tam Đảo 2008

La région du North East (proche du centre de gravité du nuage) correspond à la répartition des niveau d’étude sur l’ensemble du Việt Nam.

4.6. Aides à l’interprétation

Trois séries de coefficients apportent une information supplémentaire par rapport aux coordonnées factorielles :

- les contributions, appelées aussi contributions absolues, qui expriment la part prise par une modalité de la variable dans l’inertie (ou variance) “expliquée”

par un facteur. C’est ce coefficient qui permet d’identifier les modalités qui contribuent à la formation et donc à la définition du facteur. Ce coefficient est nul pour les éléments supplémentaires.

- les cosinus carrés, appelés aussi contributions relatives ou qualité de représentation, qui expriment la part prise par un facteur dans la dispersion d’une modalité de la variable. Ce coefficient est utile pour les éléments supplémentaires.

- Les valeurs-tests qui permettent d’apprécier rapidement si une modalité d’une variable nominale a une position significative sur un axe. Ils ont la même fonction que les cosinus carrés mais se lisent plus facilement.

C’est après l’examen de ces coefficients que l’on pourra interpréter les graphiques factoriels en tenant compte des relations de transition.

5. Analyse des correspondances

Trong tài liệu Université d’été en Sciences Sociales 2008 (Trang 140-143)