• Không có kết quả nào được tìm thấy

L’Analyse en composantes principales

Trong tài liệu Université d’été en Sciences Sociales 2008 (Trang 136-140)

Autre outil : « les mots et réponses caractéristiques »

3. L’Analyse en composantes principales

L’Analyse en Composantes Principales s’applique à des variables à valeurs numériques (des mensurations, des pourcentages, des mots etc.) représentées sous forme d’un tableau rectangulaire de mesures R de terme général rij dont les colonnes sont les variables et les lignes représentent les individus sur lesquels ces variables sont mesurées. Nous considérons ici le tableau de 7 indicateurs démographiques pour 7 pays (cf. tableau 2).

. . .

3.1. Interprétations géométriques

Les représentations géométriques entre les lignes (les pays) d’une part et entre les colonnes (les indicateurs) d’autre part du tableau de données permettent de visualiser les proximités respectivement entre les individus (pays) et entre les variables (indicateurs).

Dans Pp, deux points-individus (pays) sont très voisins si, dans l’ensemble, leurs p coordonnées sont très proches. Les deux pays concernés sont alors caractérisés par des valeurs presque égales pour chaque variable (indicateur). La distance utilisée est la distance euclidienne usuelle.

Dans Pn, si les valeurs prises par deux variables (indicateurs) particulières sont très voisines pour tous les pays, ces variables seront représentées par deux points très proches dans cet espace. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu’elles sont liées par une relation particulière.

Mais les unités de mesure des variables peuvent être très différentes et rendre alors nécessaire des transformations du tableau de données.

3.2. Problème d’échelle de mesure et transformation des données

On veut que la distance entre deux individus (pays) soit indépendante des unités des variables (indicateurs) pour que chaque variable joue un rôle identique.

Pour cela, on attribue à chaque variable j la même dispersion en divisant

chacune de ses valeurs par leur écart-type sj, quantité dont le carré (la variance) s’écrit :

Par ailleurs on s’intéresse à la manière dont les individus s’écartent de la moyenne. On place alors le point moyen au centre de gravité du nuage des individus.

Les coordonnées du point moyen sont les valeurs moyennes des variables notées :

Prendre ce point comme origine revient à soustraire pour chaque variable j sa moyenne .

On corrige ainsi les échelles en transformant le tableau de données R en un

nouveau tableau X de la façon suivante :

Les variables ainsi réduites et centrées ont toutes une variance, s2(xj), égale à 1/n et une moyenne, xj, nulle.

Les rôles de ces variables deviennent comparables.

On dit que l’analyse est normée.

3.3. Analyse du nuage des individus (pays)

La transformation des données amène à effectuer une translation de l’origine au centre de gravité de ce nuage et à changer (dans le cas de l’analyse dite normée) les échelles sur les différents axes.

Pour réaliser l’analyse du nuage des points-pays dans Pp, la matrice X’X à diagonaliser dans cet espace, est la matrice des corrélations (dont le tableau 3 fournit un exemple) qui a pour terme général :

cjj’ est le coefficient de corrélation entre les variables j

et j’.

Les coordonnées des n points-individus sur l’axe factoriel ua sont les n composantes du vecteur ca = Xua. La figure 5a illustre la représentation du nuage des individus-pays dans le plan principal (1, 2).

3.4. Analyse du nuage des variables (indicateurs)

Les coordonnées factorielles des points-variables sur l’axe a sont les composantes de et l’on a : waj = cor (j, ca).

Ainsi, la coordonnée wa d’un point-variable j sur un axe a n’est autre que le coefficient de corrélation de cette variable avec le facteur ca (combinaison linéaire des variables initiales) considéré lui-même comme une variable artificielle dont les coordonnées sont constituées par les n projections des individus sur cet axe.

Les axes factoriels étant orthogonaux deux à deux, on obtient ainsi une série de variables artificielles non corrélées entre elles, appelées composantes principales1, qui synthétisent les corrélations de l’ensemble des variables initiales.

Sur la figure 5b, comme sur la matrice de corrélations correspondante (tableau 3), l’espérance de vie et le taux d’alphabétisation des adultes sont très corrélés positivement c’est-à-dire croissent dans le même sens.

Ces deux indicateurs sont également très corrélés avec le taux de mortalité infantile mais négativement c’est-à-dire les faibles valeurs de l’espérance de vie (et

1 L’analyse en composantes principales ne traduit que des liaisons linéaires entre les variables. Un coefficient de corrélation faible entre deux variables signifie donc que celles-ci sont indépendantes linéairement, alors qu’il peut exister une relation non linéaire.

le taux d’alphabétisation des adultes) sont corrélées avec les fortes valeurs du taux de mortalité infantile (et inversement).

3.5. Interprétation

Les variables fortement corrélées avec un axe vont contribuer à la définition de cet axe1. Cette corrélation se lit directement sur le graphique puisqu’il s’agit de la coordonnée du point-variable j sur l’axe a.

On s’intéresse surtout aux variables présentant les plus fortes coordonnées et l’on interprétera les composantes principales en fonction des regroupements de certaines de ces variables et de l’opposition avec les autres.

La figure 5a illustre la représentation du nuage de points-pays dans le plan principal (1, 2). Le Laos et le Cambodge sont proches sur cette figure, et s’opposent aux autres pays.

La figure 5b, qui représente le nuage des points-indicateurs, nous montre que ces deux derniers pays ont des valeurs élevées pour le taux de mortalité infantile et des valeurs faibles pour la variable espérance de vie et pour le taux d’alphébatisation des adultes ; ils se différencient des autres pays qui ont un faible taux de mortalité infantile et une plus forte espérance de vie et taux d’alphabétisation.

La Malaisie (figure 5a) se distingue en ayant un RNB/

habitant et un pourcentage de population urbaine élevés (figure 5b). La confrontation des deux figures 5a et 5b montre aussi, par exemple, que la population de l’Indonésie est la plus élevée.

On notera que, dans cette représentation, tous les points-variables sont sur une sphère de rayon 1 centrée à l’origine des axes2. Les plans d’ajustement couperont la sphère suivant de grands cercles (de rayon 1), les cercles de corrélations, à l’intérieur desquels sont positionnés les points-variables.

1 L’exemple n’est bien évidemment pas suffisamment représentatif pour que le plan puisse être interprété. Il a juste vocation à rapprocher le tableau de données des résultats.

2 L’analyse du nuage des points-variables dans Pn ne se fait pas par rapport au centre de gravité du nuage, (contrairement à l’analyse des points-individus) mais par rapport à l’origine des axes. La distance d’une variable j à l’origine O s’exprime par :

Tableau 2. Tableau de 7 indicateurs démographiques pour 7 pays de l’Asie du Sud-Est

Tableau 3. Matrice de corrélations

32

rayon 1), les cercles de corrélations, à l’intérieur desquels sont positionnés les points-variables.

Tx mortalité infantile 2003

(Tx_morti)

Population 2003 (Popul03)

RNB/hab 2003 (RNB/Hab)

Espér_Vie 2003 (Esp_Vie)

Tx alphab adult 2000 (Tx_alph)

Tx accr. démo 1990-2003 (Tx_accr)

% pop urbain 2003 (%pop_urb)

Cambodge 97 14144 310 57 68 2,9 19

Indonésie 31 219883 810 67 87 1,4 46

Laos 82 5657 320 55 65 2,4 21

Malaisie 7 24425 3780 73 87 2,4 64

Philippines 27 79999 1080 70 95 2,1 61

Thạlande 23 62833 2190 69 96 1,1 32

Viet Nam 19 81377 480 69 93 1,6 26

Tableau 2 : Tableau de 7 indicateurs démographiques pour 7 pays de l’Asie du Sud-Est

! Tx_morti Popul03 RNB/Hab Esp_Vie Tx_alph Tx_accr %pop_urb ---+--- Tx_morti ! 1.00

Popul03 ! -.40 1.00

RNB/Hab ! -.64 -.15 1.00

Esp_Vie ! -.97 .36 .68 1.00

Tx_alph ! -.90 .46 .42 .92 1.00

Tx_accr ! .63 -.64 -.10 -.52 -.73 1.00

%pop_urb ! -.69 .28 .66 .76 .56 -.08 1.00 ---+---

Tableau 3 : Matrice de corrélations

Figure 5a : Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est. Représentation des 7 pays dans le plan (1,2).

(contrairement à l’analyse des points-individus) mais par rapport à l'origine des axes. La distance d'une variable j à l'origine O s'exprime par : 2 2

1

( , ) n ij 1

i

d O j x

=

=

=

32

rayon 1), les cercles de corrélations, à l’intérieur desquels sont positionnés les points-variables.

Tx mortalité infantile 2003

(Tx_morti)

Population 2003 (Popul03)

RNB/hab 2003 (RNB/Hab)

Espér_Vie 2003 (Esp_Vie)

Tx alphab adult 2000 (Tx_alph)

Tx accr. démo 1990-2003 (Tx_accr)

% pop urbain 2003 (%pop_urb)

Cambodge 97 14144 310 57 68 2,9 19

Indonésie 31 219883 810 67 87 1,4 46

Laos 82 5657 320 55 65 2,4 21

Malaisie 7 24425 3780 73 87 2,4 64

Philippines 27 79999 1080 70 95 2,1 61

Thạlande 23 62833 2190 69 96 1,1 32

Viet Nam 19 81377 480 69 93 1,6 26

Tableau 2 : Tableau de 7 indicateurs démographiques pour 7 pays de l’Asie du Sud-Est

! Tx_morti Popul03 RNB/Hab Esp_Vie Tx_alph Tx_accr %pop_urb ---+--- Tx_morti ! 1.00

Popul03 ! -.40 1.00

RNB/Hab ! -.64 -.15 1.00

Esp_Vie ! -.97 .36 .68 1.00

Tx_alph ! -.90 .46 .42 .92 1.00

Tx_accr ! .63 -.64 -.10 -.52 -.73 1.00

%pop_urb ! -.69 .28 .66 .76 .56 -.08 1.00 ---+---

Tableau 3 : Matrice de corrélations

Figure 5a : Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est. Représentation des 7 pays dans le plan (1,2).

(contrairement à l’analyse des points-individus) mais par rapport à l'origine des axes. La distance d'une variable j à l'origine O s'exprime par : 2 2

1

( , ) n ij 1

i

d O j x

=

=

=

138 Les Journées de Tam Đảo 2008

Figure 5a. Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est.

Représentation des 7 pays dans le plan (1,2).

Figure 5b. Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est.

Représentation des 7 indicateurs démographiques dans le plan (1,2).

32

Cambodge 97 14144 310 57 68 2,9 19

Indonésie 31 219883 810 67 87 1,4 46

Laos 82 5657 320 55 65 2,4 21

Malaisie 7 24425 3780 73 87 2,4 64

Philippines 27 79999 1080 70 95 2,1 61

Thạlande 23 62833 2190 69 96 1,1 32

Viet Nam 19 81377 480 69 93 1,6 26

Tableau 2 : Tableau de 7 indicateurs démographiques pour 7 pays de l’Asie du Sud-Est

! Tx_morti Popul03 RNB/Hab Esp_Vie Tx_alph Tx_accr %pop_urb ---+--- Tx_morti ! 1.00

Popul03 ! -.40 1.00

RNB/Hab ! -.64 -.15 1.00

Esp_Vie ! -.97 .36 .68 1.00

Tx_alph ! -.90 .46 .42 .92 1.00

Tx_accr ! .63 -.64 -.10 -.52 -.73 1.00

%pop_urb ! -.69 .28 .66 .76 .56 -.08 1.00 ---+---

Tableau 3 : Matrice de corrélations

Figure 5a : Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est. Représentation des 7 pays dans le plan (1,2).

(contrairement à l’analyse des points-individus) mais par rapport à l'origine des axes. La distance d'une variable j à l'origine O s'exprime par : 2 2

1

( , ) n ij 1

i

d O j x

=

=

=

33

Figure 5b : Analyse en composantes principales sur le tableau des indicateurs démographiques de l’Asie du Sud-Est. Représentation des 7 indicateurs démographiques dans le plan (1,2).

4 ANALYSE DES CORRESPONDANCES

L’analyse des correspondances s’applique en premier lieu à une table de contingence K, appelée aussi tableau croisé, à n lignes et p colonnes, qui ventile une population selon deux variables qualitatives à n et p modalités. Les lignes et les colonnes jouent donc des rơles similaires.

Considérons par exemple, le tableau de contingence suivant obtenu en ventilant les élèves selon leur niveau d’étude et les régions vietnamiennes (cf tableau 4).

Tableau 4 : Tableau de contingence croisant les niveaux d’étude et les régions Primary

(Tiu hc) Lower secondary

(Trung hc c s) Upper secondary

(Trung hc ph thong) Total Red Rive Delta

(ng bng sơng Hng) 1312609 1323078 719478 3355165

North East

(ơng Bc) 837174 786024 382698 2005896

North West

(Tây Bc) 287374 199754 78353 565481

North Central Coast

(Bc Trung B) 969567 1035637 471696 2476900

South Central Coast

(Duyên hi Nam Trung B) 656461 624048 273293 1553802

Central Highlands

(Tây Nguyên) 616412 411546 174915 1202873

South East

(ơng Nam B) 1145006 899455 417419 2461880

Mekong River Delta

(ng bng sơng Cu Long) 1479397 1091718 456084 3027199

Total 7304000 6371260 2973936 16649196

Trong tài liệu Université d’été en Sciences Sociales 2008 (Trang 136-140)