Mise en forme des données - Structuration des données et stratégie d’analyse

Partie I. Structuration des données et stratégie d’analyse

1. Mise en forme des données

Les techniques d’analyse de données imposent une maîtrise du processus de construction du tableau de données. Les enquêtes peuvent être de structures plus ou moins complexes selon, l’existence éventuelle de plusieurs niveaux d’observation, de dimensions temporelles ou spatiales.

1.1 Du questionnaire au tableau de données

Les données d’enquêtes doivent être mises sous forme de (grands) tableaux rectangulaires, que l’on notera souvent : X. Les lignes (i=1,…,n) du tableau représentent les n individus statistiques correspondant aux sujets enquêtés (ménages, entreprises, personnes), et les colonnes (j=1,…p) représentent les p variables correspondant aux questions et dont les réponses peuvent être des mesures, des caractéristiques, des rangs ou des notes. (schéma en bas de page)

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables : – les variables qualitatives comme le sexe, la

profession, le diplôme, la région, dont les valeurs sont des modalités qu’il faut codifier pour que les opérations algébriques aient un sens. La distribution d’une variable qualitative est donnée par les pourcentages ou encore fréquences (pourcentage d’homme et de femme par exemple).

On distingue les variables nominales pour lesquelles il n’existe pas d’ordre entre les modalités (sexe, activité par exemple), les variables ordinales dont les modalités sont ordonnées (par exemple, les questions d’opinion dont les réponses “tout-à-fait”,”plutôt”, “peu”, “pas du tout” satisfait). Comme cas particulier de variables nominales, les variables logiques possèdent deux modalités (oui/non ou présence/absence) que l’on retrouve par exemple pour la codification de questions à réponses multiples.

La distribution d’une variable quantitative est donnée par les calculs des indicateurs de tendance centrale comme la moyenne, la médiane, le mode et des indicateurs de dispersion comme la variance, l’écart-type, les quantiles.

On distingue les variables continues, comme l’âge, le revenu, la taille par exemple et les variables discrètes comme la taille du ménage, le nombre d’enfants qui possèdent peu de valeurs possibles. Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs.

Ces variables, directement issues du questionnaire, constituent les variables de base à partir desquelles il est souvent utile, pour les besoins de l’étude, de construire des variables dérivées. Celles-ci sont des indicateurs répondant à un objectif précis (combinaison de deux variables nominales, ratios tels que le taux d’occupation du logement qui est le rapport du nombre de personnes d’un ménage par le nombre de pièces du logement).

Questionnaire Tableau de données

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables :

– les variables qualitatives comme le sexe, la profession, le diplôme, la région, dont les valeurs sont des modalités qu‟il faut codifier pour que les opérations algébriques aient un sens. La distribution d‟une variable qualitative est donnée par les pourcentages ou encore fréquences (pourcentage d‟homme et de femme par exemple).

On distingue les variables nominales pour lesquelles il n‟existe pas d‟ordre entre les modalités (sexe, activité par exemple), les variables ordinales dont les modalités sont ordonnées (par exemple, les questions d‟opinion dont les réponses "tout-à-fait","plutôt", "peu", "pas du tout"

satisfait). Comme cas particulier de variables nominales, les variables logiques possèdent deux modalités (oui/non ou présence/absence) que l‟on retrouve par exemple pour la codification de questions à réponses multiples.

– les variables quantitatives dont les valeurs sont prises sur une échelle numérique et sur lesquelles sont effectuées des opérations algébriques telles que la somme, le calcul de moyenne par exemple. La distribution d‟une variable quantitative est donnée par les calculs des indicateurs de tendance centrale comme la moyenne, la médiane, le mode et des indicateurs de dispersion comme la variance, l‟écart-type, les quantiles.

On distingue les variables continues, comme l‟âge, le revenu, la taille par exemple et les variables discrètes comme la taille du ménage, le nombre d‟enfants qui possèdent peu de valeurs possibles.

Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs.

Ces variables, directement issues du questionnaire, constituent les variables de base à partir desquelles il est souvent utile, pour les besoins de l‟étude, de construire des variables dérivées.

Celles-ci sont des indicateurs répondant à un objectif précis (combinaison de deux variables nominales, ratios tels que le taux d‟occupation du logement qui est le rapport du nombre de personnes d‟un ménage par le nombre de pièces du logement).

Les questions ouvertes renvoient à des réponses libres dont le contenu (valeur) est un texte. C‟est le cas des questions "pourquoi?" qui peuvent expliciter une question fermée ou encore de questions dont on ne veut pas appauvrir la réponse par des items réducteurs. Ces questions peuvent être a posteriori fermées et ramenées alors à des variables nominales avec la constitution d‟une liste d‟items soigneusement constituée. Mais souvent, le fait de laisser libre la réponse est motivé par le désir de s‟affranchir d‟une batterie d‟items et d‟exploiter les réponses telles quelles.

Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l‟analyse des correspondances.

Indiv. n question 1 question 2 question j question p

1 j p 1

i n

xij

valeur de la variable j prise par l'individu i

X =

(n,p)

Indiv. i question 1 question 2 question j question p Indiv. 2 question 1 question 2 question j question p Indiv. 1 question 1 question 2 question j question p

... ...

Base de données Tableau de données

Questionnaire Tableau de données

Le plus souvent les questions sont fermées et donnent lieu principalement à deux types de variables :

Les variables quantitatives peuvent être ramenées à des variables qualitatives par un découpage en classe des valeurs.

Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l‟analyse des correspondances.

Indiv. n question 1 question 2 question j question p

1 j p 1

i n

xij

valeur de la variable j prise par l'individu i

X =

(n,p)

Indiv. i question 1 question 2 question j question p Indiv. 2 question 1 question 2 question j question p Indiv. 1 question 1 question 2 question j question p

... ...

Base de données Tableau de données

160 Les Journées de Tam Đảo 2008

Les questions ouvertes renvoient à des réponses libres dont le contenu (valeur) est un texte. C’est le cas des questions “pourquoi ?” qui peuvent expliciter une question fermée ou encore de questions dont on ne veut pas appauvrir la réponse par des items réducteurs. Ces questions peuvent être a posteriori fermées et ramenées alors à des variables nominales avec la constitution d’une liste d’items soigneusement constituée. Mais souvent, le fait de laisser libre la réponse est motivé par le désir de s’affranchir d’une batterie d’items et d’exploiter les réponses telles quelles. Les questions ouvertes donnent lieu à des codifications en tableaux lexicaux qui peuvent être décrits par l’analyse des correspondances.

Construire un tableau de données issues d’enquête correspond à faire le choix des lignes c’est-à-dire de l’unité statistique dont l’ensemble constitue la population d’étude (des variables et des valeurs qui répondront au mieux à l’objectif fixé par l’étude).

1.2 Cas d’enquêtes à structure complexe

Il est courant que des enquêtes révèlent en fait une structure plus complexe et qu’au sein d’un même questionnaire soient collectées des informations concernant des types d’unités d’observation différentes et possédant leur propre jeu de caractéristiques.

Ce sont des enquêtes à plusieurs niveaux d’observation.

D’autres enquêtes, comme les panels, font l’objet de passages répétés. D’autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D’autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d’observation

Prenons par l’exemple d’une enquête Habitat : des logements sont observés (statut, type, matériaux de construction, équipements,…) et au sein de ceux-ci sont enquêtés tous les ménages (caractéristiques socio-économiques du chef de ménage) et tous les membres de ces ménages (caractéristiques socio-économiques).

La structure de l’information est hiérarchique et se présente sous la forme suivante :

Structure hiérarchique de l’information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

L’intérêt d’une telle enquête est de mettre en relation les trois niveaux d’observation. On peut procéder : – soit par affectation (ou en désagrégation) en

répétant l’information des logements (respective-ment sur les ménages) autant de fois qu’il y a de personnes dans le logement (respectivement le ménages) :

– soit par agrégation en sommant l’information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d’être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d’étude est le ménage, on désagrège l’information du logement et l’on agrège celle des membres au niveau du ménage.

Construire un tableau de données issues d‟enquête, c‟est donc faire le choix des lignes dire de l‟unité statistique dont l‟ensemble constitue la population d‟étude, des colonnes c‟est-à-dire des variables et des valeurs qui répondront au mieux à l‟objectif fixé par l‟étude.

1.2 Cas d’enquêtes à structure complexe

Il est courant que des enquêtes révèlent en fait une structure plus complexe et qu‟au sein d‟un même questionnaire soient collectées des informations concernant des types d‟unités d‟observation différentes et possédant leur propre jeu de caractéristiques. Ce sont des enquêtes à plusieurs niveaux d‟observation. D‟autres enquêtes, comme les panels, font l‟objet de passages répétés. D‟autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D‟autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d‟observation

Prenons par l‟exemple d‟une enquête Habitat : des logements sont observés (statut, type, matériaux de construction, équipements, …) et au sein de ceux-ci sont enquêtés tous les ménages (caractéristiques socio-économiques du chef de ménage) et tous les membres de ces ménages (caractéristiques socio-économiques).

La structure de l‟information est hiérarchique et se présente sous la forme suivante : Housing

Household

Member Structure hiérarchique de l‟information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

Housing

Household

Member 1.

. p

1 .. m

...

Id.HS var. Housing Id.HH var. Household Id.MB var. Member

Tableaux de données correspondant à chacun des trois niveaux d‟observation

L‟intérêt d‟une telle enquête est de mettre en relation les trois niveaux d‟observation. On peut procéder :

– soit par affectation (ou en désagrégation) en répétant l‟information des logements (respectivement sur les ménages) autant de fois qu‟il y a de personnes dans le logement (respectivement le ménages) :

même questionnaire soient collectées des informations concernant des types d‟unités d‟observation différentes et possédant leur propre jeu de caractéristiques. Ce sont des enquêtes à plusieurs niveaux d‟observation. D‟autres enquêtes, comme les panels, font l‟objet de passages répétés. D‟autres, comme les enquêtes biographiques, ont un questionnaire qui repose sur un calendrier. D‟autres, enfin, comportent de nombreuses questions ouvertes. Toutes ces enquêtes présentent des structures complexes pour lesquelles il faut à chaque fois bien identifier les unités statistiques et les variables.

a) Enquêtes à plusieurs niveaux d‟observation

La structure de l‟information est hiérarchique et se présente sous la forme suivante : Housing

Household

Member Structure hiérarchique de l‟information

Trois fichiers se déduisent de cette enquête donnant lieu à trois tableaux de données :

Housing

Household

Member 1.

. p

1 .. m

...

Id.HS var. Housing Id.HH var. Household Id.MB var. Member

Tableaux de données correspondant à chacun des trois niveaux d‟observation

L‟intérêt d‟une telle enquête est de mettre en relation les trois niveaux d‟observation. On peut procéder :

Tableaux de données correspondant à chacun des trois niveaux d’observation

var. Housing var. Household var. Member Id. HS HH MB

1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 ....

p m n

population Members

Tableau de données au niveau des membres du ménage

– soit par agrégation en sommant l‟information des ménages qui appartiennent à un même logement et des personnes qui appartiennent à un même ménage. Par exemple, si les membres sont caractérisés par le fait d‟être actif ou non, on obtient une nouvelle variable au niveau Ménage qui est le nombre de personnes actives du ménage. Si la population d‟étude est le ménage, on désagrège l‟information du logement et l‟on agrège celle des membres au niveau du ménage.

1. . p

Id.HS var. Housing var. Household var. Member population Housings

Aggregate var.

Tableau de données au niveau des logements 1 1

2 1 2 2

...

p m

var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var.

Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

Tableau de données au niveau des membres du ménage

var. Housing var. Household var. Member Id. HS HH MB

1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 ....

p m n

population Members

Tableau de données au niveau des membres du ménage

1. . p

Id.HS var. Housing var. Household var. Member population Housings

Aggregate var.

Tableau de données au niveau des logements 1 1

2 1 2 2

...

p m

var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var.

Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

Tableau de données au niveau des logements

Analyse des données 2 161

Face à une structure hiérarchique de l’information, on dispose ainsi autant de populations statistiques qu’il y a de niveaux d’observation.

b) Enquêtes à passages répétés

Dans le cadre d’enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d’observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d’un passage à l’autre ;

- la périodicité des passages d’enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

La structure des données d’un tel dispositif peut être représentée de la manière suivante :

Ce cas de figure se ramène à une analyse d’enquête classique ó nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période.

- Les échantillons sont indépendants (populations I1 et I2), et l’ensemble des variables, J, est identique On dispose du tableau de données suivant :

Cette situation permet surtout l’émergence d’une tendance globale de l’évolution et d’en saisir les caractéristiques.

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

Deux tableaux de données sont possibles : L’échantillon est renouvelé toutes les deux périodes.

Différents cas de figures sont posées pour la construction du tableau de données :

- L’échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

var. Housing var. Household var. Member Id. HS HH MB

1 1 1 1 1 2 2 1 1 2 2 1 2 2 2 2 2 3 ....

p m n

population Members

Tableau de données au niveau des membres du ménage

1. . p

Id.HS var. Housing var. Household var. Member population Housings

Aggregate var.

Tableau de données au niveau des logements 1 1

2 1 2 2

...

p m

var. Household

Id. HS HH var. Housing var. Member

population Households

Aggregate var.

Repeated var.

Tableau de données au niveau du ménage

Face à une structure hiérarchique de l‟information, on dispose ainsi autant de populations statistiques qu‟il y a de niveaux d‟observation.

b) Enquêtes à passages répétés

Dans le cadre d‟enquêtes à passages répétés, il convient de bien identifier :

– les unités statistiques d‟observation qui correspondent aux individus enquêtés, renouvelées ou non dans le dispositif ;

– les variables qui sont conservées ou non d‟un passage à l‟autre ;

- la périodicité des passages d‟enquêtes portant sur les mêmes individus ou non et sur les mêmes variables ou non.

Tableau de données au niveau du ménage

La structure des données d‟un tel dispositif peut être représentée de la manière suivante :

Période 1 Période 2 J et J1 J et J2

Population I1

Population

I Population I2

L‟échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L‟échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Ce cas de figure se ramène à une analyse d‟enquête classique ó nous avons au moins deux thèmes, le premier défini par les variables de la première période et le deuxième par celles de la deuxième période.

Les échantillons sont indépendants (populations I1 et I2), et l‟ensemble des variables, J, est identique

On dispose du tableau de données suivant : J

Période 1 I1

Période 2 I2

Cette situation permet surtout l‟émergence d‟une tendance globale de l‟évolution et d‟en saisir les caractéristiques.

La structure des données d‟un tel dispositif peut être représentée de la manière suivante :

Période 1 Période 2 J et J1 J et J2

Population I1

Population

I Population I2

L‟échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L‟échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Les échantillons sont indépendants (populations I1 et I2), et l‟ensemble des variables, J, est identique

On dispose du tableau de données suivant : J

Période 1 I1

Période 2 I2

Cette situation permet surtout l‟émergence d‟une tendance globale de l‟évolution et d‟en saisir les caractéristiques.

7 Population

Population

I Population I2

L’échantillon est renouvelé toutes les deux périodes. Différents cas de figures sont posées pour la construction du tableau de données :

L’échantillon est un panel, I (mêmes individus enquêtés) et les jeux de variables sont différents sur les périodes, J1 et J2

Période 1 période 2

J1 J2

(Panel) I

Les échantillons sont indépendants (populations I1 et I2), et l’ensemble des variables, J, est identique

On dispose du tableau de données suivant :

J Période 1 I1

Période 2 I2

Cette situation permet surtout l’émergence d’une tendance globale de l’évolution et d’en saisir les caractéristiques.

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La maỵtrise du codage, et de sa part d’arbitraire, est fondamentale pour le praticien de l’analyse des données. Nous avons vu que la constitution du tableau de données nécessite implicitement une première codification. Mais selon la nature de la variable et surtout selon la stratégie d’analyse et la méthode utilisée, une recodification s’impose.

Rappelons que l’analyse des correspondances multiples est destinée à un ensemble de variables qualitatives et nécessite un découpage des variables quantitatives en classe si celles-ci interviennent en éléments actifs.

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Cette étape de codification dans le processus d’exploitation est sans doute la plus délicate et la plus fondamentale pour une cohérence des résultats. On pourra être amené à modifier le découpage d’une variable nominale. Lorsque l’on cherche ainsi à découper une variable en classes, on est confronté à plusieurs problèmes : combien de classes choisir et comment les choisir ? Où placer les bornes des classes d’une variable continue ?

Néanmoins, il est difficile de présenter des techniques de codage car il s’agit justement d’opérations empiriques qui dépendent trop de la discipline qui les met en œuvre, et trop du problème traité. Nous pouvons juste rappeler, dans le cadre de traitement de données d’enquêtes socio-économiques, les quelques règles liées au codage disjonctif complet. Certains principes,

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

- il s’agit d’un panel et les jeux de variables sont identiques

Dans ce cas, il s’agit d’un tableau ternaire classique (individus, variables, temps) que l’on représente de la manière suivante :

date, T

variables, J T2

individus I T1

Deux tableaux de données sont possibles :

Période 1 Période 2

Période 1 I

I Période 2 I

Cette situation permet d’effectuer le suivi de la population et surtout de saisir le sens et l’intensité de l’évolution.

1.3 Recodages pour l’analyse statistique

La consultation de la distribution de chacune des variables (tris-à-plat et histogrammes) est, par conséquent, indispensable pour effectuer ces recodages.

Trong tài liệu Université d’été en Sciences Sociales 2008 (Trang 160-163)