Centre d’Enseignement de la Statistique Appliquée, à la Médecine et à la Biologie Médicale
Documents de cours
du cours d’informatique du CESAM
Introduction au logiciel Stata
Responsables :
Christophe LALANNE [email protected]
Pr Mounir MESBAH [email protected]
http://www.cesam.upmc.fr
Année Universitaire 2012–2013
Adresser toute correspondance à :
Université Pierre et Marie Curie – Paris 6 Secrétariat du CESAM –
Les Cordeliers Service Formation Continue, esc. B, 4ème étage, 15
rue de l’école de médecine, 75006 PARIS
ou par Courriel à : [email protected]
Table des matières
8 Éléments du langage et statistiques descriptives 1
8.1 Représentation des données sous Stata .................................. 1
8.1.1 Le langage Stata .......................................... 1
8.1.2 Créer et manipuler des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
8.1.3 Sélection indexée ou critériée d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . 4
8.1.4 Traitement des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
8.2 Gestiondedonnées............................................. 5
8.2.1 Importation de données externes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
8.2.2 Gestiondevariables ........................................ 6
8.2.3 Convertir une variable numérique en variable catégorielle . . . . . . . . . . . . . . . . . . 8
8.3 Statistiques descriptives univariée et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8.3.1 Résumer une variable numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8.3.2 Résumer une variable catégorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
8.4 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
8.4.1 Décrire une variable numérique par d’une variable qualitative . . . . . . . . . . . . . . . . 11
8.4.2 Décrire deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
9 Mesures d’association, comparaisons de moyennes ou de proportions pour deux échantillons ou plus 14
9.1 Comparaisons de deux moyennes de groupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
9.1.1 Échantillonsindépendants .................................... 14
9.1.2 Échantillons non indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
9.1.3 Approche non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
9.2 Comparaisons de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
9.2.1 Échantillonsindépendants .................................... 17
9.2.2 Échantillons non indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
9.3 Mesuresderisqueetodds-ratio...................................... 20
9.4 Analysedevariance ............................................ 22
9.4.1 ANOVAàunfacteur........................................ 22
9.4.2 Comparaisons de paires de moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
9.4.3 Testdetendancelinéaire...................................... 24
9.4.4 Utilisationdecontrastes...................................... 25
9.4.5 Approche non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
9.4.6 ANOVAàdeuxfacteurs...................................... 27
10 Régression linéaire et logistique 29
10.1 Mesures d’association entre deux variables numériques . . . . . . . . . . . . . . . . . . . . . . . . 29
10.1.1 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
10.1.2 Corrélation de Bravais-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
10.1.3 Corrélation non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2Régressionlinéaire ............................................. 31
10.2.1 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
10.2.2 Prédiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
10.2.3 Diagnosticdumodèle ....................................... 33
10.2.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.3 Mesures d’association en épidémiologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.3.1 Études pronostiques et mesures de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
10.3.2 Étudesdiagnostiques........................................ 38
10.4Régressionlogistique............................................ 40
10.4.1 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
10.4.2 Prédiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
10.4.3 Casdesdonnéesgroupées..................................... 43
11 Analyse de données de survie 45
11.1 Représentation des données et statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . 45
11.1.1 Format de représentation des données de survie . . . . . . . . . . . . . . . . . . . . . . . . 45
11.1.2 Statistiquesdescriptives...................................... 46
11.2 Fonction de survie et courbe de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
11.2.1 Tabledemortalité.......................................... 46
11.2.2 CourbedeKaplan-Meier...................................... 47
11.2.3 Fonctionderisquecumulé .................................... 48
11.2.4 Test d’égalité de fonctions de survie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
11.3RégressiondeCox.............................................. 50
4
Cours 8. Éléments du langage et statistiques descriptives
Sommaire
8.1 Représentation des données sous Stata ................................. 1
8.2 Gestiondedonnées ............................................ 5
8.3 Statistiques descriptives univariée et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8.4 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Dans ce premier chapitre, on s’intéressera principalement au mode de représentation des données sous Stata
et à leur manipulation, en opérant sur des sous-ensembles de variables ou en ne sélectionnant que certaines
observations. Les principales commandes permettant de résumer de manière quantitative ou graphique la
distribution d’une variable numérique ou catégorielle sont discutées dans le cadre des données sur les poids à
la naissance de Hosmer & Lemeshow.
8.1 Représentation des données sous Stata
Les données sous Stata sont généralement de type nombre ou chaîne de caractères. Le plus simple est sou-
vent de travailler avec des nombres, et dans le cas des variables qualitatives d’associer à leurs modalités des
étiquettes.
8.1.1 Le langage Stata
Il existe des commandes qui permettent de générer facilement des séries de nombres tirés au hasard. Par
exemple, la série d’instructions suivantes stocke dans une variable appelée x10 observations tirées d’une loi
normale de moyenne 12 et d’écart-type 2.
. set obs 10
. generate x = rnormal(12, 2)
. format x %6.3f
. summarize x, format
obs was 0, now 10
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
x | 10 11.112 2.246 7.956 14.224
On remarquera plusieurs caractéristiques remarquables du langage : il est nécessaire d’indiquer à Stata quelle
est la taille de l’échantillon sur lequel on travaille. On verra dans les paragraphes suivants comment cette
donnée peut être obtenue lors d’une saisie manuelle ou de l’importation d’un fichier de données externes. La
commande generate sert à associer à une variable, ici x, une séquence de valeurs numériques (assimilée ici
à nos 10 observations) fournies par la commande rnormal(). Cette dernière dispose d’options permettant de
spécifier les paramètres de la loi (moyenne et écart-type, dans l’ordre). La commande format x %6.3f permet
de limiter l’affichage à 3 décimales : il s’agit d’une propriété de représentation des valeurs de xdirectement
associée à la variable que la commande summarize peut exploiter.
Les données individuelles peuvent être examinées à l’aide de la commande list. Par exemple, la commande
list x affichera l’ensemble des valeurs de x. Comme il n’y a qu’une seule variable présente dans l’espace
1
1 / 57 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !