stata biostatistique cesam

Téléchargement

Centre d’Enseignement de la Statistique Appliquée, à la Médecine et à la Biologie Médicale

Documents de cours

du cours d’informatique du CESAM

Introduction au logiciel Stata

Responsables :

Christophe LALANNE [email protected]

Pr Mounir MESBAH [email protected]

http://www.cesam.upmc.fr

Année Universitaire 2012–2013

Adresser toute correspondance à :

Université Pierre et Marie Curie – Paris 6 Secrétariat du CESAM –

Les Cordeliers Service Formation Continue, esc. B, 4ème étage, 15

rue de l’école de médecine, 75006 PARIS

ou par Courriel à : [email protected]

Table des matières

8 Éléments du langage et statistiques descriptives 1

8.1 Représentation des données sous Stata .................................. 1

8.1.1 Le langage Stata .......................................... 1

8.1.2 Créer et manipuler des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

8.1.3 Sélection indexée ou critériée d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . 4

8.1.4 Traitement des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

8.2 Gestiondedonnées............................................. 5

8.2.1 Importation de données externes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

8.2.2 Gestiondevariables ........................................ 6

8.2.3 Convertir une variable numérique en variable catégorielle . . . . . . . . . . . . . . . . . . 8

8.3 Statistiques descriptives univariée et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

8.3.1 Résumer une variable numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

8.3.2 Résumer une variable catégorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

8.4 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

8.4.1 Décrire une variable numérique par d’une variable qualitative . . . . . . . . . . . . . . . . 11

8.4.2 Décrire deux variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

9 Mesures d’association, comparaisons de moyennes ou de proportions pour deux échantillons ou plus 14

9.1 Comparaisons de deux moyennes de groupe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

9.1.1 Échantillonsindépendants .................................... 14

9.1.2 Échantillons non indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

9.1.3 Approche non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

9.2 Comparaisons de deux proportions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

9.2.1 Échantillonsindépendants .................................... 17

9.2.2 Échantillons non indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

9.3 Mesuresderisqueetodds-ratio...................................... 20

9.4 Analysedevariance ............................................ 22

9.4.1 ANOVAàunfacteur........................................ 22

9.4.2 Comparaisons de paires de moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

9.4.3 Testdetendancelinéaire...................................... 24

9.4.4 Utilisationdecontrastes...................................... 25

9.4.5 Approche non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

9.4.6 ANOVAàdeuxfacteurs...................................... 27

10 Régression linéaire et logistique 29

10.1 Mesures d’association entre deux variables numériques . . . . . . . . . . . . . . . . . . . . . . . . 29

10.1.1 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

10.1.2 Corrélation de Bravais-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

10.1.3 Corrélation non-paramétrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

10.2Régressionlinéaire ............................................. 31

10.2.1 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

10.2.2 Prédiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

10.2.3 Diagnosticdumodèle ....................................... 33

10.2.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

10.3 Mesures d’association en épidémiologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

10.3.1 Études pronostiques et mesures de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

10.3.2 Étudesdiagnostiques........................................ 38

10.4Régressionlogistique............................................ 40

10.4.1 Estimation des paramètres du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

10.4.2 Prédiction ponctuelle et par intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

10.4.3 Casdesdonnéesgroupées..................................... 43

11 Analyse de données de survie 45

11.1 Représentation des données et statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . 45

11.1.1 Format de représentation des données de survie . . . . . . . . . . . . . . . . . . . . . . . . 45

11.1.2 Statistiquesdescriptives...................................... 46

11.2 Fonction de survie et courbe de Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

11.2.1 Tabledemortalité.......................................... 46

11.2.2 CourbedeKaplan-Meier...................................... 47

11.2.3 Fonctionderisquecumulé .................................... 48

11.2.4 Test d’égalité de fonctions de survie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

11.3RégressiondeCox.............................................. 50

Cours 8. Éléments du langage et statistiques descriptives

Sommaire

8.1 Représentation des données sous Stata ................................. 1

8.2 Gestiondedonnées ............................................ 5

8.3 Statistiques descriptives univariée et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

8.4 Statistiques descriptives bivariées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Dans ce premier chapitre, on s’intéressera principalement au mode de représentation des données sous Stata

et à leur manipulation, en opérant sur des sous-ensembles de variables ou en ne sélectionnant que certaines

observations. Les principales commandes permettant de résumer de manière quantitative ou graphique la

distribution d’une variable numérique ou catégorielle sont discutées dans le cadre des données sur les poids à

la naissance de Hosmer & Lemeshow.

8.1 Représentation des données sous Stata

Les données sous Stata sont généralement de type nombre ou chaîne de caractères. Le plus simple est sou-

vent de travailler avec des nombres, et dans le cas des variables qualitatives d’associer à leurs modalités des

étiquettes.

8.1.1 Le langage Stata

Il existe des commandes qui permettent de générer facilement des séries de nombres tirés au hasard. Par

exemple, la série d’instructions suivantes stocke dans une variable appelée x10 observations tirées d’une loi

normale de moyenne 12 et d’écart-type 2.

. set obs 10

. generate x = rnormal(12, 2)

. format x %6.3f

. summarize x, format

obs was 0, now 10

Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------

x | 10 11.112 2.246 7.956 14.224

On remarquera plusieurs caractéristiques remarquables du langage : il est nécessaire d’indiquer à Stata quelle

est la taille de l’échantillon sur lequel on travaille. On verra dans les paragraphes suivants comment cette

donnée peut être obtenue lors d’une saisie manuelle ou de l’importation d’un ﬁchier de données externes. La

commande generate sert à associer à une variable, ici x, une séquence de valeurs numériques (assimilée ici

à nos 10 observations) fournies par la commande rnormal(). Cette dernière dispose d’options permettant de

spéciﬁer les paramètres de la loi (moyenne et écart-type, dans l’ordre). La commande format x %6.3f permet

de limiter l’afﬁchage à 3 décimales : il s’agit d’une propriété de représentation des valeurs de xdirectement

associée à la variable que la commande summarize peut exploiter.

Les données individuelles peuvent être examinées à l’aide de la commande list. Par exemple, la commande

list x afﬁchera l’ensemble des valeurs de x. Comme il n’y a qu’une seule variable présente dans l’espace

1 / 57 100%

Documents connexes

Angrist,JD et J.-S. Pischke (2009) Mostly Harmless

Modèle linéaire et applications

capacités d`analyse

Marketing - vnext consulting

1. Quelle est la race de Darth Maul ?

JIST2016Dressen.Durand_3 - Journées internationales de

Révolution low cost - Maison de l`Europe de Brest et Bretagne Ouest

modèle de cahier - Groupe ESC Dijon Bourgogne

Mise en page 1

sommaire - E

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

stata biostatistique cesam

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

stata biostatistique cesam

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib