SOCI1241-1 El´ements du calcul des probabilit´es appliqu´ees aux sciences sociales et exercices pratiques (en ce compris les bases de statistiques inf´erentielles) Transparents Philippe Lambert http : //www.statsoc.ulg.ac.be/proba.html Facult´e des Sciences Sociales Universit´e de Li`ege Avertissement - Droits d’auteur Les supports de cours mis sur Internet ont pour seule vocation d’ˆetre utilis´es par les ´etudiants dans le cadre de leur cursus au sein de l’Universit´e de Li`ege. Aucun autre usage ni diffusion ne sont autoris´es, sous peine de constituer une violation de la Loi du 30 juin 1994 relative aux droits d’auteurs. Les supports de cours mis sur Internet ne repr´esentent pas l’enti`eret´e de la mati`ere, mais constituent les notes de base indispensables et minimales `a la bonne connaissance de celle-ci. P. Lambert (cid:13)c - Facult´e des sciences sociales R´eferences Pratiquement n’importe quel livre introductif `a la statistique peut convenir. Quelques r´eferences que vous pourriez trouver utiles: • Agresti, A. and Finlay, B. (2013, 4th edition) Statistical Methods for the Social Sciences. Prentice Hall. ISBN 978-1292021669. Prix: ± 75 euros. • Howell, D.C (2008) M´ethodes Statistiques en Sciences Humaines. De Boeck. ISBN 978-2804156855. Prix: ± 55 euros. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 1 Objectifs du cours • Proposer une introduction `a la th´eorie des probabilit´es (chap. 1) en se concentrant sur les ´el´ements strictement utiles `a une bonne compr´ehension des outils de base en statistique appliqu´ee. • Proposer une introduction `a l’inf´erence statistique: -1- El´ements de base de la th´eorie de l’estimation: (cid:46) estimation et comparaison de proportions (chap. 2 et 4); (cid:46) estimation et comparaison de moyennes (chap. 3); -2- Association entre variables cat´egorielles (chap. 4): (cid:46) visualisation; (cid:46) quantification; (cid:46) test d’ind´ependance. • Assurer, via les travaux pratiques, que ces concepts sont bien int´egr´es et peuvent ˆetre mis en oeuvre pratiquement. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 2 Ch 1: Introduction `a la th´eorie des probabilit´es Population et ´echantillon: l’inf´erence statistique • Jusqu’ici, nous nous sommes content´es de r´esumer graphiquement et num´eriquement l’information disponible dans un ´echantillon de donn´ees. • En sciences humaines, il est fr´equent que ces donn´ees soient relatives `a des variables mesur´ees sur les individus d’un sous-groupe de la population. • Diff´erentes techniques permettent d’assurer, au travers de la proc´edure de s´election, une certaine repr´esentativit´e des individus retenus (cfr. th´eorie des sondages). • L’inf´erence statistique a pour objectif l’estimation de caract´eristiques de la population ´etudi´ee au travers de mesures r´ealis´ees sur l’´echantillon. Ex Dans un pays sans registre national: estimation du nombre moyen d’enfants par femme au d´epart d’une enquˆete r´ealis´ee aupr`es d’un ´echantillon al´eatoire de femmes de cette population. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 3 • Cette inf´erence permet ´egalement d’´evaluer la pertinence d’hypoth`eses: Ex En Belgique, le nombre moyen d’enfants par femme est-il le mˆeme quel que soit le niveau de formation de la m`ere? De nouveau, une enquˆete aupr`es d’un nombre restreint (mais repr´esentatif) de femmes devrait permettre de r´epondre `a la question. Ex Suivre des cours pr´eparatoires augmente les chances de r´eussite en 1`ere ann´ee de bac? • Les probabilit´es permettent de quantifier l’information pr´esente dans un ´echantillon `a propos de certains aspects de la population ´etudi´ee. Cet outil est donc fondamental pour faire de l’inf´erence statistique. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 4 Probabilit´es D´efinition fr´equentiste • On peut voir la probabilit´e d’un ´ev´enement comme ´etant la proportion de fois que cet ´ev´enement se produit apr`es r´ep´etition un grand nombre de fois de l’”exp´erience”. Ex Probabilit´e qu’une femme r´esidant en Belgique choisie au hasard (via le Registre national) soit m`ere de 2 enfants: c’est, parmi les N r´esidentes ´eligibles (=population), la proportion x/N ou` x est le nombre de telles femmes ´egalement m`eres de 2 enfants. Ex Probabilit´e de faire ’pile’ lors du 0 1. lanc´e d’une pi`ece de monnaie ´equilibr´ee. • Le nombre de lanc´es N n’´etant pas pile' 0.8 e ' d fix´e `a une valeur finie, il s’agit alors de e 6 v 0. ati la valeur limite prise par la proportion de el e r 4 ’piles’ (c`ad la fr´equence relative de ’pile’) enc 0. u q é lorsque N → ∞. Fr 0.2 • La fr´equence relative de ’pile’ tend `a 0 0. se stabiliser autour de 0.50. 0 500 1000 1500 2000 Nombre de lancés P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 5 Limites de la d´efinition fr´equentiste Ex Probabilit´e de r´eussite cette ann´ee en 1er bac `a l’ULg: La population est clairement d´efinie: c’est l’ensemble des N ´etudiants de 1er bac inscrits `a l’ULg cette ann´ee acad´emique. La probabilit´e recherch´ee est x/N ou` x est le nombre d’´etudiants qui r´eussiront. Cependant, x n’est pas encore connu... Ex Probabilit´e de r´eussite de John inscrit cette ann´ee acad´emique en 1er bac `a l’ULg: (cid:46) La population se r´eduit ici `a John qui r´eussira ou ne r´eussira pas son ann´ee. (cid:46) On pourrait ´eventuellement le voir comme faisant partie d’un sous-groupe de N ´etudiants pr´esentant les mˆemes chances de r´eussites: x/N serait alors la probabilit´e recherch´ee...ou` x est le nombre (encore inconnu) d’´etudiants, parmi ceux-l`a, qui r´eussiront. Ex Probabilit´e que ”l’Homme marche sur Mars d’ici 2030”: la d´efinition fr´equentiste est clairement inapplicable ici. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 6 D´efinition ”subjective” • Alternativement, on peut d´efinir la probabilit´e comme ´etant une mesure de convic- tion, `a partir de l’information `a sa disposition (information a priori), d’un individu donn´e par rapport `a une affirmation. C’est, `a ses yeux, la plausibilit´e de cette affirmation. Cette mesure est donc potentiellement sp´ecifique `a la personne concern´ee. • Plusieurs qualificatifs sont associ´es `a cette ”d´efinition”: certains parlent de prob- abilit´es logiques, d’autres de probabilit´es subjectives (H. Jeffreys, R.T. Cox, E.T. Jaynes). • Il est cependant remarquable qu’il y ait un consensus quant aux lois r´egissant la manipulation de ces plausibilit´es (´egalement appel´ees probabilit´es ci-dessous). • Dans la pr´esentation faite traditionnellement par les fr´equentistes, elles sont d’origine axiomatique (axiomatique de Kolmogorov). • Dans l’approche subjective, on peut voir ces lois comme ´etant la cons´equence de quelques r`egles du bon sens commun (E.T. Jaynes, Probability Theory: The Logic of Science, Cambridge University Press, 2006). P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 7 Notations • Soit C, la proposition reprenant l’ensemble de l’information disponible (a priori). Ex Lors du lanc´e d’un d´e, il pourrait s’agir des propri´et´es du d´e, de la mani`ere dont le d´e est lanc´e, du traitement sp´ecifique qui est fait d’un d´e cass´e, etc. Ex Lanc´e d’une pi`ece de monnaie: les propri´et´es de la pi`ece (ex: ´equilibr´ee) et du lanc´e. • P(A|C): la probabilit´e que A soit vraie si C est vraie. ¯ • P(A|C): la probabilit´e que A soit fausse si C est vraie. • P(A + B|C): la probabilit´e que A ou B soient vraies si C est vraie. • P(AB|C): la probabilit´e que A et B soient vraies si C est vraie. • P(A|BC): la probabilit´e que A soit vraie si B et C le sont. Autrement dit, pour une information contextuelle donn´ee C, c’est la probabilit´e que la proposition A soit vraie sachant que B est vraie. Ex C = “Je lance (sans tricher) un d´e standard `a 6 faces” ; B = “J’obtiens un r´esultat pair” ; A = “Le r´esultat est 3”. P. Lambert (cid:13)c - Facult´e des sciences sociales Probabilit´es - 8
Description: