Licence Economie-Gestion, 1`ere Ann´ee Polycopi´e de Statistique Descriptive. Ann´ee universitaire : 2013-2014. The`mes des se´ances de TD Th`eme n.1: Tableaux statistiques et repr´esentations graphiques. Th`eme n.2: Indices de centralit´e. Th`eme n.3: Indices de dispersion et de concentration; Boˆıtes `a moustaches. Th`eme n.4: Tableaux de contingence. Th`eme n.5: Liaisons entre deux variables (χ2, rapport de corr´elation). Th`eme n.6: Liaison fonctionelle entre deux variables; R´egression; Corr´elation lin´eaire. Th`eme n.7: S´eries chronologiques. Th`eme n.8: Indices ´el´ementaires et indices synth´etiques. Fonctionnement des TD, Description du polycopie´ et Mode de controˆle La 1`ere s´eance de TD se d´eroulera la semaine du 30 Septembre au 04 Octobre. Le module est • pr´evu sur dix semaines. La pr´esence est obligatoire. • Ce polycopi´e ainsi que la version imprimable des transparents de cours est t´el´echargeable `a • l’adresse suivante: http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/teaching.html L’adressedupr´ec´edentsiteest´egalementenliendepuisleGoogleAppsdelaLicenced’Economie- Gestion. Ce polycopi´e est d´ecompos´e en huit sections diff´erentes chacune correspondant `a un th`eme. • Chaque section est compos´ee d’un QCM reli´e au Cours Magistral ainsi qu’un certain nombre d’exercices. Pour chaque s´eance, votre travail consiste `a pr´eparer le QCM correspondant au th`eme abord´e ainsi que les ´eventuels exercices que votre enseignant vous aura demand´e de pr´e- parer. Tout ou partie des pr´eparations pourront ˆetre ramass´ees par l’enseignant de TD, libre de l’int´egrer `a sa notre de contrˆole continu. A la fin du polycopi´e de TD, vous trouverez un mini-guide d’utilisation de la calculatrice (qui ne vous dispense pas de lire la documentation de votre calculatrice) ainsi que les examens de Janvier 2012 et de 2013 dans le format dans lequel il ont ´et´e pos´es. L’examen final a lieu en Janvier et compte pour 50% de la note d´efinitive en statistique descrip- • tive. La note deTDcompte´egalement(donc)pour50%. La note de TD(conserv´eeendeuxi`eme session le cas ´ech´eant) est une combinaison (choisie par l’enseignant de TD) de notes de tests faits au cours des s´eances, des pr´eparations ramass´ees, de la participation aux TD ainsi que de la production d’un rapport de statistique sur un th`eme choisi par chaque ´etudiant. 1 Quelques re´fe´rences Ce polycopi´e est largement inspir´e du pr´ec´edent polycopi´e de TD de Statistique Descriptive • r´edig´e par Alain Sombardier. Pierre Bailly. Exercices corrig´es de staztistique descriptive. L’´economie en plus, Presses Uni- • versitaires de Grenoble, 1990. Agn`es Hamon et Nicolas J´egou. Statistique Descriptive - Cours et exercices corrig´es. Pra- • tique de la Statistique, Presses Universitaires de Rennes, 2008. Thomas H. Wonacott et Ronald J. Wonacott. Statistique. Economica,5`eme´edition,1995. • Plusieurs jeux de donn´ees pr´esents dans ce polycopi´e proviennent de rapports de statistiques • d’´etudiants de L1. Quelques sites web contenant de nombreux jeux de donne´es Site web de l’INSEE: www.insee.fr • Site de la Banque Mondiale: donnees.banquemondiale.org/ • Site web du daily-bourse (ou` l’on peut entre autres r´ecup´erer des s´eries chronologiques de chiffre • d’affaires de grandes entreprises) http://www.daily-bourse.fr/ SitewebduCentreNationaldelaCin´ematographiehttp://www.cnc.fr/web/fr/statistiques/ • ... • 2 Pr´enom, Nom et groupe de TD: QCM relatif au The`me n.1 Tableaux statistiques et repre´sentations graphiques Attention: Plusieurs r´eponses sont parfois possibles. Questions 1 `a 5: Une grande entreprise utilise 5 usines de fabrication de taille diff´erente. Les parts du chiffre d’affaires (CA) pour chacune d’entre elles sont: 30%, 30%, 20%, 15% et 5%. Question 1: La population statistique ´etudi´ee est (cid:3) L’ensemble des grandes entreprises (cid:3) Les 5 usines de l’entreprise (cid:3) Le CA (cid:3) La taille des usines Question 2: Un individu de cette population est (cid:3) Un ouvrier (cid:3) Une entreprise (cid:3) Une usine fran¸caise (cid:3) Une des 5 usines ´etudi´ees Question 3: La variable ´etudi´ee est (cid:3) Une usine. C’est une variable qualitative. (cid:3) Le CA. C’est une variable quantitative discr`ete. (cid:3) Le CA. C’est une variable quantitative continue. (cid:3) La part du CA de chaque usine. C’est une variable quantitative continue. Question 4: L’outil adapt´e pour repr´esenter cette variable est (cid:3) Un diagramme en bˆatons. (cid:3) Un tuyau d’orgues. (cid:3) Un camembert. (cid:3) Un histogramme (fr´equenciel). Question 5: Si l’on repr´esente la variable part du CA par un secteur sur disque complet, l’angle associ´e `a la seconde entreprise est de (cid:3) 108◦ (cid:3) 54◦ (cid:3) 1.88 radians (cid:3) 0.94 radians Questions 6 `a 8: La r´epartition en 1984 du nombre de pi`eces des r´esidences principales en France est Nombre de pi`eces 1 2 3 4 5 6 et plus Effectif ( 103) 1200 2700 4700 5500 3500 2500 × Question 6: Un individu de la population statistique ´etudi´ee est (cid:3) Une r´esidence principale. (cid:3) Un nombre de pi`eces. (cid:3) Un m´enage franc¸ais. (cid:3) Une usine! Question 7: La variable ´etudi´ee est de nature (cid:3) qualitative et ordinale. (cid:3) quantitative continue. (cid:3) quantitative discr`ete. (cid:3) qualitative et nominale. Question 8: L’outil graphique pour repr´esenter cette variable est (cid:3) Un tuyau d’orgues. (cid:3) Un diagramme en bˆatons des effectifs. (cid:3) Un diagramme des fr´equences cumul´ees. (cid:3) Un histogramme (fr´equenciel). 3 Question 9: Le terme ”donn´ees individuelles” (cid:3) signifie que les observations sont n´ecessairement quantitatives. (cid:3) signifie que les observations sont n´ecessairement qualitatives. (cid:3) signifie que les donn´ees ont ´et´e regroup´ees par classes ou groupe de modalit´es. (cid:3) signifie que la variable est observ´ee pour chaque individu de la population. Question 10: Le terme ”donn´ees agr´eg´ees” (cid:3) signifie que les observations sont n´ecessairement quantitatives. (cid:3) signifie que les observations sont n´ecessairement qualitatives. (cid:3) signifie que les donn´ees ont ´et´e regroup´ees par classes ou groupe de modalit´es. (cid:3) signifie que les donn´ees n’ont pas ´et´e observ´ees. Questions 11 `a 14: Sur 200000 appels rec¸us pour une ´emission de t´el´evision, 160000 sont re¸cus entre 14h et 19h, les autres sont rec¸us entre 19h et 20h. Question 11: La variable ´etudi´ee est (cid:3) le nombre d’appels. C’est une variable quantitative discr`ete. (cid:3) le nombre d’appels. C’est une variable qualitative discr`ete. (cid:3) l’heure d’appel. C’est une variable quantitative discr`ete. (cid:3) l’heure d’appel. C’est une variable quantitative continue. Question 12: Compl´etez le tableau statistique suivant (les notations sont les mˆemes que celles utilis´ees en cours). Temps (h) n ( 103) f a d i i i i × [14,19[ 160 [19,20] Question 13: L’histogramme fr´equenciel correspondant `a la variable heure d’appel est (lorsque vous l’aurez trouv´e compl´etez les axes) (cid:3) le graphique 1. (cid:3) le graphique 2. (cid:3) le graphique 3. (cid:3) le graphique 4. Graphique 1 Graphique 2 Graphique 3 Graphique 4 100 25 25 6080 150000 1520 1520 40 10 10 20 50000 5 5 0 0 0 0 14 15 16 17 18 19 20 14 15 16 17 18 19 20 14 15 16 17 18 19 20 14 15 16 17 18 19 20 Question 14: L’intervalle d’une heure pour lequel la proportion d’appels a ´et´e la plus ´elev´ee est (cid:3) 14h-15h (cid:3) 18h-19h (cid:3) 18h30-19h30 (cid:3) 19h-20h 4 Exercices relatifs au The`me n.1 Tableaux statistiques et repre´sentations graphiques Exercice 1 Le tableau ci-dessous issu du recensement de 2009 pr´esente les effectifs de la population active des 15 ans ou plus par cat´egorie socio-professionnelle (source INSEE) et par sexe. Les donn´ees (l´eg`erement approch´ees) correspondent `a des milliers d’individus. CSP Hommes Femmes Ensemble Agriculteurs 365 145 510 Artisans 1238 494 1732 Cadres 2750 1746 4496 Professions interm´ediaires 3443 3781 7224 Employ´es 2037 6700 8737 Ouvriers 5719 1365 7084 Total 15552 14231 29783 1. Quels sont la population statistique ´etudi´ee, un individu issu de cette population, les variables ´etudi´ees ainsi que leur nature? 2. Repr´esentez graphiquement sous la forme d’un secteur sur disque complet (camembert) la r´epar- tition de la population active (ind´ependamment du sexe)? 3. Parmi les employ´es, quelle est la proportion de femmes? 4. A l’int´erieur de chaque secteur repr´esentez la part des hommes et celle des femmes. Exercice 2 Le tableau ci-dessous repr´esente la distribution en fr´equences du nombre de v´ehicules par m´enages fran¸cais en 1980, 1990, 2000 et 2010 (source INSEE). Nbre de v´ehiules 1980 1990 2000 2010 0 29.2% 23.2 % 19.7% 16.5 % 1 54.3% 50.5% 50.7% 47.6% 2 14.8% 23% 25.4% 30.7% 3 1.7% 3.3% 4.2% 5.2% 1. Quels sont la population statistique ´etudi´ee, un individu issu de cette population, la variable ´etudi´ee ainsi que sa nature? 2. En particulier, repr´esentez sous la forme d’un diagramme en baˆtons la distribution du nombre des v´ehicules en 2010. 3. Sur le second graphique ajoutez la courbe des fr´equences cumul´ees de la distribution du nombre des v´ehicules en 2010.Commentez. 5 50 100 l l l 0 0 8 4 %) %) 60 e ( 30 e ( c c n n e e u u q q é é Fr Fr 40 0 2 l 0 2 0 1 l 1980 1990 0 2000 0 1 2 3 0 1 2 3 Nbre vehicules Nbre vehicules 4. Quelestpourchacunedesdates, laproportiondesm´enagesayantauplus1v´ehicule? aumoins2? 5. Pour chacune des dates, d´eterminez graphiquement le plus grand nombre N tel que moins de 80% des m´enages fran¸cais ont un nombre de v´ehicules inf´erieur ou ´egal `a N? Exercice 3 Le tableau suivant repr´esente le nombre de personnes (en milliers) sous le seuil de pau- vret´e (60% du revenu m´edian de la population) selon leur ˆage et leur sexe en France en 2010 (source INSEE). Age Femmes Hommes Ensemble [0,18[ 1327 1338 [18,25[ 564 481 [25,35[ 537 391 [35,65[ 1580 1361 [65,100] 689 350 Total 1. Quels sont la population statistique ´etudi´ee, un individu issu de cette population, les variables ´etudi´ees ainsi que leur nature? 2. Compl´etez le pr´ec´edent tableau. 3. Repr´esentez dans le premier graphique la distribution de l’ˆage des individus sous le seuil de la pauvret´e ind´ependamment du sexe. N’oubliez pas de pr´eciser les axes. Commentez. 4. Comment repr´esenter sur ce premier graphique la proportion des individus sous le seuil de pau- vret´e ˆag´es de plus de 40 ans? 6 0 0 1 2 1 0 0 8 1 8 %) 60 e ( c n e 6 qu e Fr 40 4 0 2 2 l Femmes 0 0 Hommes 0 10 20 30 40 50 60 70 80 90 100 0 20 40 60 80 100 Age des individus sous le seuil de pauvrete 5. Sur le second graphique (ci-dessus), repr´esentez la courbe des fr´equences cumul´ees de l’ˆage des femmes sous le seuil de pauvret´e. Commentez. 6. Estimez graphiquement la proportion de femmes puis d’hommes sous le seuil de pauvret´e ayant un ˆage inf´erieur `a 60 ans. 7. Estimez graphiquement l’aˆge A des femmes (puis celui des hommes) sous le seuil de pauvret´e tel quel 60% des femmes (resp. des hommes) aient un ˆage inf´erieur a` A. Exercice 4 Sur200notesd’´etudiants`aundevoirdestatistiquedescriptive,onaobserv´el’histogramme fr´equenciel ci-dessous. Compl´etez le tableau statistique correspondant. 35 30 notes n f F a d i i i i i % par tranche de 5 points 10152025 [.[..[.0..,,,..2..0..[[] 5 0 0 5 10 15 20 Notes Exercice 5 (Annales 2012 et 2013 - Partie I) Traitez la question n.1 des examens de Janvier 2012 et de Janvier 2013. 7 8 Pr´enom, Nom et groupe de TD: QCM relatif au The`me n.2 Indices de centralite´ Attention: Plusieurs r´eponses sont parfois possibles. 10 Question 1: La notation i2 est ´egale `a i=1 (cid:88) (cid:3) 12+22+...+102 (cid:3) (1+2+...+10)2 (cid:3) 1+12+...+110 (cid:3) 1+22+32+42+52+62+72+82+92+102 Question 2: La formule de la moyenne arithm´etique d’une variable quantitative continue (avec les notations standard) est p 1 (cid:3)x = n c . (cid:3)(n c ... n c )/n. (cid:3)(n +c ... n +c )/n. (cid:3)(n c +...+n c )/n. i i 1 1 p p 1 1 p p 1 1 p p n × × × × × × × × i=1 (cid:88) Question 3: La m´ediane d’une s´erie statistique quantitative x s’interpr`ete comme (cid:3) la valeur partageant la population en deux groupes de mˆeme fr´equence. (cid:3) la valeur d’une modalit´e ayant la plus grande fr´equence. (cid:3) la valeur d’une modalit´e telle que 50% des donn´ees soient au del`a de cette valeur. (cid:3) la moyenne entre les plus petite et grande valeurs de x. Question 4: Sur 20 lancers d’un d´e `a 6 faces, on a obtenu 8 fois le 2, 4 fois le 3, 3 fois le 4, 4 fois le 5 et 1 fois le 1. La m´ediane de cette s´erie statistique est (cid:3) ´egale au mode de la distribution. (cid:3) ´egale `a 3. (cid:3) ´egale `a 3.5. (cid:3) ´egale `a 4. Question 5: Avec les notations standard, la formule de la m´ediane d’une variable quantitative continue est (cid:3) Me = x + 50%−Fi(x x ). (cid:3) Me = x + Fi+1−50%(x x ). (cid:3) (x +x )/2. (cid:3) Autre. i Fi+1−Fi i+1− i i Fi+1−Fi i+1− i i i+1 Question 6: Pour une variable qualitative, les indices de centralit´e ayant du sens sont (cid:3) la moyenne arithm´etique. (cid:3) le mode. (cid:3) la m´ediane. (cid:3) l’´ecart-type. Question 7: Le mode d’une variable quantitative discr`ete x est n´ecessairement (cid:3) une valeur observ´ee. (cid:3) une valeur partageant la population en deux groupes ´egaux. (cid:3) une modalit´e de x ayant la plus grande fr´equence. (cid:3) une modalit´e de x ayant le plus grand effectif. Question 8: La classe modale d’une variable quantitative continue x (cid:3) n´ecessairement une classe observ´ee. (cid:3) partage la population en deux groupes ´egaux. (cid:3) est la classe ayant la plus grande fr´equence. (cid:3) est la classe ayant la plus grande densit´e. 9 Question 9: Une entreprise compte deux fois plus d’hommes que de femmes. Le salaire moyen des hommesestde2000eurostandisqueceluidesfemmes1700euros. Lesalairemoyendecetteentreprise (cid:3) est compris entre 1700 et 2000 euros. (cid:3) vaut 1850 euros. (cid:3) vaut 1900 euros. (cid:3) est incalculable. Question 10: Uneentreprisecompte100salari´es. Lesalairemensuelmoyendes99premierssalari´es est de 1000 euros. Le salaire mensuel du 100`eme salari´e vaut 2000 euros. Le salaire moyen des 100 salari´es (cid:3) compris entre 1000 et 2000 euros. (cid:3) vaut 1500 euros. (cid:3) vaut 1010 euros. (cid:3) est incalculable. Question 11: Le prix d’un produit a augment´e de 20% de 2010 `a 2011 puis diminu´e de 20% de 2011 `a 2012. (cid:3) Ce prix a globalement augment´e de 2010 `a 2012. (cid:3) Ce prix a globalement diminu´e de 2010 `a 2012. (cid:3) Ce prix est le mˆeme en 2010 et 2012. (cid:3) On ne peut pas connaˆıtre le prix du produit en 2012. Question 12: Dans le mˆeme contexte que pr´ec´edemment, ce produit a globalement subit une (cid:3) augmentation de 4% sur deux ans, soit en moyenne exactement 2% par an. (cid:3) augmentation de 4% sur deux ans, soit en moyenne 2.02% par an. (cid:3) diminution de 4% sur deux ans, soit en moyenne exactement 2% par an. (cid:3) diminution de 4% sur deux ans, soit en moyenne 2.02% par an. Question 13: Imaginons repr´esenter les salaires d’une entreprise regroup´es en trois classes de mˆeme amplitude entre 1000 et 4000 euros. Repr´esentez l’histogramme d’une s´erie et compl´etez le tableau correspondant de telle fa¸con que le mode, la moyenne et la m´ediane soient toutes trois ´egales. salaire fi ai di os 50 ur [1000,2000[ 1 00 e 40 0 [2000,3000[ 1 e 1 30 d [3000,4000[ 1 nche 20 a ar tr 10 p % 0 1000 2000 3000 4000 salaires (euros) Question 14: Mˆeme contexte que la question pr´ec´edente. Repr´esentez l’histogramme fr´equenciel d’une s´erie et compl´etez le tableau correspondant de telle fa¸con que la moyenne et m´ediane soient toutes deux ´egales et diff´erent du mode (ou classe modale). salaire fi ai di os 50 ur [1000,2000[ 1 00 e 40 0 [2000,3000[ 1 e 1 30 d [3000,4000[ 1 nche 20 a ar tr 10 p % 0 1000 2000 3000 4000 salaires (euros) 10
Description: