cours statistique
2. MOYENNES
COURS DE STATISTIQUES
1. Echantillons
2. Moyennes
2.1. Moyenne arithmtique
2.2. Mdiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne gomtrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pond�r�e
2.8. Moyenne fonctionnelle
2.9 Propri�t�s des moyennes
3. Types de variables
3.1. Variables discr�tes
3.1.2. Esp�rance discr�te
3.1.3. Variance discr�te
3.1.4. Variable centre rduite
3.1.5. Covariance discrte
3.1.6. Coefficient de corrlation
3.2. Variables continues
3.2.1. Densit de probabilit
3.2.2. Esprance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discr�te uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Gomtrique
4.4. Fonction Binomiale
4.5. Fonction hypergomtrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables alatoires normales
4.8.2. Produit de deux variables alatoires normales
4.8.3. Loi Normale Centr Rduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance thorique connue
6.2.2. I.C. sur la variance avec avec moyenne thorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
d'hypothses)
10.1. Analyse de la variance (ANOVA un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs
La notion de "moyenne" ou "tendance centrale" (les financiers appellent cela aussi une "mesure de localisation"...) est avec la notion de "variable" à la base des statistiques.
Cette notion nous semble très familière et nous en parlons beaucoup sans nous poser trop de questions. Pourtant il existe divers qualificatifs (nous insistons sur le fait que ce ne sont que des qualificatifs!) pour distinguer la forme de la résolution d'un problème consistant à calculer la moyenne.
Il faut donc être très très prudent quant aux calculs des moyennes car il y a une fâcheuse tendance dans les entreprises à se précipiter et à utiliser systématiquement la moyenne arithmétique sans réfléchir, ce qui peut amener à de graves erreurs!
Nous verrons ci-dessous différentes moyennes avec des exemples relatifs à l'arithmétique, au dénombrement, à la physique, à l'économétrie, à la géométrie et à la sociologie. Le lecteur trouvera d'autres exemples pratiques en parcourant l'ensemble du site.
Définitions: Soit des nombres réels, nous avons alors :
D1. La "moyenne arithmétique" ou "moyenne empirique" (la plus communément connue) définie par le quotient de la somme des nvaleurs observées par l'effectif total n:
(7.1)
et très souvent notée ou encore
et est pour toute loi statistique discrète ou continue un estimateur sans biais de l'espérance (mais pas forcément).
Si plusieurs valeurs occurrent plus d'une fois dans les mesures, la moyenne arithmétique sera alors souvent notée formellement:
(7.2)
et appelée "moyenne pondérée par les effectifs". Enfin, indiquons que dans le cadre de cette démarche, la moyenne pondérée par les effectifs prendra le nom "d'espérance mathématique" dans le domaine d'étude des probabilités.
Nous pouvons tout aussi bien utiliser les fréquences d'apparition des valeurs observées(dites "fréquence des classes"):
(7.3)
Nous avons alors la "moyenne pondérée par les fréquences de classe":
(7.4)
Avant de continuer, indiquons que dans le domaine de la statistique il est souvent utile et nécessaire de regrouper les mesures/données dans des intervalles de classe de largeur donnée (voir les exemples plus loin). Il faut souvent faire plusieurs essais pour cela même s'il existe des formules semi-empiriques pour choisir le nombre de classes lorsque nous avons n valeurs à disposition. Une des ses règles semi-empiriques utilisée par de nombreux praticiens consiste à retenir le plus petit nombre entier de classes k tel que:
(7.5)
la largeur de l'intervalle de classe étant alors obtenue en divisant l'étendue (différence entre la valeur maximale mesurée et la minimale) park. Par convention et en toute rigueur... (donc rarement respecté dans les notations), un intervalle de classe est fermé à gauche et ouvert à droite: [...,...[.
Ensuite, pour chaque intervalle i le praticien prendra par tradition pour la moyenne entre les deux bornes pour le calcul et la multipliera par la fréquence fi de classe correspondante. Dès lors, le regroupement en fréquence de classe fait que :
1. La moyenne pondérée par les effectifs diffère de la moyenne arithmétique.
2. Vue l'approximation effectuée elle sera un moins bon indicateur que la moyenne arithmétique
3. Elle est très sensible aux choix du nombre de classes donc médiocre à ce niveau là
Plus loin, nous verrons deux propriétés extrêmement importantes de la moyenne arithmétique et de l'espérance mathématique qu'il vous faudra absolument comprendre (moyenne pondérée des écarts à la moyenne et la moyenne des écarts à la moyenne).
D2. La "médiane" ou "moyenne milieu", notée (ou plus simplement M), est la valeur qui coupe une population en deux parties égales. Dans le cas d'une distribution statistique continue f(x) d'une variable aléatoire X, il s'agit de la valeur qui représente 50% de probabilités cumulées d'avoir lieu tel que (nous détaillerons le concept de distribution statistique plus loin très en détails):
(7.6)
Dans le cas d'une série de valeurs ordonnées , la médiane est donc de par sa définition la valeur de la variable telle que l'on ait autant d'éléments qui ont une valeur qui lui est supérieure ou égale, que d'éléments qui ont une valeur qui lui est inférieure ou égale. Elle est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique
Plus rigoureusement:
- Si le nombre de termes est impair, de la forme 2n+1, la médiane de la série est le terme de rang n+1 (que les termes soient tous distincts ou non!).
- Si le nombre de termes est pair, de la forme 2n, la médiane de la série est la demi-somme (moyenne arithmétique) des valeurs des termes de rang n et n + 1 (que les termes soient tous distincts ou non!).
Dans tous les cas, de par cette définition, il découle qu'il y a au moins 50 % des termes de la série inférieurs ou égaux à la médiane, et au moins 50% des termes de la série supérieurs ou égaux à la médiane.
Considérons par exemple la table de salaires ci-dessous:
N° Employé | Salaire | Cumul employés | %Cumul employés |
1 | 1200 | 1 | 6% |
2 | 1220 | 2 | 12% |
3 | 1250 | 3 | 18% |
4 | 1300 | 4 | 24% |
5 | 1350 | 5 | 29% |
6 | 1450 | 6 | 35% |
7 | 1450 | 7 | 41% |
8 | 1560 | 8 | 47% |
9 | 1600 | 9 | 53% |
10 | 1800 | 10 | 59% |
11 | 1900 | 11 | 65% |
12 | 2150 | 12 | 71% |
13 | 2310 | 13 | 76% |
14 | 2600 | 14 | 82% |
15 | 3000 | 15 | 88% |
16 | 3400 | 16 | 94% |
17 | 4800 | 17 | 100% |
Il y a un nombre impair 2n+1 de valeurs. Donc la médiane de la série est le terme de rangn+1. Soit 1'600.- (résultat que vous donnera n'importe quel tableur informatique). La moyenne arithmétique quant à elle vaut 2'020.
En relation directe avec la médiane il est important de définir le concept suivant afin de comprendre le mécancisme sous-jacent:
Définition: Soit donné une série statistique , nous appelons "dispersion des écarts absolus" autour de x le nombre
défini par :
(7.7)
est minimum pour une valeur de x la plus proche d'une valeur donnée
au sens de l'écart absolu. La médiane est la valeur qui réalise ce minimum (extrémum)! L'idée va alors consister à étudier les variations de la fonction pour trouver le rang de cet extrémum.
En effet, nous pouvons écrire :
(7.8)
Donc par définition de la valeur x :
(7.9)
Ce qui nous permet donc de faire sauter les valeurs absolues est simplement le choix de l'indice r qui est pris de telle manière que la série de valeurs peut en pratique toujours être coupé en deux parties: tout ce qui est inférieur à un élément de la série indexé par r et tout ce qui lui est supérieur (la médiane donc par anticipation).
est donc une fonction affine (assimilable à l'équation d'une droite pour r etn fixés) par morceaux (discrète) où l'on peut assimiler le facteur:
2r-n (7.10)
à la pente et:
(7.11)
à l'ordonnée à l'origine.
La fonction est donc décroissante (pente négative) tant que r est inférieur à n/2 et croissante quand r est supérieur à n/2. Plus précisément, nous distinguons deux cas qui nous intéressent particulièrement puisque n est un entier (elle pas donc par un extremum!) :
- Si n est pair, nous pouvons poser , alors la pente peut s'écrire
et elle est nulle si
et dès lors puisque ce résultat n'est valable par construction que pour
alors
est constante sur
et nous avons un extrémum obligatoirement au milieu de cet intervalle (moyenne arthmétique des deux termes).
- Si n est impair, nous pouvons poser (nous coupons la série en deux parties égales), alors le pente peut s'écrire
et elle est donc nulle si
et dès lors puisque ce résultat n'est valable que pour
alors il est immédiat que la valeur du milieu sera la médiane
.
Nous retrouvons donc bien la médiane dans les deux cas. Nous verrons aussi plus loin comment la médiane est définie pour une variable aléatoire continue.
Il existe un autre cas pratique où le statisticien n'a à sa disposition que des valeurs regroupées sous forme d'intervalles de classes statistiques. La procédure pour déterminer la médiane est alors différente:
Lorsque nous avons à notre disposition uniquement une variable classée, l'abscisse du point de la médiane se situe en général à l'intérieur d'une classe. Pour obtenir alors une valeur plus précise de la médiane, nous procédons à une interpolation linéaire. C'est ce que nous appelons la "méthode d'interpolation linéaire de la médiane".
La valeur de la médiane peut être lue sur le graphique ou calculée analytiquement. Effectivement, considérons le graphique représentant la probabilité cumulée F(x) en intervalles de classe comme ci-dessous où les bornes des intervalles ont été reliées par des droites:
(7.12)
La valeur de la médiane M se trouve évidemment au croisement entre la probabilité de 50% (0.5) et l'abscisse. Si nous prenons dans le cadre particulier de l'exemple ci-dessus la borne supérieure de l'intervalle de classe précédant celle contenant la médiane nous avons 2 et 4 pour la borne inférieure de l'intervalle suivant. Nous avons alors en calculant la pente la relation suivante:
(7.13)
Ce que nous écrivons fréquemment:
(7.14)
d'où la valeur de la médiane:
(7.15)
Prenons le tableau suivant que nous retrouverons bien plus tard dans le présent chapitre:
Montant des |
Nombre de tickets |
Nombre cumulés de tickets |
Fréquences |
[0;50[ |
668 |
668 |
0.068 |
[50,100[ |
919 |
1'587 |
0.1587 |
[100,150[ |
1'498 |
3'085 |
0.3085 |
[150,200[ |
1'915 |
5000 |
0.5000 |
[200,250[ |
1'915 |
6'915 |
0.6915 |
[250,300[ |
1'498 |
8'413 |
0.8413 |
[300,350[ |
919 |
9'332 |
0.9332 |
[350,400[ |
440 |
9'772 |
0.9772 |
[400 et + |
228 |
10'000 |
1 |
Nous voyons que la "classe médiane" est dans l'intervalle [150,200] car la valeur cumulée de 0.5 s'y trouve (colonne toute à droite) mais la médiane a elle, en utilisant la relation établie précédemment, précisément une valeur de (c'est trivial dans l'exemple particulier du tableau ci-dessus mais faisons quand même le calcul...):
(7.16)
et nous pouvons faire de même avec n'importe quel autre centile bien évidemment!
Nous pouvons également donner une définition pour déterminer la valeur modale si nous sommes seulement en possession des fréquences des classes d'intervalles. Pour cela partons du diagramme en barre des fréquences simplifié ci-dessous:
(7.17)
En utilisant les relations de Thalès (cf. chapitre de Géométrie Euclidienne), nous avons immédiatement, en notant M la valeur modale:
(7.18)
Comme dans une proportion, on ne change pas la valeur du rapport en additionnant les numérateurs et en additionnant les dénominateurs, il vient:
(7.19)
Nous avons alors:
(7.20)
Avec l'exemple précédent cela donne alors:
(7.21)
La question qui se pose ensuite est celle de la pertinence du choix de la moyenne, du mode ou de la médiane et termes de communication...
Un bon exemple reste celui du marché du travail où de façon générale, alors que le salaire moyen et le salaire médian sont relativement différents, les institutions de statistiques étatiques calculent la médiane que beaucoup de médias traditionnels assimilent alors explicitement au concept de "moyenne arithmétique" dans leurs communiqués.
Les "quantiles" généralisent la notion de médiane en coupant la distribution en des ensembles données de parties égales (de même cardinal pourrions nous dire...) ou autrement dit en intervalles réguliers. Nous définissons ainsi les "quartiles", les "déciles" et les "centiles" (ou "percentiles") sur la population, ordonnée dans l'ordre croissant, que nous divisons en 4, 10 ou 100 parties de même effectif.
Nous parlerons ainsi du centile 90 pour indiquer la valeur séparant les premiers 90% de la population des 10% restant.
Précisons que dans la version francophone de MS Excel les fonctions QUARTILE( ), CENTILE( ), MEDIANE( ), RANG.POURCENTAGE ( ) sont disponibles et spécifions qu'il existe plusieurs variantes de calcul des ces centiles d'où une variation possible entre les résultats sur différents logiciels.
Ce concept est très important dans le cadre des intervalles de confiance que nous verrons beaucoup plus loin dans ce chapitre et très utile dans le domaine de la qualité avec l'utilisation des boîtes à moustaches (traduction de Box & Whiskers Plot ou BoxPlot) permettant de comparer rapidement deux populations de données et surtout d'éliminer les valeurs aberrantes (prendre comme référence la médiane sera justement plus judicieux!):
(7.22)
Une autre représentation mentale très importante des boîtes à moustache est la suivante (elle permet de se donner donc une idée de l'asymétrie de la distribution):
(7.23)
D4. Par analogie avec la médiane, nous définissons la "médiale" comme étant la valeur (dans l'ordre croissant des valeurs) qui partage la somme (cumuls) des valeurs en deux masses égales (donc la somme totale divisée par deux).
Dans le cas de salaires, alors que le médiane donne le 50% des salaires se trouvant en-dessous et en-dessus, la médiale donne combien de salariés se partagent (et donc le salaire partageant) la première moitié et combien de salariés se partagent la seconde moitié de l'ensemble des coûts salariaux.
Par exemple pour revenir à notre tableau sur les salaires:
N° Employé | Salaire | Cumul salaire | %Cumulé salaire |
1 | 1200 | 1200 | 3.5% |
2 | 1220 | 2420 | 7% |
3 | 1250 | 3670 | 10.7% |
4 | 1300 | 4970 | 14.5% |
5 | 1350 | 6320 | 18.4% |
6 | 1450 | 7770 | 22.6% |
7 | 1450 | 9220 | 26.8% |
8 | 1560 | 10780 | 31.4% |
9 | 1600 | 12380 | 36.1% |
10 | 1800 | 14180 | 41.3% |
11 | 1900 | 16080 | 46.8% |
12 | 2150 | 18230 | 53.1% |
13 | 2310 | 20540 | 59.8% |
14 | 2600 | 23140 | 67.4% |
15 | 3000 | 26140 | 76.1% |
16 | 3400 | 29540 | 86% |
17 | 4800 | 34340 | 100% |
La somme de tous les salaires fait donc 34'340 et la médiale est alors 17'170 (entre l'employé n°11 et 12) alors que la médiane était de 1'600. Nous voyons alors que la médiale correspond au 50% du cumul. Ce qui est un indicateur très utile dans le cadre des analyse de Pareto ou de Lorenz par exemple (cf. chapitre de Technique de Gestion).
D5. La "moyenne quadratique" parfois simplement notée Q qui est définie par :
(7.24)
avec m=2.
Exemple:
Soit un carré de côté a , et un autre carré de côté b. La moyenne des aires des deux carrés est égale à carrée de côté:
(7.25)
D6. La "moyenne harmonique" parfois simplement notée H est définie par :
(7.26)
peu connue mais découle souvent de raisonnements simples et pertinents (typiquement la résistance équivalente d'un circuit électrique ayant plusieurs résistances en parallèles). Il existe une fonction MOYENNE.HARMONIQUE( ) dans MS Excel pour la calculer.
Exemple:
Soit une distance d parcourue dans un sens à la vitesse et dans l'autre (ou pas) à la vitesse
. La vitesse moyenne s'obtiendra en divisant la distance totale 2d par le temps mis à la parcourir:
(7.27)
Si nous calculons le temps mis lorsqu'on parcourt d avec une vitesse c'est tout simplement le quotient:
(7.28)
Le temps total vaut donc:
(7.29)
La vitesse moyenne (son inverse pour être exacte) sera donc bien du type harmonique :
(7.30)
D7. La "moyenne géométrique" parfois notée simplement G est définie par :
(7.31)
Cette moyenne est souvent oubliée mais néanmoins très connue dans le domaine de l'économétrie (surtout quand nous étudierons le rendement géométrique moyen) et de la finance d'entreprise (cf. chapitre Techniques De Gestion) raison pour laquelle il existe une fonction MOYENNE.GEOMETRIQUE( ) dans MS Excel pour la calculer.
Exemple:
Supposons qu'une banque offre une possibilité de placement et prévoit pour la première année un intérêt (c'est absurde mais c'est un exemple) de , mais pour la deuxième année un intérêt de
Au même moment une autre banque offre un intérêt constant pour deux ans: X%. C'est pareil, dirons-nous un peu rapidement. En fait les deux placements n'ont pas la même rentabilité.
Dans la première banque, un capital deviendra au bout de la première année:
(7.32)
et la seconde année:
(7.33)
Dans l'autre banque nous aurons au bout d'un an:
(7.34)
et après la seconde année:
(7.35)
etc...
Comme vous pouvez le voir le placement ne sera pas identique si ! Donc X% n'est donc pas la moyenne de
et
.
Posons maintenant:
et
(7.36)
Quelle est en fait la valeur moyenne r ?
Au bout de deux ans le capital est multiplié par . Si la moyenne vaut r il sera alors multiplié par
. Nous avons donc la relation:
(7.37)
C'est un exemple d'application où nous retrouvons donc la moyenne géométrique. L'oubli de la moyenne harmonique une erreur fréquente dans les entreprises lorsque certains employés calculent le taux moyen d'augmentation d'une valeur de référence.
D8. La "moyenne mobile", appelée aussi "moyenne glissante" est définie par:
(7.38)
La moyenne mobile est particulièrement utilisée en économie, où elle permet de représenter une courbe de tendance d'une série de valeurs, dont le nombre de points est égal au nombre total de points de la série de valeurs moins le nombre que vous spécifiez pour la période.
Une Moyenne Mobile (MM) en finance est calculée à partir des moyennes des cours d'une valeur, sur une période donnée: chaque point d'une moyenne mobile sur 100 séances est la moyenne des 100 derniers cours de la valeur considérée. Cette courbe, affichée simultanément avec la courbe d'évolution des cours de la valeur, permet de lisser les variations journalières de la valeur, et de dégager des tendances.
Les moyennes mobiles peuvent être calculées sur différentes périodes, ce qui permet de dégager des tendances à court terme MMC (20 séances selon les habitudes de la branche), moyen terme (50-100 séances) ou long termeMML (plus de 100 séances).
(7.39)
Les croisements des moyennes mobiles par la courbe des cours (découpée avec une certaine granularité) de la valeur génèrent des signaux d'achat ou de vente (selon les professionnels) suivant le cas:
- Signal d'achat: lorsque la courbe des cours franchit la MM.
- Signal de vente: lorsque la courbe des cours franchit la MM vers le bas.
Outre la moyenne mobile, précisons qu'il existe une quantité d'autres indicateurs artificiels souvent utilisés en finance comme par exemple le "upside/downside ratio".
L'idée est la suivante: Si vous avec un produit financier (cf. chapitre d'Économétrie) actuellement de prix (prix courant) pour lequel vous avez un objectif de gain haut à un prix haut correspondant que noterons
(high price) et inversement le potentiel de perte que vous estimez à un prix
(low price).
Alors, le rapport:
(7.40)
donne le Upside/Downside Ratio.
Par exemple, un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 5.- a donc un ratio et donc un facteur spéculatif identique pour permette le grain ou une perte de 5.-.
Un produit financier de 10.- avec un prix bas de 5.- et un prix haut de 20.- a donc un donc deux fois le potentiel spéculatif de gain par rapport à celui de perte.
Certaines associations boursières recommandent de refuser les inférieurs à 3. Les investisseurs ont tendance à rejeter les
trop élevés pouvant être un signe de gonflage artificiel.
D9. La "moyenne pondérée" (dont nous avons déjà fait mention plus haut d'un cas particulier) est définie par:
(7.41)
et est utilisée par exemple en géométrie pour localiser le barycentre d'un polygone, en physique pour déterminer le centre de gravité ou en statistiques pour calculer une espérance (le dénominateur étant toujours égal à l'unité en probabilités) et en gestion de projets pour estimer les durées des tâches.
Dans le cas général le poids représente l'influence pondéré ou arbitraire/empirique de l'élément
par rapport aux autres.
D10. La "moyenne fonctionnelle" ou "moyenne intégrale" est définie par :
(7.42)
où dépend d'une fonction f d'une variable réelle intégrable (cf. chapitre de Calcul Différentiel Et Intégral) sur un intervalle [a,b]. Elle est très souvent utilisée en théorie du signal (électronique, électrotechnique).
2.9. PROPRIÉTÉS DES MOYENNES
Voyons maintenant quelques propriétés pertinentes qui relient quelques-unes de ces moyennes ou qui sont propres à une moyenne donnée.
Les premières propriétés sont importantes donc prenez garde à bien les comprendre :
P1. Le calcul des moyennes arithmétique, quadratique et harmonique peut être généralisé à l'aide de la relation suivante :
(7.43)
où nous retrouvons :
1. Pour , la moyenne arithmétique
2. Pour , la moyenne quadratique
3. Pour , la moyenne harmonique
P2. La moyenne arithmétique a une propriété de linéarité, c'est-à-dire que (sans démonstration car quand simple à vérifier) :
(7.44)
C'est la version statistique de la propriété de l'espérance en probabilité que nous verrons plus loin.
P3. La somme pondérée des écarts à la moyenne arithmétique est nulle.
Démonstration:
D'abord, par définition, nous savons que :
et
(7.45)
il s'ensuit que :
(7.46)
Ainsi, cet outil ne peut être utilisé comme mesure de dispersion!
Par extension la moyenne des écarts à la moyenne pondérée par les effectifs est nulle aussi :
(7.47)
C.Q.F.D.
Ce résultat est relativement important car il permettra plus loin de mieux saisir le concept d'écart-type et de variance.
P4. Soit à démontrer :
(7.48)
Démonstration:
Tout d'abord, nous prenons deux nombres réels non nuls et
tels que
et nous écrivons :
1. La moyenne arithmétique :
(7.49)
2. La moyenne géométrique :
(7.50)
3. La moyenne harmonique :
(7.51)
4. La moyenne quadratique :
(7.52)
Prouvons déjà que par l'absurde en posant
:
(7.53)
Par commodité posons nous savons que
. Or :
(7.54)
et nous cherchons à montrer que n'est pas possible. Mais ceci découle des équivalences suivantes :
(7.55)
Il y donc contradiction et ce qui vérifie notre hypothèse initiale :
(7.56)
Regardons maintenant si :
Sous l'hypothèse . Nous cherchons donc maintenant à montrer que :
(7.57)
Or nous avons les équivalences suivantes :
(7.58)
et la dernière expression est évidement correcte.
Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :
(7.59)
Nous prouvons maintenant et démontrons-le par l'absurde en posant
:
(7.60)
Or le carré d'un nombre est toujours positif ce qui vérifie notre hypothèse initiale :
(7.61)
Nous avons donc bien :
(7.62)
Démontrons par l'absurde que en posant
et que
.
Démonstration:
Nous avons alors :
(7.63)
Il y a donc contradiction avec l'hypothèse initiale et nous avons donc bien :
(7.64)
C.Q.F.D.
Ces inégalités démontrées, nous pouvons alors passer à une figure que nous attribuons à Archimède pour placer trois de ces moyennes. L'intérêt de cet exemple est de montrer qu'il existe des relations remarquables parfois entre la statistique et la géométrie (fruit du hasard ???).
(7.65)
Nous allons d'abord poser etO est le milieu de
. Ainsi, le cercle dessiné
est de centre O et de rayon
. D est l'intersection de la perpendiculaire à
passant par B et du cercle
(nous choisissons l'intersection que nous voulons). Hest quant à lui le projeté orthogonal de B sur
.
Archimède affirme que est la moyenne arithmétique de a et b et que
est la moyenne géométrique de a et b, et
la moyenne harmonique de a et b.
Nous démontrons donc que (trivial) :
(7.66)
Donc est bien la moyenne arithmétique
de a et b.
Ensuite nous avons dans le triangle rectangleADB:
(7.67)
Puis dans le triangle rectangle nous avons :
(7.68)
Nous additionnons alors ces deux égalités, et nous trouvons :
(7.69)
Nous savons que D est sur un cercle de diamètre , donc ADC est rectangle en D, donc :
(7.70)
Puis nous remplaçons et
par a etb:
(7.71)
Et donc, est bien la moyenne géométrique
de a et b.
Nous reste à prouver alors que est la moyenne harmonique de a et b :
Nous avons dans un premier temps (projection orthogonale) :
(7.72)
Puis nous avons aussi (projection orthogonale aussi):
(7.73)
Nous avons donc :
(7.74)
et comme , nous avons donc :
(7.75)
est donc bien la moyenne harmonique dea et b, Archimède ne s'était pas trompé.
4. FONCTIONS DE DISTRIBUTIONS
COURS DE STATISTIQUES
1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs
Lorsque nous observons des phénomènes probabilistes, et que nous prenons note des valeurs prises par ces derniers et que nous les reportons graphiquement, nous observons toujours que les différentes mesures obtenues suivent une caractéristique courbe ou droite typique fréquemment reproductible.
Dans le domaine des probabilités et statistiques, nous appelons ces caractéristiques des "fonctions de distribution" car elles indiquent la fréquence avec laquelle la variable aléatoire apparaît avec certaines valeurs.
Ces fonctions sont en pratique bornées par ce que nous appelons "l'étendue de la distribution", ou "dispersion de la distribution", qui correspond à la différence entre la donnée maximale (à droite) et la donnée minimale (à gauche) des valeurs observées :
(7.159)
Si les valeurs observées se distribuent d'une certaine manière c'est qu'elles ont alors une probabilité d'avoir une certaine valeur de la fonction de distribution.
Dans la pratique industrielle (cf. chapitre de Génie Industriel), la dispersions de valeurs statistiques est important parce qu'elle donne une indication sur la vairation d'un processus (variablité).
Définitions:
D1. La relation mathématique qui donne la probabilité qu'a une variable aléatoire d'avoir une valeur donnée de la fonction de distribution est appelée "fonction de densité", "fonction de masse" ou encore "fonction marginale".
D2. La relation mathématique qui donne la probabilité cumulée qu'a une variable aléatoire d'être inférieure ou égale à une certaine valeur est nommée la "fonction de répartition" ou "fonction cumulée".
D3. Des variables aléatoires sont dites "indépendantes et identiquement distribuées" (i.i.d.) si elles suivent toutes la même fonction de distribution et qu'elles sont indépendantes...
De telles fonctions étant très nombreuses dans la nature, nous proposons au lecteur une étude détaillée des plus connues seulement.
4.1. FONCTION DISCRÈTE UNIFORME
Si nous admettons qu'il est possible d'associer une probabilité à un événement, nous pouvons concevoir des situations où nous pouvons supposer a priori que tous les événements élémentaires sont équiprobables (c'est-à-dire qu'ils ont même probabilité). Nous utilisons alors le rapport entre le nombre de cas favorables et le nombre de cas possibles pour calculer la probabilité de tous les événements de l'Univers des événements U. Plus généralement si U est un ensemble fini d'événements équiprobables et A une partie deU nous avons sous forme ensembliste :
(7.160)
Plus communément, soit e un événement pouvant avoir N issues équiprobables possibles. Alors la probabilité d'observer l'issue donnée de l'événement suit une "fonction discrète uniforme" (ou "loi discrète uniforme") donnée par la relation :
(7.161)
Ayant pour espérance (ou moyenne) :
(7.162)
Si nous nous mettons dans le cas particulier où avec
. Nous avons alors (cf. chapitre de Suites et Séries):
(7.163)
Et pour variance:
(7.164)
Exemple:
Tracé de la fonction de distribution et respectivement de répartition pour la loi discrète uniforme de paramètres {1,5,8,11,12} (nous voyons que chaque valeur a bien une probabilité équiprobable) :
4.2. FONCTION DE BERNOULLI
COURS DE STATISTIQUES
1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs
Si nous avons affaire à une observation binaire alors la probabilité d'un événement reste constant d'une observation à l'autre s'il n'y a pas d'effet mémoire (autrement dit: une somme de variables de Bernoulli, deux à deux indépendantes).
Nous appelons ce genre d'observations où la variable aléatoire à valeurs 0 ou 1, avec probabilité (1-p), p respectivement, des "essais de Bernoulli" avec "événements contraires à probabilités contraires".
Ainsi, une variable aléatoire X suit une "fonction de Bernoulli" (ou "loi de Bernoulli") si elle ne peut prendre que les valeurs 0 ou 1, associées aux probabilités q et p de sorte que et:
(7.166)
L'exemple classique d'un tel processus est le jeu de pile de face ou de tirage avec remise. Il est inutile de vérifier formellement que la probabilité cumulée est unitaire...
Remarquons que par extension, si nous considérons N événements où nous obtenons dans un ordre particulier k fois une des issues possible (réussite) et N-k l'autre (échec), alors la probabilité d'obtenir une telle série (de kréussites et N-k échecs ordonnées dans un ordre particulier) sera donnée par:
(7.167)
conformément à ce que nous avions vu obtenu en combinatoire dans le chapitre de Probabilités!
Exemple:
Tracé de la fonction pour :
(7.168)
La fonction de Bernoulli a donc pour espérance (moyenne):
(7.169)
et pour variance (nous utilisons la formule de Huyghens démontrée plus haut):
(7.170)
FONCTION GÉOMÉTRIQUE
La loi géométrique ou "loi de Pascal" consiste dans une épreuve de type Bernoulli, dont la probabilité de succès est p et celle d'échec sont constantes, que nous renouvelons de manière indépendante jusqu'au premier succès.
Si nous appelons X la variable aléatoire donnant le rang du premier succès la probabilité que est alors (cas particulier de la fonction de Bernoulli):
(7.171)
avec .
Cette loi a pour espérance:
(7.172)
Or, cette dernière relation s'écrit aussi (car c'est une simple série géométrique):
(7.173)
Effectivement, nous avons démontré dans le chapitre sur les Suites et Séries que :
(7.174)
En prenant la limite lorsque nous obtenons :
(7.175)
car .
Ensuite, il suffit de dériver les deux membres de l'égalité par rapport à q et nous obtenons :
(7.176)
Nous avons donc le nombre moyen d'essais Xqu'il faut faire pour arriver au premier succès:
(7.177)
Calculons maintenant la variance en rappelant comme à chaque fois que (formule de Huyghens):
(7.178)
Commençons donc par calculer :
(7.179)
Le dernier terme de cette expression est l'équivalent de l'espérance calculée précédemment. Soit :
(7.180)
Il reste à calculer :
(7.181)
Nous avons :
(7.182)
Or en dérivant l'égalité :
(7.183)
Nous obtenons :
(7.184)
Par conséquent :
(7.185)
Donc :
(7.186)
Pour finir :
(7.187)
Exemple:
E1. Vous essayez, tard dans la nuit et dans l'obscurité, d'ouvrir une serrure au moyen d'un trousseau de 5 clés, sans porter attention, car vous êtes un peu fatigué (ou un peu éméché...) vous essayez chaque clé. Sachant qu'une seule convient, quelle est la probabilité d'utiliser la bonne clé au k-ème essai?
(7.188)
E2. Tracé de la fonction de distribution et répartition pour la fonction Géométrique de paramètre :
(7.189)
Déterminons maintenant la fonction de répartition de la loi géométrique. Nous partons donc de:
(7.190)
nous avons alors par définition la probabilité que l'expérience réussisse dans les n premiers essais:
(7.191)
avec n entier valant 0...1...2, etc.
Posons:
(7.192)
Nous avons alors:

4.4. FONCTION BINOMIALE
COURS DE STATISTIQUES
1. Echantillons
2. Moyennes
2.1. Moyenne arithmétique
2.2. Médiane
2.3. Moyenne quadratique
2.4. Moyenne harmonique
2.5. Moyenne géométrique
2.6. Moyenne mobile/glissante
2.7. Moyenne pondérée
2.8. Moyenne fonctionnelle
2.9 Propriétés des moyennes
3. Types de variables
3.1. Variables discrètes
3.1.2. Espérance discrète
3.1.3. Variance discrète
3.1.4. Variable centrée réduite
3.1.5. Covariance discrète
3.1.6. Coefficient de corrélation
3.2. Variables continues
3.2.1. Densité de probabilité
3.2.2. Espérance continue
3.2.3. Variance continue
4. Fonctions de distributions
4.1. Fonction discrète uniforme
4.2. Fonction de Bernoulli
4.3. Fonction Géométrique
4.4. Fonction Binomiale
4.5. Fonction hypergéométrique
4.6. Fonction multinomiale
4.7. Fonction de Poisson
4.8. Fonction de Gauss-Laplace/Loi Normale
4.8.1. Somme de deux variables aléatoires normales
4.8.2. Produit de deux variables aléatoires normales
4.8.3. Loi Normale Centré Réduite
4.8.4. Droite de Henry
4.9. Fonction Log-Normale
4.10. Fonction uniforme continue
4.11. Fonction triangulaire
4.12. Fonction de Pareto
4.13. Fonction exponentielle
4.14. Fonction de Cauchy
4.15. Fonction bêta
4.16. Fonction gamma
4.17. Fonction de khi-deux
4.18. Fonction de Student
4.19. Fonction de Fisher-Snedecor
4.20. Fonction de Benford
5. Estimateurs de vraisemblance
5.1. Estimateurs de la loi Normale
5.2. Estimateur de la loi de Poisson
5.3. Estimateur de la loi de Binomiale
5.4. Estimateurs de la loi de Weibull
6. Intervalles de confiance
6.1.1. I.C. sur la moyenne avec avec variance théorique connue
6.2.2. I.C. sur la variance avec avec moyenne théorique connue
6.3.3. I.C. sur la variance avec avec moyenne empirique connue
6.4.4. I.C. sur la moyenne avec avec moyenne empirique connue
7. Loi faible des grands nombres
7.1.1. Inégalité de Markov
7.2.2. Inégalité de Bienaymé-Tchebychev
8. Fonction caractéristique
9. Théorème central limite
10. Tests d'adéquations (tests d'hypothèses)
10.1. Analyse de la variance (ANOVA à un facteur)
10.2. Test d'ajustement du khi-deux
11. Calculs d'erreurs
11.1. Incertitudes relatives et absolues
11.2. Erreurs statistiques
11.3. Propagation des erreurs
11.4. Chiffres significatifs
Si nous revenons maintenant à notre épreuve de Bernoulli. Plus généralement, tout N-uplet particulier formé de k succès et de N-k échecs aura pour probabilité (dans le cadre d'un tirage avec remise ou sans remise si la population est grande en première approximation...):
(7.194)
d'être tiré (ou d'apparaître) quel que soit l'ordre d'apparition des échecs et réussites.
Mais, nous savons que la combinatoire permet de déterminer le nombre de N-uplets de ce type (le nombre de manières d'ordonner les apparitions d'échecs et de réussites). Le nombre d'arrangements possibles étant, nous l'avons démontré (cf. chapitre Probabilités), donné par la binomiale :
(7.195)
Donc comme la probabilité d'obtenir une série de k succès et N-k échecs particuliers est toujours identique (quelque soit l'ordre) alors il suffit de multiplier la probabilité d'une série particulière par la combinatoire (cela étant équivalent à faire à une somme):
(7.196)
pour avoir la probabilité totale d'obtenir une quelconque de ces séries possibles (puisque chacune est possible).
Ecrite autrement ceci donne la "fonction Binomiale" (ou "loi Binomiale") connue aussi sous la forme de la fonction de distribution suivante:
(7.197)
et parfois notée:
(7.198)
et peut être calculée dans MS Excel à l'aide de la fonction LOI.BINOMIALE( ).
Nous disons parfois que la loi Binomiale est non exhaustive car la taille de la population initiale n'est pas apparente dans l'expression de la loi.
Exemple:
Nous souhaitons tester l'alternateur d'un groupe électrogène. La probabilité de défaillance à la sollicitation de ce matériel est estimée à 1 défaillance pour 1'000 démarrages.
Nous décidons d'effecteur un test de 100 démarrages. La probabilité d'observer 1 panne au cours de ce test est de:
(7.199)
Nous avons bien évidemment pour la fonction de répartition (très utile dans la pratique comme le contrôle de lots de fournisseurs ou la fiabilité!):
(7.200)
Effectivement, nous avons démontré dans le chapitre de Calcul Algébrique que:
(7.201)
Donc:
(7.202)
Il vaut mieux utiliser MS Excel pour ne pas s'embêter à calculer ce genre de relations (ou tout autre logiciel largement répandu) en utilisant la fonction CRITERE.LOI.BINOMIALE( ).
L'espérance mathématique (moyenne) deP(N,k) est:
(7.203)
Or:
(7.204)
d'où:
(7.205)
donne le nombre moyen de fois que l'on obtiendra l'issue souhaitée de probabilité paprès N essais.
Avant de calculer la variance, introduisons la relation suivante:
(7.206)
En effet, en utilisant les développements précédents:
(7.207)
Commençons maintenant le (long) calcul de la variance dans lequel nous allons utiliser les résultats précédents:

(7.208)
L'écart-type étant , nous avons :
(7.209)
Exemple:
Tracé de la fonction de distribution et respectivement de répartition de la loi binomiale :
(7.210)
FONCTION HYPERGÉOMÉTRIQUE
Nous considérons pour approche à cette fonction un exemple simple concernant une urne contenant n boules dont m sont noires et les autres m' blanches (pour un exemple concret utilisé dans l'industrie se reporter au chapitre de Génie Industriel). Nous tirons successivement, et sans les remettre dans l'urne, p boules. Quelle est la probabilité que parmi ces p boules, il y en ait k qui soient noires (dans cet énoncé l'ordre du tirage ne nous intéresse donc pas!).
Nous parlons souvent de "tirage exhaustif" avec la loi hypergéométrique car contrairement à la loi binomiale, la taille du lot qui sert de base au tirage va apparaître dans la loi. Raison pour laquelle la loi hypergéométrique tend vers les valeurs de la loi normale lorsque la taille du lot est petite.
Les p boules peuvent être choisies parmi les nboules de façons (représentant donc le nombre de tirages différents possibles) avec pour rappel (cf. chapitre de Probabilités) :
(7.211)
Les k boules noires peuvent être choisies parmi les m noires de façons. Les p-k boules blanches peuvent être elles choisies de
façons. Il y a donc
tirages qui donnent k boules noires et p-k boules blanches.
La probabilité recherchée vaut donc:
(7.212)
et est dite suivre une "fonction Hypergéométrique" (ou "loi Hypergéométrique") et peut être obtenue heureusement de manière directe dans MS Excel avec la fonction LOI.HYPERGEOMETRIQUE( ).
Exemples:
E1. Nous souhaitons mettre en production un petit développement informatique de 10'000 lignes de code. Le retour d'expérience) montre que la probabilité de défaillance est de 1 bug pour 1'000 lignes de code.
Nous testons environ 50% des fonctions du logiciel au hasard avant l'envoi au client (soit l'équivalent de 5'000 lignes de code). La probabilité d'observer 5 bugs est avec MS Excel:
=LOI.HYPERGEOMETRIQUE(5;5000;10000;10000)=24.62%
E2. Dans une petite production unique d'un lot de 1'000 pièces dont nous savons que 30% en moyenne sont mauvaises à cause de la complexité des pièces par retour d'expérience d'un fabrication précédente similaire. Nous savons qu'un client va en tirer 20 au hasard pour décider d'accepter ou de rejeter le lot. Il ne rejettera pas le lot s'il trouve zéro pièce défectueuse parmi ces 20. Quelle est la probabilité d'en avoir exactement 0 de défectueuse?
=LOI.HYPERGEOMETRIQUE (0;20;300;1000)=0.073%
et comme on exige un tirage nul, le calcul de la loi hypergéométrique se simplifie en:
(7.213)
Il n'est pas interdit de faire le calcul direct de l'espérance et de la variance la fonction hypergéométrique mais le lecteur pourra sans trop de peine imaginer que ce calcul va être... relativement indigeste. Alors nous pouvons utiliser une méthode indirecte qui de plus est intéressante.
D'abord le lecteur aura peut-être, même certainement, remarqué qu'au fait l'expérience de la loi hypergéométrique est une série d'essais de Bernoulli (sans remise bien entendu!).
Alors, nous allons tricher en utilisant dans un premier temps la propriété de linéarité de l'espérance. Définissons pour cela une nouvelle variable correspondant implicitement au fait à l'expérience da la fonction hypergéométrique (kessais de Bernoulli de suite!) :
(7.214)
où représente la réussite d'obtenir au i-ème tirage une boule noire (soit 0 ou 1). Or, nous savons que pour tout i la variable aléatoire
suit une fonction de Bernoulli pour laquelle nous avons démontré lors de notre étude de la loi de Bernoulli que
. Dès lors, de par la propriété de linéarité de l'espérance nous avons :
(7.215)
Or, dans l'essai de Bernoulli, p est la probabilité d'obtenir l'élément recherché (pour rappel...). Dans la loi hypergéométrique ce qui nous intéresse est la probabilité d'avoir une boule noire (qui sont en quantité m, avec doncm' boules blanches) par rapport à la quantité totale de boules n. Et le rapport nous donne évidemment cette probabilité. Ainsi, nous avons :
(7.216)
où k est le nombre de tirages (attention à ne pas confondre avec l'énoncé initial!). Cette moyenne donne donc le nombre moyen de boules noires lors d'un tirage de k boules parmi n.
Pour déterminer la variance, nous allons utiliser la variance de la fonction de Bernoulli et la relation suivante démontrée lors de l'introduction de l'espérance et de la covariance au début de ce chapitre :
(7.217)
Dons en rappelant que nous avons il vient:
(7.218)
Or, pour la loi de Bernoulli, nous avons:
(7.219)
Alors nous avons déjà:
(7.220)
Ensuite, nous avons facilement:
(7.221)
Le calcul de nécessite une bonne compréhension des probabilités (c'est un bon rappel!).
L'espérance est donnée (implicitement) par la somme pondérée des probabilités que deux événements aient lieu en même temps comme nous le savons. Or, nos événements sont binaires: soit c'est une boule noire (1) soit c'est une boule blanche (0). Donc tous les termes de la somme n'ayant pas deux boules noirs consécutivement seront nuls!
Le problème est alors de calculer la probabilité d'avoir deux boules noires consécutives et celle-ci s'écrit donc:
(7.222)
Donc nous avons finalement:
(7.223)
Soit:
(7.224)
Finalement:
(7.225)
où nous avons utilisé le fait que:
(7.226)
est composé de:
(7.227)
terme puisqu'il correspond au nombre de façons qu'il y a de choisir le couple (i, j) avec .
Donc finalement:
(7.228)
Exemple:
Tracé de la fonction de distribution et répartition pour la fonction Hypergéométrique de paramètre :
(7.229)
vous pouvez aussi suivre le cours de Trigonométrie en cliquant sur le banniére ci-dessous