Janvier 2002 - n°64
LES OUTILS DE BASE DE LA STATISTIQUE
par Jean-Claude SISSON, Professeur Associé au CNAM
Cacemi-Cnam - Tél : 01 40 27 24 49 - Fax : 01 42 71 94 76 - cacemi@cnam.fr - http://www.cnam.fr/cacemi/
Les résultats de nos observations sont tous affectés dune variabilité inhérente
Les phénomènes qui présentent une certaine "répétabilité" dans nos observations sont ceux qui se rapportent à ce que nous appelons notre univers physique. Le fait est que les résultats de lobservation de ces phénomènes, à notre échelle macroscopique, obtenus par mesures (ou par comptages), sont tous affectés dune variabilité inhérente. On démontre que cette variabilité a pour origine un ensemble de très nombreuses sources de perturbations "microscopiques", celles-ci étant en quasi totalité inaccessibles à nos observations et donc à notre connaissance.
Cette variabilité est qualifiée dans notre langage courant de naturelle. Elle traduit le fait quaucun phénomène physique nest parfaitement répétable ou reproductible. On notera par ailleurs quune part de la variabilité constatée dans les résultats de nos observations est imputable aux moyens de mesure qui ne sont pas parfaitement fidèles.
La statistique repose sur le principe fondamental suivant...
Il résulte de ce qui précède que lon ne peut pas prévoir avec précision, avant toute observation, la valeur précise que prendra le résultat dune mesure : on ne peut tout au plus connaître a priori que lordre de grandeur de cette valeur.
Cependant la répartition, on dit aussi la distribution, des résultats de mesure dune grandeur aléatoire, observée dans des échantillons issus dune population composés déléments de même nature, est sensiblement la même pour tous les échantillons.
Il y a donc de lordre dans ce désordre !
On peut ainsi énoncer le principe fondamental de la statistique sous la forme : la variabilité naturelle de toute grandeur aléatoire est naturellement organisée.
Pour une meilleure compréhension de ce qui suit, nous appelons :
- Individu : tout élément ou composant auquel peut être associé un résultat de mesure lors de lobservation de la grandeur aléatoire
- Echantillon : lensemble fini des éléments de même définition auquel est associé, lors de lobservation de la grandeur aléatoire et pour chacun dentre eux, un résultat de mesure
- Population : ensemble que nous supposerons composé dune infinité déléments de même définition, sur lesquels lobservation de la grandeur est virtuellement possible.
Des outils ou méthodes de base pour décrire et modéliser cette variabilité
Le premier des outils de base de la statistique se rapporte à la description de la variabilité aléatoire dune grandeur observée dans un échantillon. Cest la Distribution Statistique.
Lobjet est de décrire la répartition des résultats de mesure observés. Si la grandeur est quantitative et continue, les résultats pourront être regroupés par exemple en classes de valeurs. A chaque classe est associée la proportion déléments de léchantillon dont la valeur y est incluse. A chaque classe est associée la proportion déléments de léchantillon dont les valeurs se répartissent entre les limites de la classe.
Une représentation par histogramme agrémente alors la description.
Figure 1
Le deuxième des outils de base de la statistique se rapporte à la description de la variabilité aléatoire dune grandeur susceptible dêtre observée dans une population. Cest la Distribution de Probabilités.
On fait tendre, par la pensée, le nombre déléments de léchantillon vers linfini. Léchantillon tend donc vers la population. Le profil de lhistogramme précédent convergera vers une courbe continue qui caractérisera la répartition des valeurs susceptibles dêtre observées dans la population.
Figure 2
La proportion déléments de la population dont la valeur est comprise dans un intervalle donné est appelée Probabilité. Cest aussi la chance que lon a en tirant au hasard un élément dans cette population davoir la valeur de celui-ci comprise dans ce même intervalle.
Les Lois de probabilités telle que la loi de Laplace-Gauss, sont des modèles mathématiques de Distributions de Probabilités susceptibles dêtre rencontrées. La loi de Laplace-Gauss est communément appelée Loi Normale car elle est très fréquemment retenue dans les applications. La justification de cette utilisation réside dans le Théorème de la Limite Centrale qui stipule que la répartition des valeurs dune grandeur aléatoire, dont les sources de fluctuations sont indépendantes, à effets individuels faibles et se combinent additivement, tend vers le modèle de Loi de Laplace-Gauss lorsque le nombre de ces sources tend vers linfini.
Ce théorème nous éclaire bien sur les limites de notre connaissance. Il joue un rôle fondamental dans les applications industrielles de la statistique.
Le troisième des outils de base de la statistique se rapporte à la détermination des paramètres inconnus des Distributions de Probabilités. Il sagit des techniques destimation.
Les modèles comportent des paramètres inconnus quil convient de déterminer de manière approchée sur la base des résultats des mesures effectuées dans léchantillon. La détermination des paramètres inconnus des modèles ne pourrait se faire avec exactitude que dans le cas où tous les éléments de la population - il y en a une infinité! - seraient observés. Ces paramètres inconnus ne pourront quêtre estimés.
Lestimation peut être :
- ponctuelle, cest-à-dire donner lieu au calcul dune valeur attribuée au paramètre
- effectuée par intervalle de confiance, dans lequel on a une probabilité P davoir la vraie valeur inconnue du paramètre concerné, tout comme en métrologie on associe une incertitude à un résultat de mesurage.
Le quatrième des outils de base de la statistique consiste à tester lhypothèse que léchantillon observé est susceptible dêtre extrait dune population définie par une distribution de probabilités. Cest le test dadéquation .
Le test consiste à calculer une distance qui sépare la distribution statistique (associée à léchantillon) et la distribution de probabilités. Si celle-ci est petite, on accepte lhypothèse ; si celle-ci est trop grande on rejette lhypothèse.
Figure 3
La pratique des tests statistiques sinitialise ici avec les notions de risque a (de rejeter à tort) et de risque b (daccepter à tort). De multiples tests dadéquation sont disponibles, tels que Chi-deux, Kolmogorov-Smirnov, Lilliefors, Shapiro-Wilk.
Soulignons, en outre, que dautres outils se déclinent des précédents (1).
Des outils pour une optimisation du traitement et de l'exploitation de données expérimentales (2)
On entrevoit à partir de ce qui précède que tous les outils et méthodes de base de la statistique senchaînent logiquement. Une bonne connaissance de ceux-ci est indispensable car non seulement elle permet déviter les pièges tendus par lutilisation incontrôlée de fonctions statistiques présentes dans certains logiciels, mais aussi, elle décuple nos possibilités danalyse et permet de crédibiliser les choix et solutions techniques lorsque ceux-ci résultent de lexploitation de résultats expérimentaux.
(1 ) On pourra par exemple consulter le programme du stage "QS03 - Les 7 outils de base de statistique pour la qualité" animé par JC Sisson. Les méthodes pédagogiques mises en uvre pour la formation à ces outils statistiques appellent lutilisation dun minimum de connaissances mathématiques (du niveau baccalauréat). Cette connaissance indispensable est donc à la portée de tous.
(2) On notera que plusieurs démarches méthodologiques appelant une bonne connaissance des statistiques, sont proposées dans le cadre du Cacemi en stages inter-entreprises ou en stage intra-entreprise. Parmi celles-ci :
- lestimation des incertitudes de mesure,
- les études daptitude et le suivi de la stabilité des moyens de mesure (daprès notamment la spécification MSA de Ford),
- les études daptitude et le suivi de la stabilité des moyens de production (SPC ou MSP),
- la conception et loptimisation des expérimentations (Plans dExpériences)
- lexploitation des bases de données (Analyse des données).
Information : Cacemi-Cnam - Tél : 01 40 27 24 49 - Fax : 01 42 71 94 76 - cacemi@cnam.fr - http://www.cnam.fr/cacemi/