Lire l'article
La régression linéaire simple est une technique statistique bien connue. Elle permet de détecter un certain type de liaison qui peut exister entre deux variables quantitatives. Plus globalement elle permet de décrire et modéliser de manière linéaire la relation entre une variable X quantitative et une variable Y quantitative mais également de prévoir, à partir du modèle, la variable X.
On emploie essentiellement le modèle linéaire (simple ou multiple) dans deux cadres :
Le modèle linéaire simple est le modèle le plus élémentaire pour expliquer une variable Y quantitative en fonction d’une variable X quantitative. Toutefois, il existe également des techniques statistiques plus poussées comme la régression linéaire multiple.
Exemple de régression du poids en fonction de la variable longueur :
Notre modèle linéaire s’écrit de la manière suivante :
On a n observations. On note, pour 1 ≤ i ≤ n, xi les i observations de la variable X, yi les i observations pour la variable X.
On suppose que yi est la réalisation d’une variable aléatoire Yi telle que :
Yi = αxi + β + Ei, 1 ≤ i ≤ n où α est un paramètre inconnu marquant l’effet de X sur Y, β est un paramètre inconnu et Ei une variable aléatoire appelée erreur résiduelle.
Dans ce modèle, Yi se décompose en :
On note Y la variable aléatoire réelle à expliquer et X la variable explicative. Notre modèle revient à supposer, qu’en moyenne, E(Y ), est une fonction affine de X. L’écriture de notre modèle suppose une notion de causalité dans le sens où Y dépend de X.
Ainsi on cherche à estimer :
Les résidus observés permettaient de valider les hypothèses du modèle. Ces derniers sont des variables aléatoires notées Ei telle que :
Concernant notre premier graphique, on regarde les résidus observés êi en fonction des prédictions i . On observe que la valeur des résidus ne semble pas dépendre de la valeur des prédictions, ils ne sont donc pas structurés en fonction de la prédiction et donc globalement identiquement distribués autour de 0. Ainsi valide l’hypothèse d’espérance constante et égale à 0.
Notre second graphique montre la valeur des quantiles empiriques des résidus standardisés en fonction de la valeur quantiles théoriques d’une loi normale N (0, 1). Ici, nos points sont globalement alignés sur la droite y = x, nos quantiles empiriques sont donc à peu près égaux aux quantiles théoriques (si les hypothèses du modèle sont vraies). On conclut donc en validant l’hypothèse de distribution normale des résidus.
Notre troisième graphique nous montre la racine carrée de la valeur absolue des résidus observés en fonction des prédictions k. Dans notre cas, la racine carrée de la valeur absolue des résidus ne semble pas dépendre de la valeur des prédiction (Ils sont globalement identiquement distribués autour de 0.8). Ainsi, on valide l’hypothèse de variance constante.
Enfin, notre dernier graphique nous montre la valeur des résidus (standardisés) en fonction du levier de l’observation (poids d’une observation dans l’estimation de sa prédiction). On observe que les points ont tous un petit levier, donc aucun point n’influe trop sur la droite. Enfin, aucun point n’est en dehors de l’enveloppe délimitée par les hyperboles rouges. Ainsi, aucun point n’est aberrant ou trop influent.
On cherche également à induire les caractéristiques générales de notre modèle, pour ce faire on utilise différentes techniques comme :
Il existe deux fonctions dans Excel, pour effectuer une régression linéaire simple. Ces deux fonctions sont la fonction DroiteReg (Linest en anglais) et la fonction Tendance (Trend en anglais).
Dans un premier temps, inséré la fonction DroiteReg (ou Linest) sur deux cellules. En premier argument il faut sélectionner les Y connus, et ensuite en second argument, il faut sélectionner nos X connus. Enfin, appuyé sur CTRL+SHIFT+ENTER afin d’appliquer la formule (et non ENTRER comme habituellement).
Ce faisant, nous avons deux valeurs, la première étant le coefficient de régression (m) c’est-à-dire la pente et la seconde étant l’ordonnée à l’origine c’est-à-dire l’intercept (b). Etant donné que notre projection est de type linéaire, il nous suffit d’utiliser l’équation y = ax+b avec y comme étant une variable dépendante (c’est la valeur recherchée), a est l'ordonnée à l'origine, c’est-à-dire la valeur moyenne attendue de y lorsque toutes les variables x sont égales à 0, graphiquement c'est le point où la ligne croise l'axe Y. Et b représente la pente d'une droite de régression, qui est le taux de changement pour y lorsque x change.
Comme évoqué précédemment il existe également la fonction Tendance (Trend). Elle agit comme la fonction DroiteReg mais elle effectue la prévision directement, sans isoler les paramètres de pente et d’ordonnée à l’origine. Ainsi, il est préférable d’utiliser la fonction DroiteReg qui fournit davantage d’information et qui permet ainsi d’effectuer une meilleure évaluation des données. Enfin, il existe, également deux fonctions qui permettent de trouver le coefficient de régression et l’ordonnée à l’origine. Ces fonctions sont les fonctions Pente (Slope en anglais) et Ordonnee.origine (Intercept en anglais). Toutefois, ces deux fonctions, datent des débuts d’Excel, elles sont ainsi moins performantes. C’est pour toutes ces raisons qu’en règle général on utilise la fonction DroiteReg (Linest).
Si l’on souhaite seulement représenter le modèle linéaire graphiquement il suffit de sélectionner l’ensemble de nos données. Puis d’insérer un graphique de type nuage de points reliés (dans insertion puis graphique), lorsque le graphique est apparu il convient de faire apparaître les titres des axes ainsi que le titre du graphique et une légende (il suffit de cliquer sur le graphique et aller dans « outils de graphique » et « ajouter « un élément au graphique »).
Enfin, pour tracer la droite de régression linéaire il faut faire un clic droit sur la courbe et sélectionner « ajouter une courbe de tendance ». S’ouvre alors une fenêtre sur la droite permettant de paramétrer la droite de tendance. Sélectionner « linéaire », afin d’avoir la courbe de régression sous la forme d’une droite linéaire.
Enfin si vous souhaitez avoir une droite de régression sous la forme d’une droite affine, il suffit de sélectionner « définir l’interception » en 0,0 (dans « Autre options »).
Si vous souhaitez en savoir plus sur une notion statistique, n'hésitez pas à consulter notre article portant sur les séries chronologiques et leurs paramétrages sur Microsoft Power BI.
Pour plus d'information sur nos formations Power BI, n'hésitez pas à consulter notre site Internet.