Qu'est-ce qu'une régression linéaire simple et comment l'effectuer sur Excel

9 juin 2022

La régression linéaire simple est une technique statistique bien connue. Elle permet de détecter un certain type de liaison qui peut exister entre deux variables quantitatives. Plus globalement elle permet de décrire et modéliser de manière linéaire la relation entre une variable X quantitative et une variable Y quantitative mais également de prévoir, à partir du modèle, la variable X.

 
On emploie essentiellement le modèle linéaire (simple ou multiple) dans deux cadres :

  • Pour modéliser la relation entre une variable aléatoire Y quantitative et une ou plusieurs variables quantitatives non aléatoires
  • Pour analyser la variance afin d’apprécier l’effet de variables qualitatives (appelées facteurs) sur une variable quantitative Y. Toutefois, il existe un problème de comparaison de groupes.

 
Le modèle linéaire simple est le modèle le plus élémentaire pour expliquer une variable Y quantitative en fonction d’une variable X quantitative. Toutefois, il existe également des techniques statistiques plus poussées comme la régression linéaire multiple.

Exemple de régression du poids en fonction de la variable longueur :

Notre modèle linéaire s’écrit de la manière suivante :

On a n observations. On note, pour 1 ≤ i ≤ n, xi les i observations de la variable X, yi les i observations pour la variable X.

On suppose que yi est la réalisation d’une variable aléatoire Yi telle que :

Yi = αxi + β + Ei, 1 ≤ i ≤ n où α est un paramètre inconnu marquant l’effet de X sur Y, β est un paramètre inconnu et Ei une variable aléatoire appelée erreur résiduelle.

 
Dans ce modèle, Yi se décompose en :

  • Une partie déterministe : αxi + β, expliquée par le modèle, et représentant l’espérance des Yi
  • Une partie aléatoire : Ei, qui reste non expliquée par le modèle

 
On note Y la variable aléatoire réelle à expliquer et X la variable explicative. Notre modèle revient à supposer, qu’en moyenne, E(Y ), est une fonction affine de X. L’écriture de notre modèle suppose une notion de causalité dans le sens où Y dépend de X.

 
Ainsi on cherche à estimer :

  • Les paramètres A, B, S2 des paramètres inconnus du modèle α, β et σ2 obtenue en maximisant la vraisemblance, sous l’hypothèse que les erreurs sont gaussiennes. Ou encore par minimisation de la somme des carrés des écarts entre les observations et le modèle des moindres carrés.
  • La qualité de l’ajustement : Pour ce faire on décomposera
    • La somme des carrés total (SCT) : variabilité de Y sans tenir compte du modèle
    • La somme des carrés du modèle (SCM) : variabilité de la partie de Y expliquée par le modèle
    • La somme des carrés résiduelle (SCR): variabilité de la partie de Y qui n’est pas expliquée par le modèle
  • On utilisera également le coefficient de détermination (R2) qui exprime le rapport entre la variance expliquée par le modèle et la variance.

 

 
Les résidus observés permettaient de valider les hypothèses du modèle. Ces derniers sont des variables aléatoires notées Ei telle que :

  • Toutes les variables aléatoires E1, . . ., En sont indépendantes.
  • Tous les Ei ont la même espérance, égale à 0.
  • Tous les Ei ont la même variance, égale à σ2 (paramètre inconnu).
  • Tous les Ei suivent une loi normale.

 
Concernant notre premier graphique, on regarde les résidus observés êi en fonction des prédictions i . On observe que la valeur des résidus ne semble pas dépendre de la valeur des prédictions, ils ne sont donc pas structurés en fonction de la prédiction et donc globalement identiquement distribués autour de 0. Ainsi valide l’hypothèse d’espérance constante et égale à 0.

 
Notre second graphique montre la valeur des quantiles empiriques des résidus standardisés en fonction de la valeur quantiles théoriques d’une loi normale N (0, 1). Ici, nos points sont globalement alignés sur la droite y = x, nos quantiles empiriques sont donc à peu près égaux aux quantiles théoriques (si les hypothèses du modèle sont vraies). On conclut donc en validant l’hypothèse de distribution normale des résidus.

 
Notre troisième graphique nous montre la racine carrée de la valeur absolue des résidus observés en fonction des prédictions k. Dans notre cas, la racine carrée de la valeur absolue des résidus ne semble pas dépendre de la valeur des prédiction (Ils sont globalement identiquement distribués autour de 0.8). Ainsi, on valide l’hypothèse de variance constante.

 
Enfin, notre dernier graphique nous montre la valeur des résidus (standardisés) en fonction du levier de l’observation (poids d’une observation dans l’estimation de sa prédiction). On observe que les points ont tous un petit levier, donc aucun point n’influe trop sur la droite. Enfin, aucun point n’est en dehors de l’enveloppe délimitée par les hyperboles rouges. Ainsi, aucun point n’est aberrant ou trop influent.

 
On cherche également à induire les caractéristiques générales de notre modèle, pour ce faire on utilise différentes techniques comme :

  • La loi des paramètres : Etant donné que les estimateurs β 0 et β1 sont des variables aléatoires réelles de matrice de covariance estimer en remplaçant o2 par son estimateur s2. Ainsi sous l’hypothèse que les résidus sont gaussiens on sait que nos lois sont des lois de Student à n – 2 degrés de liberté. Enfin on peut tester l’hypothèse de nullité d’un des paramètres de notre loi et ainsi en construire des intervalles de confiance.
  • Une prévision par Intervalle de confiance : Etant donné que l’on connait notre valeur de x0, on définit deux intervalles de confiance de prévision à partir de la valeur prédite. Le premier encadre l’Esperance Y et le deuxième encadre y 0, il est également plus grand car il tient compte de la variance totale.

 

 
Il existe deux fonctions dans Excel, pour effectuer une régression linéaire simple. Ces deux fonctions sont la fonction DroiteReg (Linest en anglais) et la fonction Tendance (Trend en anglais).

Dans un premier temps, inséré la fonction DroiteReg (ou Linest) sur deux cellules. En premier argument il faut sélectionner les Y connus, et ensuite en second argument, il faut sélectionner nos X connus. Enfin, appuyé sur CTRL+SHIFT+ENTER afin d’appliquer la formule (et non ENTRER comme habituellement).

Ce faisant, nous avons deux valeurs, la première étant le coefficient de régression (m) c’est-à-dire la pente et la seconde étant l’ordonnée à l’origine c’est-à-dire l’intercept (b). Etant donné que notre projection est de type linéaire, il nous suffit d’utiliser l’équation y = ax+b avec y comme étant une variable dépendante (c’est la valeur recherchée), a est l'ordonnée à l'origine, c’est-à-dire la valeur moyenne attendue de y lorsque toutes les variables x sont égales à 0, graphiquement c'est le point où la ligne croise l'axe Y. Et b représente la pente d'une droite de régression, qui est le taux de changement pour y lorsque x change.

Comme évoqué précédemment il existe également la fonction Tendance (Trend). Elle agit comme la fonction DroiteReg mais elle effectue la prévision directement, sans isoler les paramètres de pente et d’ordonnée à l’origine. Ainsi, il est préférable d’utiliser la fonction DroiteReg qui fournit davantage d’information et qui permet ainsi d’effectuer une meilleure évaluation des données. Enfin, il existe, également deux fonctions qui permettent de trouver le coefficient de régression et l’ordonnée à l’origine. Ces fonctions sont les fonctions Pente (Slope en anglais) et Ordonnee.origine (Intercept en anglais). Toutefois, ces deux fonctions, datent des débuts d’Excel, elles sont ainsi moins performantes. C’est pour toutes ces raisons qu’en règle général on utilise la fonction DroiteReg (Linest).

Si l’on souhaite seulement représenter le modèle linéaire graphiquement il suffit de sélectionner l’ensemble de nos données. Puis d’insérer un graphique de type nuage de points reliés (dans insertion puis graphique), lorsque le graphique est apparu il convient de faire apparaître les titres des axes ainsi que le titre du graphique et une légende (il suffit de cliquer sur le graphique et aller dans « outils de graphique » et « ajouter « un élément au graphique »).

 

 

Enfin, pour tracer la droite de régression linéaire il faut faire un clic droit sur la courbe et sélectionner « ajouter une courbe de tendance ». S’ouvre alors une fenêtre sur la droite permettant de paramétrer la droite de tendance. Sélectionner « linéaire », afin d’avoir la courbe de régression sous la forme d’une droite linéaire.

 

 

Enfin si vous souhaitez avoir une droite de régression sous la forme d’une droite affine, il suffit de sélectionner « définir l’interception » en 0,0 (dans « Autre options »).

Si vous souhaitez en savoir plus sur une notion statistique, n'hésitez pas à consulter notre article portant sur les séries chronologiques et leurs paramétrages sur Microsoft Power BI.

Pour plus d'information sur nos formations Power BI, n'hésitez pas à consulter notre site Internet.

Articles en relation

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram