Principal » trading algorithmique » Régression linéaire multiple - Définition MLR

Régression linéaire multiple - Définition MLR

trading algorithmique : Régression linéaire multiple - Définition MLR
Qu'est-ce que la régression linéaire multiple - MLR?

La régression linéaire multiple (MLR), également appelée simplement régression multiple, est une technique statistique qui utilise plusieurs variables explicatives pour prédire le résultat d'une variable de réponse. La régression linéaire multiple (MLR) a pour objectif de modéliser la relation linéaire entre les variables explicatives (indépendantes) et la variable de réponse (dépendante).

En substance, la régression multiple est l’extension de la régression par la méthode des moindres carrés ordinaires (MCO) qui implique plusieurs variables explicatives.

La formule pour la régression linéaire multiple est

yi = β0 + β1xi1 + β2xi2 + ... + βpxip + ϵoù, pour i = n observations: yi = variable dépendantexi = variables expanatoiresβ0 = y-arrondissement (terme constant) βp = coefficients de pente pour chaque variable explicativeϵ = terme d'erreur du modèle (également connu sous le nom de résidus) \ begin {aligné} & y_i = \ beta_0 + \ beta _1 x_ {i1} + \ beta _2 x_ {i2} + ... + \ beta _p x_ {ip} + \ epsilon \\ & \ textbf {où, pour} i = n \ textbf {observations:} \\ & y_i = \ text {variable dépendante} \\ & x_i = \ text {variables expanatoires} \\ & \ beta_0 = \ text {y-intercept (constant term)} \\ & \ beta_p = \ text {coefficients de pente pour chaque variable explicative} \\ & \ epsilon = \ text {terme d'erreur du modèle (également appelé résidu)}} \\ \ end {aligné} yi = β0 + β1 xi1 + β2 xi2 + ... + βp xip + ϵoù, pour i = n observations: yi = variable dépendantexi = variables expanatoiresβ0 = y-arret (terme constant) βp = Coefficients de pente pour chaque variable explicativeϵ = le terme d'erreur du modèle (également appelé résidu)

Expliquer la régression linéaire multiple

Une régression linéaire simple est une fonction qui permet à un analyste ou à un statisticien de faire des prédictions sur une variable en fonction des informations connues sur une autre variable. La régression linéaire ne peut être utilisée que lorsque l'une des variables possède deux variables continues: une variable indépendante et une variable dépendante. La variable indépendante est le paramètre utilisé pour calculer la variable dépendante ou le résultat. Un modèle de régression multiple s'étend à plusieurs variables explicatives.

Le modèle de régression multiple repose sur les hypothèses suivantes:

  • Il existe une relation linéaire entre les variables dépendantes et les variables indépendantes.
  • Les variables indépendantes ne sont pas trop fortement corrélées les unes aux autres.
  • Les observations sont sélectionnées de manière indépendante et au hasard dans la population.
  • Les résidus doivent être normalement distribués avec une moyenne de 0 et une variance σ.

Le coefficient de détermination (R au carré) est une métrique statistique utilisée pour mesurer l'ampleur de la variation du résultat pouvant être expliquée par la variation des variables indépendantes. R2 augmente toujours à mesure que davantage de prédicteurs sont ajoutés au modèle de RLM, même si les prédicteurs peuvent ne pas être liés à la variable de résultat.

R 2 en lui-même ne peut donc pas être utilisé pour identifier les prédicteurs à inclure dans un modèle et ceux à exclure. R 2 ne peut être qu'entre 0 et 1, 0 indiquant que le résultat ne peut être prédit par aucune des variables indépendantes et 1 indiquant que le résultat peut être prédit sans erreur des variables indépendantes.

Lors de l'interprétation des résultats d'une régression multiple, les coefficients bêta sont valides tout en maintenant constantes toutes les autres variables ("toutes choses égales par ailleurs"). Le résultat d'une régression multiple peut être affiché horizontalement sous forme d'équation ou verticalement sous forme de tableau.

Exemple d'utilisation de la régression linéaire multiple

Par exemple, un analyste peut vouloir savoir comment le mouvement du marché affecte le prix d’Exxon Mobil (XOM). Dans ce cas, son équation linéaire aura la valeur de l'indice S & P 500 en tant que variable indépendante, ou prédicteur, et le prix de XOM en tant que variable dépendante.

En réalité, de nombreux facteurs permettent de prédire l'issue d'un événement. Le mouvement de prix d’Exxon Mobil, par exemple, dépend de plus que de la performance du marché global. D'autres facteurs prédictifs tels que le prix du pétrole, les taux d'intérêt et le mouvement des prix des contrats à terme sur le pétrole peuvent influer sur le prix de XOM et le prix des actions d'autres sociétés pétrolières. Pour comprendre une relation dans laquelle plus de deux variables sont présentes, une régression linéaire multiple est utilisée.

La régression linéaire multiple (MLR) est utilisée pour déterminer une relation mathématique entre plusieurs variables aléatoires. En d'autres termes, MLR examine la relation entre plusieurs variables indépendantes et une variable dépendante. Une fois que chacun des facteurs indépendants a été déterminé pour prédire la variable dépendante, les informations sur les multiples variables peuvent être utilisées pour créer une prédiction précise du niveau d'effet qu'elles ont sur la variable de résultat. Le modèle crée une relation sous la forme d'une ligne droite (linéaire) qui se rapproche le mieux de tous les points de données individuels.

En référence à l'équation MLR ci-dessus, dans notre exemple:

  • y i = variable dépendante: prix de XOM
  • x i1 = taux d'intérêt
  • x i2 = prix du pétrole
  • x i3 = valeur de l'indice S & P 500
  • x i4 = prix du pétrole à terme
  • B 0 = ordonnée à l'instant zéro
  • B 1 = coefficient de régression qui mesure un changement d'unité de la variable dépendante lorsque x i1 change - changement du prix XOM lorsque les taux d'intérêt changent
  • B 2 = valeur du coefficient qui mesure un changement d'unité dans la variable dépendante lorsque x i2 change - changement du prix XOM lorsque les prix du pétrole changent

Les estimations des moindres carrés, B 0, B 1, B 2 … B p, sont généralement calculées à l'aide d'un logiciel statistique. Autant de variables pouvant être incluses dans le modèle de régression dans lequel chaque variable indépendante est différenciée par un nombre - 1, 2, 3, 4 ... p. Le modèle de régression multiple permet à un analyste de prédire un résultat en fonction des informations fournies sur plusieurs variables explicatives.

Néanmoins, le modèle n’est pas toujours parfaitement précis car chaque point de données peut différer légèrement du résultat prédit par le modèle. La valeur résiduelle, E, qui représente la différence entre le résultat réel et le résultat prévu, est incluse dans le modèle pour prendre en compte ces légères variations.

En supposant que nous utilisions notre modèle de régression de prix XOM via un logiciel de calcul statistique, qui renvoie ce résultat:

Un analyste interpréterait cette production comme signifiant que si les autres variables sont maintenues constantes, le prix de XOM augmentera de 7, 8% si le prix du pétrole sur les marchés augmente de 1%. Le modèle montre également que le prix de XOM diminuera de 1, 5% suite à une hausse de 1% des taux d’intérêt. R 2 indique que 86, 5% des variations du cours des actions d'Exxon Mobil peuvent être expliquées par les variations du taux d'intérêt, du prix du pétrole, des contrats à terme sur le pétrole et de l'indice S & P 500.

Points clés à retenir

  • La régression linéaire multiple (MLR), également appelée simplement régression multiple, est une technique statistique qui utilise plusieurs variables explicatives pour prédire le résultat d'une variable de réponse.
  • La régression multiple est une extension de la régression linéaire (MCO) qui utilise une seule variable explicative.
  • La MLR est largement utilisée en économétrie et en inférence financière.

La différence entre la régression linéaire et la régression multiple

La régression linéaire (MCO) compare la réponse d'une variable dépendante à un changement de variable explicative. Cependant, il est rare qu'une variable dépendante soit expliquée par une seule variable. Dans ce cas, un analyste utilise la régression multiple, qui tente d'expliquer une variable dépendante à l'aide de plusieurs variables indépendantes. Les régressions multiples peuvent être linéaires et non linéaires.

Les régressions multiples reposent sur l'hypothèse qu'il existe une relation linéaire entre les variables dépendantes et indépendantes. En outre, il n’existe aucune corrélation majeure entre les variables indépendantes.

Comparaison des comptes d'investissement Nom du fournisseur Description Divulgation par l'annonceur × Les offres figurant dans ce tableau proviennent de partenariats avec lesquels Investopedia reçoit une rémunération.

Termes connexes

Quelles mesures de régression? La régression est une mesure statistique qui tente de déterminer la force de la relation entre une variable dépendante (généralement désignée par Y) et une série d'autres variables changeantes (appelées variables indépendantes). more Qu'est-ce qu'un terme d'erreur "> Un terme d'erreur est défini en tant que variable dans un modèle statistique, qui est créé lorsque le modèle ne représente pas entièrement la relation réelle entre les variables indépendantes et les variables dépendantes. plus Fonctionnement de la méthode des moindres carrés Le moins La méthode des carrés est une technique statistique permettant de déterminer la droite qui convient le mieux à un modèle, spécifiée par une équation à l'aide de certains paramètres aux données observées. (en savoir plus) Econométrie: son utilité et son utilisation L'économétrie est l'application de modèles statistiques et mathématiques au calcul économique. données destinées à tester des théories, des hypothèses et des tendances futures plus R-carré R-carré est une mesure statistique représentant la proportion de la variance pour une variable dépendante expliquée par une variable indépendante plus comment le coefficient de détermination fonctionne-t-il Le coefficient de détermination est une mesure utilisée dans l'analyse statistique pour évaluer dans quelle mesure un modèle explique et prévoit les résultats futurs. Liens rtner
Recommandé
Laissez Vos Commentaires