Diapositive 1 - PIIMT

Diapositive 1 - PIIMT

LA REGRESSION LINEAIRE SIMPLE Pr. BOULAHOUAL Adil Pr. BOULAHOUAL Adil 1

En statistiques, plusieurs problmes consistent dfinir la relation qui existe entre deux variables statistiques ou plus: Le nombre dannes dexprience et le nombre derreurs commises ; Lge du conducteur et le nombre daccidents dauto ; Le volume des ventes et les dpenses en publicit ; Le nombre dheures dtudes et les rsultats aux examens ; Pr. BOULAHOUAL Adil 2

Dans ce genre de problmes, les principales questions auxquelles nous voudrons rpondre sont les suivantes : Existe-il une relation ou une dpendance entre les variables statistiques? Cette relation, si elle existe, est-elle linaire ou non ? Si une dpendance linaire existe, de quelle faon peut-on la traduire par une quation mathmatique ? La corrlation, si elle existe, est-elle forte ou faible ? Si lquation mathmatique de la relation entre les variables existe, comment prvoir les valeurs dune certaine variable partir de la connaissance de valeurs de lautre variable ou des autres variables ? Pr. BOULAHOUAL Adil 3

Un modle consiste en une prsentation formalise dun phnomne sous forme dquations mathmatiques. Comme toutes les variables conomiques sont interdpendantes (notion de systme), il n'est pas suffisant de construire des quations isoles : il faut tablir un systme complet dquations. Pr. BOULAHOUAL Adil 4

Notions cls Infrence statistique Elle consiste alors effectuer des tudes sur lchantillon et transposer les rsultats sur la population. Cette transposition nest pas stricte, elle attache toujours une probabilit aux rsultats et aux conclusions mises. Pr. BOULAHOUAL Adil 5 Lanalyse de la

rgression Pr. BOULAHOUAL Adil 6 Lanalyse de la rgression est une mthode statistique qui permet dtudier le type de relation pouvant exister entre une certaine variable (dpendante) dont on veut expliquer les valeurs et une ou plusieurs autres variables qui servent cette explication (variables indpendantes) Rgression linaire simple: une variable indpendante

En dautres termes, lanalyse de la rgression permet dtudier les variations de la variable dpendante en fonction des variations connues des variables indpendantes. Pr. BOULAHOUAL Adil 7 Le cot du loyer en fonction du nombre de pices, du niveau dtage dans limmeuble, des services offerts ... Y f ( X 1 , X 2 , X 3 ,..., X n ) Cot du loyer Nombre de pices Services offerts (piscine, stationnement intrieur, etc.)

Ltage dans limmeuble Une analyse de rgression est : dite simple si elle permet de prdire les valeurs dune variable dite dpendante (explique (Y)) partir des valeurs prises par une autre variable dite indpendante (explicative (X)). dite multiple si elle permet de prdire les valeurs dune variable dite dpendante (explique (Y)) partir des valeurs prises par plusieurs autres variables dites indpendantes (explicatives (Xi)). Pr. BOULAHOUAL Adil 9

Dfinition : Nuage de points ou diagramme de dispersion Cest la reprsentation graphique dans le plan cartsien de lensemble des paires de donnes (xi,yi). Ces donnes proviennent dune srie statistique de deux variables obtenues partir dune tude mene sur un chantillon ou sur une population. Pr. BOULAHOUAL Adil Exemple : Nuage de points ou diagramme de dispersion Supposons que le nombre dheures dtudes ncessaires pour

prparer lexamen final en statistiques et le nombre de bonnes rponses obtenues par chaque tudiant sont donns dans le tableau suivant : Tracer le nuage de points ou le diagramme de dispersion des donnes prsentes ci-dessus. Pr. BOULAHOUAL Adil 11 Exemple : Nuage de points ou diagramme de dispersion Diagramme de dispersion 10 9 8

7 6 5 4 3 2 1 0 0 2 4 6 8

10 Heures d'tudes Pr. BOULAHOUAL Adil 12 Objectif dune analyse de rgression simple Une fois la reprsentation graphique effectue, il est facile de souponner lexistence dune certaine relation entre les deux variables (caractres tudis). Il faut maintenant chercher exprimer cette relation laide dune quation mathmatique. Y f (X )

On essaie de trouver la forme mathmatique de la fonction f Pr. BOULAHOUAL Adil 13 Objectif dune analyse de rgression simple Pr. BOULAHOUAL Adil 14 Dfinition : Nous appelons rgression linaire lajustement dune droite au nuage statistique dune srie de couples de donnes. Ainsi, une rgression linaire simple va permettre de rsumer, dinterprter et de

prvoir les variations dun caractre dit dpendant (Y) en fonction dun autre dit indpendant (X) et ce en utilisant une droite. Pr. BOULAHOUAL Adil 15 Modle de rgression linaire simple y = 0 + 1x + quation de la rgression linaire simple (comment l'esprance de y est lie x) E(y) = 0 + 1x quation estime de la rgression linaire simple (droite de la rgression estime, modle empirique)

y = Variable dpendante ou explique = valeur estime de y pour une valeur x thoriques de rgression ( estimer laide dun chantillon) par b0 et b1 0 xet==Variable indpendante ou explicative 1Coefficients = Erreur thorique alatoire (dautres facteurs influencent Y) Pr. BOULAHOUAL Adil L'quation estime de la rgression

linaire simple (droite de la rgression estime, modle empirique) peut tre utilise pour une estimation ponctuelle de la valeur moyenne de y pour une valeur particulire de x ou pour prvoir la valeur ponctuelle de yyassocie b0 b1 x une valeur particulire de x y = Variable dpendante ou explique y = valeur de prvision de y pour une valeur x, ou moyenne de y estime pour une valeur de x x = Variable indpendante ou explicative Pr. BOULAHOUAL Adil 17

Les diffrentes tapes dune tude de rgression Pr. BOULAHOUAL Adil 18 Il existe plusieurs mthodes permettant destimer le modle thorique y 0 1 x par le modle empirique y b0 b1 x Mthode des moindres carrs Mthode de la vraisemblance Pr. BOULAHOUAL Adil 19

Critre des moindres carrs o: yi = valeur observe de la variable dpendante pour pour la I me observation = valeur estime de la variable dpendante pour la I me observation Pr. BOULAHOUAL Adil 20 La mthode des moindres carrs Ide de base : cette mthode essaie de construire une droite de rgression empirique qui minimise la somme des carrs des distances

verticales entre cette droite et chacun des points observs. Pr. BOULAHOUAL Adil 21 La mthode des moindres carrs Illustration graphique ( xi , y i ) ( xi , yi ) Pr. BOULAHOUAL Adil 22

La mthode des moindres carrs Dfinition : On appelle rsidu ou erreur valeur empirique ou cart de prvision, , ei yila y i soit la diffrence (lcart vertical) entre la valeur observe yi de Y et yi la valeur estime obtenue partir de la droite de rgression, lorsque x= xi. Lobjectif de la mthode des moindres carrs est de dterminer la droite de rgression qui minimise Pr. BOULAHOUAL Adil

23 La mthode des moindres carrs 2 1 SCres e e 2 2 2 3 ... e

n 2 n e e i 1 n SCres yi yi 2 i 1 n SCres yi b0 b1 xi

i 1 2 2 i Cette mesure donne lordre de grandeur de la dispersion des observations Yi autour de la droite de rgression Il sagit de trouver bo et b1 de sorte que la somme des carrs des rsidus SCres soit la plus petite possible (minimale).

Pr. BOULAHOUAL Adil 24 Principes de la mthode des moindres carrs Comment calculer les coefficients b0 et b1? Les estimations ponctuelles des paramtres de la droite de rgression obtenues par la mthode des moindres carrs sont : Autre formule pour b1 Taille de lchantillon Pr. BOULAHOUAL Adil

25 partir des donnes ci-dessous, dterminez les estimations ponctuelles des paramtres de la droite de rgression selon la mthode des moindres carrs : Pr. BOULAHOUAL Adil 26 Pr. BOULAHOUAL Adil 27 Remarque Importante La droite de rgression dtermine laide de la mthode des moindres carrs donne la plus

faible somme de carrs rsiduels parmi toutes les autres droites que lon pourrait ajuster cet ensemble dobservations. 2 e i Pr. BOULAHOUAL Adil 28 EXEMPLE Une entreprise veut mener une tude sur la relation entre les dpenses hebdomadaires en publicit et le volume de ventes quelle ralise. On a recueilli au cours des dix dernires semaines les donnes suivantes :

partir des donnes ci-dessus, dterminez les estimations ponctuelles des paramtres de la droite de rgression selon la mthode des moindres carrs. Pr. BOULAHOUAL Adil 29 partir de ces donnes, il est possible de tracer le diagramme de dispersion suivant : Diagramme de dispersion 60 50 40 30 20 10 0

0 1 2 3 4 5 6 Cot publicitaire en millions de dollars (X) Pr. BOULAHOUAL Adil

30 Les rsultats intermdiaires suivants servent calculer les estimations ponctuelles des paramtres de la droite de rgression : Pr. BOULAHOUAL Adil 31 En appliquant les formules ci-dessous, nous obtenons les valeurs numriques de b0 et b1 y 33, 31 3, 95 x Pr. BOULAHOUAL Adil

32 La droite de rgression qui permet de dterminer le volume moyen des ventes pour un cot publicitaire donn x. y 33, 31 3, 95 x Ordonne lorigine (volume de vente moyen sans dpenser un sous en publicit) Cest laugmentation du volume des ventes (Y) pour une augmentation

unitaire du cot en publicit (X) Dpenses en publicit Pr. BOULAHOUAL Adil 33 Interprtation des rsultats et remarques Rq1 : le point de cordonnes se trouve sur la droite de rgression. Rq2 : cette relation linaire entre X et Y est valide pour lintervalle des valeurs de

X considre dans lnonc, cest--dire de 1 5,5. La droite de rgression sapplique lintrieur de ltendue des valeurs exprimentales qui ont t observes pour la variable explicative (X). On devra donc viter toute extrapolation en dehors de ce domaine moins dtre certain que Pr. BOULAHOUAL Adil 34 Rq3 : Pour la valeur x = 3,5 (situe entre 1 et 5,5), on peut utiliser la droite de rgression pour calculer la valeur moyenne correspondante de Y Exemple : Estimation du volume des ventes moyen pour un cot de 3,5

millions de dollars en publicit hebdomadaire. = 33,31 + 3,95 (3,5) = 47,14 millions de dollars Pr. BOULAHOUAL Adil 35 Il existe trois mesures possibles pour quantifier lintensit de la relation entre X et Y: Le coefficient de dtermination de Y en fonction de X Le coefficient de corrlation entre X

et Y La covariance entre X et Y Pr. BOULAHOUAL Adil 36 Coefficient de dtermination de Y en fonction de X Le coefficient de dtermination thorique de Y en fonction de X, not mesure la proportion de la variation de Y qui est explique par la rgression ou qui est explique par la variable X au niveau de toute la population.

Le coefficient de dtermination indique si le modle linaire dfini colle aux donnes . Pr. BOULAHOUAL Adil 37 Coefficient de dtermination de Y en fonction de X En pratique est inconnu, car on ne possde pas dinformation sur toute la population mais seulement sur un chantillon de taille n, alors on estimera partir de lchantillon : fournit une indication de la force de la liaison 2

rYX possible pouvant exister entre Y et X au niveau de la population. De plus, cest un indice de la 2 n de la droite aux points Rappel: qualit de lajustement yi n n exprimentaux. i 1 2 2

( y y ) y i i i 1 i 1 n

Pr. BOULAHOUAL Adil 38 Dans quelle mesure lquation estime de la rgression sajuste-t-elle aux donnes? Le coefficient de dtermination permet de mesurer le degr dadquation Formule pour le coefficient de dtermination r2 = SCreg/SCT o: SCT = SCreg + SCres=

( yi y i )2 SCT = Somme des carrs totale (variation totale) SCreg = Somme des carrs de la rgression (variation explique) SCres = Somme des carrs des rsidus Pr. BOULAHOUAL Adil 39 Pr. BOULAHOUAL Adil 40 Calculez pour lexemple dapplication des cots publicitaires et des ventes:

Pr. BOULAHOUAL Adil 41 2 YX r variation explique 298, 008 0, 9692 variation totale 307, 525 est proche de 1, on peut dire que la droite de rgression sajuste trs bien au

nuage de points. Puisque Pr. BOULAHOUAL Adil 42 Diffrence entre rgression et corrlation ? La rgression linaire simple se proccupe essentiellement de la forme de la relation linaire qui existe entre X et Y La corrlation essaye de mesurer lintensit ou la force de la relation linaire qui existe entre X et Y. Pr. BOULAHOUAL Adil

43 o: b1 = la pente de lquation estime de rgression estime (empirique) Le coefficient de corrlation thorique (au niveau de la population) est dnot ryx ou simplement r Pr. BOULAHOUAL Adil 44 Le coefficient de corrlation peut tre dtermin de la manire suivante (ou encore en prenant la racine carre du coefficient de dtermination):

1 rXY 1 On a toujours: Si alors il existe une relation linaire exacte entre X et Y Si alors soit que X et Y sont indpendantes, soit quil y a une dpendance non linaire entre les deux variables Si ou alors il existe une relation linaire plus ou moins forte entre X et Y Le coefficient de corrlation permet de voir

s'il est facile d'approcher les donnes par une droite. Pr. BOULAHOUAL Adil 45 Toujours en utilisant lexemple numrique de la publicit et les ventes d'autos, mesurez le degr de dpendance linaire entre X et Y. Rponse es dpenses en publicit et les ventes varient dans le mme sens Il existe une relation linaire trs forte entre les dpenses en publicit et les ventes Pr. BOULAHOUAL Adil

46 Validation de la droite de rgression empirique Test dhypothse sur Pour vrifier si linfluence de la variable indpendante X est significative, on procde un test dhypothses sur Y 0 1 X Si 1 = 0 alors peu importe les valeurs de X, elles nauront pas dimpact sur Y Pr. BOULAHOUAL Adil 48

tapes contribuant la validation de la droite de rgression empirique 2 (Parfois dnote 2 ) Estimer la variance des erreurs thoriques Estimer et par intervalle de confiance Test dhypothses sur1 Pr. BOULAHOUAL Adil 49

Validation de la droite de rgression empirique Estimation de la variance des erreurs thoriques La prcision des estimateurs b0 et b1 dpend de la valeur de la variance des erreurs thoriques : plus sera petite, plus ces estimateurs sont prcis. Puisque, en pratique, la variance lestime par le terme suivant : est inconnue, on Pr. BOULAHOUAL Adil 50 Validation de la droite de rgression empirique

Estimation de et En pratique, les variances et sont inconnues, alors on les estime par les deux termes suivants : Pr. BOULAHOUAL Adil 51 Y 33, 31 3, 95 X Exemple dapplication Complter le tableau suivant : 0.49

1.69 49.11 41.21 33,31 + 3,95 x 2 = 41,21 0.39 - 0.21 0.1521 0.0441 2 2 b0 Calculer, pour lensemble des donnes ci-dessus,

7.6176 26.419 6 2 b1 s ,s ,s s 2 1,1847 sb20 0, 7939 sb21 0, 062 Pr. BOULAHOUAL Adil 52

Validation de la droite de rgression empirique Estimation de 1 par intervalle de confiance Lintervalle de confiance pour estimer 1, la pente du modle de rgression thorique, au niveau de confiance (1 - ) est donn par: Si n-2 < 30 Si n-2 30 Si la valeur b1=0 appartient lintervalle de confiance, on ne rejette pas lhypothse nulle: b1=0 au niveau de signification a et on conclut quil nexiste pas de relation linaire significative entre Y Pr. BOULAHOUAL Adil 53

Daprs les donnes de lexemple numrique de la publicit et le volume de ventes d'autos, construisez un intervalle de confiance pour au niveau 95% : Puisque n-2 = 10 -2 = 8 < 30, alors Table de Student b1 t / 2 sb1 Pr. BOULAHOUAL Adil 54 Pour tester la signification dune rgression,

on peut effectuer un test dhypothses afin de dterminer si la valeur de b1 est zro. Deux tests sont couramment utiliss Test t ou z (selon la taille de l'chantillon) Test F Les deux tests ncessitent une estimation de se 2, la variance des erreurs e du modle de rgression Pr. BOULAHOUAL Adil 55 Une estimation de 2 Rappel: la moyenne des carrs des rsidus s2 fournit une estimation de 2 s2 = SCres/(n-2)

o: s est lerreur type de lestimation Pr. BOULAHOUAL Adil 56 Les tapes dun test z ou t dhypothses sur 1. noncer les hypothses H0 et Ha. 2. Prciser les conditions du test La population des erreurs est normale La variance rsiduelle est inconnue Le niveau de signification

Si la taille de lchantillon n 2 30, on utilise z (Normale) Si la taille de lchantillon n 2 < 30, on utilise t (Student) 3. Calculer la statistique de test. 4. Trouver la rgion critique au niveau de signification Pr. BOULAHOUAL Adil 57

Daprs les donnes de lexemple dapplication sur la publicit et le volume de ventes d'autos, vrifiez au niveau de signification = 0,05 si X explique Y, partir de la droite de rgression linaire obtenue tape 1 tape 2 n 2 = 8 < 30, population normale, tape 3 inconnue tape 4 Cela implique que X explique les valeurs prises par Y au niveau Pr. BOULAHOUAL Adil

= 0,05 58 Hypothses concernant le terme derreurs Lerreur est une variable alatoire desprance 0 La variance de , dnote 2 ou 2 , est la mme pour toutes les valeurs de X Les valeurs de sont indpendantes. Lerreur est distribue selon une loi normale Pr. BOULAHOUAL Adil

59 Applications sous SPSS POINT DE VENTE marker shop Pr. BOULAHOUAL Adil 60

Recently Viewed Presentations

  • Welcome to Carter

    Welcome to Carter

    Public Outlook Fiscal Conditions Worsen, ARRA Impact Delayed State & Local Public Outlook Fiscal conditions will partially sterilize ARRA Deficit % Share of Budget FY2009 State Deficits Source: PCA, Center on Budget and Policy Priorities, June 2009 ME RI MA...
  • We Didn&#x27;t Start the Fire By: Billy Joel

    We Didn't Start the Fire By: Billy Joel

    Example: The whole song is a ballad. back Personification Personification is giving human qualities to things that aren't human Example: If happy little bluebirds fly This is describing the human quality of being happy to an animal back Rhymes A...
  • Module 1: Introduction to Critical Thinking Zaid Ali

    Module 1: Introduction to Critical Thinking Zaid Ali

    Module 1: Introduction to Critical Thinking Zaid Ali Alsagoff [email protected]
  • Population Screening and Treatment of LTBI in TB

    Population Screening and Treatment of LTBI in TB

    Population Screening and Treatment of LTBI in TB Control in the US Margarita Elsa Villarino MD MPH Division of TB Elimination, CDC April 14, 2004
  • Boundary Layer Velocity Profile Ekman Layer, or Outer

    Boundary Layer Velocity Profile Ekman Layer, or Outer

    v = f (u*, , ks) where ks == characteristic height of bed roughness Roughness Re: R* > 70 rough turbulent no viscous sublayer R* < 5 smooth turbulent yes, viscous sublayer 2. Log Layer: Turbulent case, Az is NOT...
  • Advanced Internet Technologies

    Advanced Internet Technologies

    1863: Jordan's commentary on Galois paper and his book used the term GROUP * Group Theory the first modern book Walter Ledermann's book Introduction to the theory of finite groups, published by publisher Oliver & Boyd in Edinburgh 1949 (when...
  • CP Violation and CKM Angles Status and Prospects

    CP Violation and CKM Angles Status and Prospects

    CP Violation and CKM Angles Status and Prospects Klaus Honscheid Ohio State University C2CR 2007 Two asymmetric-energy B factories Experimental Landscape (early 2007) CP Violation in the Standard Model CP Violation in the SM: The CKM Matrix The CKM matrix...
  • 18-549 Project Proposal: 2/5/14 Rapid Ocular Sideline ...

    18-549 Project Proposal: 2/5/14 Rapid Ocular Sideline ...

    18-549 Project Proposal: 2/5/14. Rapid Ocular Sideline Concussion Diagnostics. Team 8 . Brandon Lee--Andrew Pfeifer--Thomas Phillips--Ryan Quinn