Sei sulla pagina 1di 416
Economeétrie DUNOD Le picegromme qui figure reproduction non autorisée est un Avant-propos ette dixitme édition, gage que ce livre répond & un besoin constant des étu- diants, marque la volonté d’une mise & jour permanente de ce manuel tant sur le plan des concepts de I’économétrie modeme que des applications, tout en lui conservant son aspect trés pédagogique. Dans cette nouvelle édition nous avons intégré de manigre systématique les logiciels Gretl et Stata dans la correction des exercices & l'aide des fichiers « script » de commandes. Ce livre couvre tous les champs de I’économétrie : régression simple et multiple, violation des hypothéses (hétéroscédasticité, autocorrélation des erreurs, variables explicatives aléatoires), modéle & décalage, analyse des séries temporelles, tests de racine unitaire, équations multiples, VAR, cointégration, VECM, économétrie des variables qualitatives et des données de panel Sur ensemble de ces themes, ce livre vous propose un cours, des exercices cor rigés, et une présentation des logiciels d’ économéirie les plus répandus. Souhaitons qw il corresponde a votre attente. En effet, nous avons voulu, par une alternance systématique de cours et d’exer- cices, répondre & un besoin pédagogique qui est de mettre rapidement en pratique les connaissances théoriques et ainsi, d’utiliser de maniére opérationnelle les acquis, du cours ; les exercices sont repérés grice Aun bandeau grisé. De surcroit, le recours a des logiciels!, lors de la résolution des exercices, permet une découverte de ces outils et donne une dimension pratique que recherchent I’étudiant et le praticien. 1. Quatre logiciels sont utilisés : EXCEL (copyright Microsoft), Eviews (copyright Quantitative Micro Software), Stata (copyright StataCorp.) et Gretl, Nous recommandons particuligrement le logiciel Gretl (hitp:/gret sourceforge.neV) qui est un logiciel d’économétrie gratuit, complet et tes facile d'apprentissage. xl Econométrie XIl Afin que le lecteur puisse lui-méme refaire les exercices, les données utilisées (sous format Excel, Eviews, Gretl et Stata) ainsi que les programmes de traitement de Eviews (extension .prg) ou de Gretl (extension .INP) sont disponibles par télé- argement sur le serveur web. Les corrigés des exercices et les données sous format Stata ont été réalisés par Dalila Chenaf-Nicet, maitre de conférences en économie a l’Université de Bordeaux, et sont disponibles également par téléchargement sur le site web : hitp://regisbourbonnais.dauphine.fr Pour chaque exercice faisant appel un fichier de données, le nom du fichier est cité en téte de l'exercice et repéré par l"icdne suivante : | & y. Nous avons voulu faire de ce manuel un livre d’apprentissage facilement acces- sible ; c’est pourquoi les démonstrations les plus complexes font I’objet de renvois A. une bibliographie plus spécialisée. Cependant, il convient de préciser que I’écono- métrie fait appel des notions d’algébre linéaire et d’induction statistique qu’il est souhaitable de connaitre. Dans le terme « économétrie » figure la racine du mot « économie » car son utili- sation est surtout destinée & des fins de traitement de données économiques ; cepen- dant, d’autres domaines tels que la finance, la recherche agronomique, la médecine, etc., font maintenant le plus souvent appel & ces techniques. Ce livre s'adresse en premier lieu aux étudiants (sciences économiques, gestion, Ecoles de commerce et ingénieurs, etc.) dont la formation requiert une connais: sance de I’économétrie. Gageons qu’il sera un support de cours indispensable et un allié précieux pour préparer les séances de travaux dirigés. N’oublions pas cependant le praticien de I’économétrie (économiste d'entreprise, chercheur, etc.) qui, confronté 4 des problémes d’estimation statistique, trouvera dans ce livre les réponses pratiques aux différentes questions qu’il peut se poser. Enfin, j’exprime toute ma gratitude a toutes les personnes — collegues et étudiants — qui ont eu la gentillesse de me faire des commentaires et dont les conseils et sugges- tions contribuent & la qualité pédagogique de ce livre. Je reste, bien entendu, le seul responsable des erreurs qui subsisteraient'. 1. Les lecteurs souhaitant faire des commentaires ou des remarques peuvent me contacter : Régis Bourbonnais, université de Paris-Dauphine, place du Maréchal de Lattre de Tassigny, 75775 Paris Cedex 16, E-mail: regis.bourbonnais@dauphine.fr Qu’est-ce que l’€conomeétrie ? SECHONT La notion de modéle SECTION 2 Le réle de I'économétrie SECTION 3 La théorie de la corrélation Chapitre1 = Qu’est-ce que I'économétrie ? ¢ premier chapitre est consacré A la présentation de I’économétrie et sa liaison avec la théorie économique. Section 1 LA NOTION DE MODELE 1L_Définiti Test délicat de fournir une définition unique de la notion de modéle!, Dans le cadre de I’économétrie, nous pouvons considérer qu’un modéle consiste en une présentation formalisée d'un phénomene sous forme d’équations dont les variables sont des grandeurs économiques. L’objectif du modele est de représenter les traits les plus marquants dune réalité qu’il cherche a styliser. Le modéle est donc l'outil que le modélisateur utilise lorsqu’il cherche & comprendre et & expliquer des phéno- menes. Pour ce faire, il émet des hypothéses et explicite des relations. * Pourquoi des modéles ? + Nombreux sont ceux — sociologues, économistes ou physiciens — qui fondent Jeurs analyses ou leurs jugements sur des raisonnements construits et élaborés. Ces constructions referent implicitement a des modéles ; alors pourquoi ne pas expliciter clairement les hypothéses et les relations au sein d’un modéle ? Le modéle est done une présentation schématique et partielle d’une réalité natu- rellement plus complexe. Toute la difficulté de la modélisation consiste & ne retenir que la ou les représentations intéressantes pour le probléme que le modélisateur cherche & expliciter. Ce choix dépend de la nature du probléme, du type de décision ou de I’étude a effectuer, La méme réalité peut ainsi étre formalisée de diverses maniéres en fonction des objectif 2_La construction des modéles en économétrie = Dans les sciences sociales, et particuligrement en économie, les phénomenes étudiés concemnent le plus souvent des comportements afin de mieux comprendre la nature et le fonctionnement des syst?mes économiques. L’objectif du modélisateur est, dans le cadre de I’économétrie et au travers d'une mesure statistique, de permettre aux agents 1. La notion de mod@le est relative au point de vue aug | nous nous plagons : Ia physique, ‘pistémologic, © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 économiques (ménages, entreprises, Etat...) d'imtervenir de manigre plus efficace. La construction d’un modéle comporte un certain nombre d’étapes qui sont toutes impor- tantes. En effet, en cas de faiblesse d’un des « maillons », le modéle peut se trouver invalidé pour cause d’hypothéses manquantes, de données non représentatives ou observées avec des erreurs, etc. Examinons les différentes étapes & suivre lors de la construction d’un modéle, ceci a partir de I’exemple du modéle keynésien simplifié. 2.1 Référence a une théor Une théorie s’exprime au travers d’hypothéses auxquelles le modéle fait référence. Dans la théorie keynésienne, quatre propositions sont fondamentales : 1. la consommation et le revenu sont liés : 2. le niveau dinvestissement privé et le taux d’intérét sont également liés ; 3. il existe un investissement autonome public ; 4. enfin, le produit national est égal & la consommation plus l'investissement privé et public. 2.2 Formalisation des relations et choix de la forme des fonctions A partir des propositions précédentes, nous pouvons construire des relations : 1. la consommation est fonction du revenu ; C = f(Y) avec f” > 05 2. investissement privé dépend du taux d’intérét : J = g(r) avec g’ <0; 3. il existe un investissement autonome public : T ; 4. enfin, le produit national (ou le revenu national) est égal a consommation plus Vinvestissement : ¥ = C+ +7. A ce stade, nous n’avons postulé aucune forme particulitre en ce qui concerne les fonctions f et g. Ainsi, bien que des considérations d’ ordre théorique nous renseignent sur le signe des dérivées, il existe une multitude de fonctions de formes tres différentes et ayant des signes de dérivées identiques, par exemple C = a) + a, ¥ et C=ay ¥*!, Cependant, ces deux relations ne refletent pas le méme comportement ; une augmentation du revenu. provoque un accroissement proportionnel pour la premiére relation, alors que, dans la seconde, l’effet s’estompe avec I'augmentation du revenu (si 0 Oet0 eth, <0; Ysc+i+T Chapitre1 = Qu’est-ce que I'économétrie ? Les deux premigres équations refletent des relations de comportements alors que la troisitme est une identité (aucun paramétre n’est 2 estimer). 2.3 Sélection et mesure des variables Le modéle étant spécifié, il convient de collecter les variables représentatives des phénoménes économiques. Ce choix n’est pas neutre et peut conduire a des résultats différents, les questions qu’il convient de se poser sont par exemple : — Faut-il raisonner en euros constants ou en euros courants ? ~ Les données sont-elles brutes ou CVS! ? — Quel taux d’intérét faut-il retenir (taux au jour le jour, taux directeur de la Banque centrale européenne...) ? etc. Nous distinguons plusieurs types de données selon que le modele est spécifié en : ~ série temporelle : c'est le cas le plus fréquent en économétrie, il s’agit de variables observées a intervalles de temps réguliers (1a consommation annuelle, totale France, exprimée en euros courants sur 20 ans) ; = coupe instantanée : les données sont observées au méme instant et concernent les valeurs prises par la variable pour un groupe d’individus? spécifiques (consomma- tion observée des agriculteurs pour une année donnée) : — panel : la variable représente les valeurs prises par un échantillon dindividus & inter valles réguliers (la consommation d’un échantillon de ménages de la région pari- sienne sur 20 ans) : —cohorie : tres proches des données de panel, les données de cohorte se distinguent de la précédente par la constance de I’échantillon, les individus sondés sont les mémes d’une période sur l'autre. 2.4 Décalages temporels Dans le cadre de modéle spécifié en séries temporelles, les relations entre les variables ne sont pas toujours synchrones mais peuvent étre décalées dans le temps. Nous pouvons concevoir que la consommation de l’année 7 est expliquée par le revenu de l'année f— I et non celui de l'année f, Pour lever cette ambiguité, il est 2 usage d’écrire le modéle en le spécifiant & l'aide d’un indice de temps : 5 C,= ay + ay Y,_1. La variable Y,_, est appelée « variable exogene retardée ». On appelle « variable exogéne » une variable dont les valeurs sont prédétermi- nées, et « variable endogene » une variable dont les valeurs dépendent des variables exogénes. des Variations Saisonnitres, 2. Le terme d’individu est employé au sens stat personne, une parvelle de terre. ‘que, c'est-dire comme un élément Pune population ; une Qu’est-ce que I’économétrie ? = Chapitre1 2.5 Validation du modéle La demitre étape est celle de la validation’ du modele : — Les relations spécifiées sont-elles valides ? ~ Peut-on estimer avec suffisamment de précision les coefficients ? — Le modéle est-il vérifié sur la totalité de la période ? ~ Les coefficients sont-ils stables ? Etc. A toutes ces questions, les techniques économétriques s’efforcent d’apporter des réponses. Section : 2 : 2 LE ROLE DE L’ECONOMETRIE 1_L’économétrie comme validation de lathéorie = Léconométrie est un outil & la disposition de I’économiste qui lui permet d’infir- mer ou de confirmer les théories qu'il construit. Le théoricien postule des relations : V'application de méthodes économétriques fournit des estimations sur la valeur des coefficients ainsi que la précision attendue. Une question se pose alors : pourquoi estimer ces relations, et les tester statistique- ment ? Plusieurs raisons incitent & cette démarche : tout d’abord cela force l’individu a établir clairement et A estimer les interrelations sous-jacentes. Ensuite, la confiance aveugle dans l’intuition peut mener ignorance de liaisons importantes ou a leur mauvaise utilisation, De plus, des relations marginales mais néanmoins explicatives, qui ne sont qu’un élément d’un modéle global, doivent étre testées et validées afin de les mettre & leur véritable place. Enfin, il est nécessaire de fournir, en méme temps que l’estimation des relations, une mesure de la confiance que I’économiste peut avoir en celles-ci, c’est-2-dire la précision que I’on peut en attendre. La encore, utilisation de méthodes purement qualitatives exclut toute mesure quantitative de la fiabilité d’une relation. 2_L’économétrie comme outil d’investigation === Léconométrie n’est pas seulement un systéme de validation, mais également un outil d’analyse. Nous pouvons citer quelques domaines ot I’économétrie apporte une aide & la modélisation, & la réflexion théorique ou 3 I’action économique par : © Dunod ~ Toute reproduction non autorisée est un délit 1. Validation, ¢ données disponibles Chapitre1 = Qu’est-ce que I'économétrie ? — la mise en évidence de relations entre des variables économiques qui n’étaient pas a priori évidentes ou pressenties ; —V'induction statistique ou l'inférence statistique, qui consiste a inférer, & partir des caractéristiques d’un échantillon, les caractéristiques d’une population, Elle permet de déterminer des intervalles de confiance pour des paramétres du modéle ou de tester si un parametre est significativement! inférieur, supérieur ou simplement dif- férent d'une valeur fixé — la simulation qui mesure l’impact de la modification de la valeur d’une variable sur une autre (AC, = a,AY,) ; la prévision?, par l'utilisation de modéles économétriques, qui est utilisée par les pouvoirs publics ou entreprise afin d’anticiper et éventuellement de réagir 4 l'envi- ronnement économique. Dans cet ouvrage, nous nous efforcerons de montrer, & l'aide d’exemples, les dif- férentes facettes de l'utilisation des techniques économétriques dans des contextes et pour des objectifs différents. Section 3 LA THEORIE DE LA CORRELATION 1 Présentation générale Lorsque deux phénomenes ont une évolution commune, nous disons qu'ils sont « corrélés ». La corrélation simple mesure le degré de liaison existant entre ces deux phénomenes représentés par des variables. Si nous cherchons une relation entre trois variables ou plus, nous ferons appel alors & la notion de corrélation multiple. Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple de valeurs (x,y) des deux variables semblent alignés sur une droite, de la corrélation non linéaire lorsque le couple de valeurs se trouve sur une méme courbe d’allure quelconque. Deux variables peuvent étre : —en corrélation positive ; on constate alors une augmentation (ou diminution, ou constance) simultanée des valeurs des deux variables ; s en corrélation négative, lorsque les valeurs de l'une augmentent, les valeurs de l'autre diminuent ; 1. Au sens statistique, c’est-i-dire avec un seuil (risque d’erreur & ne pas dépasser, souvent 5 “). 2. Pour découvrir utilisation de cet Usunier J-C. (2017) Sconométrie & des fins de prévision de ventes, voir Bourbonnais R. © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 ~ non corrélées, il n’y a aucune relation entre les variations des valeurs de l'une des variables et les valeurs de I’ autre. Le tableau 1, en croisant les crittres de linéarité et de corrélation, renvoie A une représentation graphique. Relation linéaire _[ Graphe 1 Graphe 2 Graphe 5 Relation non linéaire | Graphe 3 Graphe 4 Graphe 5 y y Graphe1 Graphe 2 Graphe 5 Chapitre1 = Qu’est-ce que I'économétrie ? 2.1 Le coefficient de corrélation linéaire La représentation graphique ne donne qu'une « impression » de la corrélation entre deux variables sans donner une idée précise de l'intensité de la liaison, c’est pourquoi nous calculons une statistique appelée coefficient de corrélation linéaire simple, noté ry. Hest égal 2: Ce » ny =P. in 0,0, avec: Cov (x,y) = covariance entre x et y : ©, eto, =écart type de x et écart type de y ; n = nombre d’ observations. En développant la formule [1], il vient : (2 On peut démontrer que, par construction, ce coefficient reste compris entre -1 et 1 : — proche de 1, les variables sont corrélées positivement : — proche de -I, les variables sont corrélées négativement : — proche de 0, les variables ne sont pas corrélées. Dans la pratique, ce coefficient est rarement trés proche de l'une de ces trois bornes et il est donc difficile de proposer une interprétation fiable 4 la simple lecture de ce coefficient. Ceci est surtout vrai en économie oii les variables sont toutes plus au moins liées entre elles. De plus, il n’est calculé qu’ partir d°un échantillon observations et non pas sur l'ensemble des valeurs. On appelle p,, ce coefficient empirique qui est une estimation du coefficient vrai r,,. La théorie des tests statis- tiques nous permet de lever cette indétermination. Soit a tester I’hypothése HO : r,, = 0, contre Phypothése HI : r,, #0. © Dunod ~ Toute reproduction non autorisée est un délit Qu’est-ce que I’économétrie ? = Chapitre1 Sous I'hypothése HO, nous pouvons démontrer que suit une loi de Student & n ~ 2 degrés de liberté!. Nous calculons alors une de Student empirique que, appelé le ¢ [Pxsf BI 2 Sir’ > 13 valeur lue dans une table de Student? au seuil ar= 0,05 (5 %) An —2 degrés de liberté', nous rejetons hypothése HO, le coefficient de corrélation est done significativement différent de 0 ; dans le cas contraire, I’hypothése d’un coef- ficient de corrélation nul est acceptée. La loi de Student éant symétrique, nous calculons la valeur absolue du ¢ empirique et nous procédons au test par comparai- son avec la valeur lue directement dans la table. Lb Fichier C1EX1 Calcul d’un coefficient de corrélation _ Un agronome s’intéresse & la liaison pouvant exister entre le rendement de mais x (en quintal) dune parcelle de terre et 1a quantité d’engrais y (en kilo). Il releve 10 couples de données consignés dans le tableau 2. Tableau 2-Rendement de mais et quantité d’engrais Rendementx 1648S Tngras y 20 224~«BOC~«astiatCtSCaTS 1 = Tracer le nuage de points et le commenter. 2 = Calculer le coefficient de corrélation simple et tester sa signification par rap- port 0 pour un seuil @= 0,05. La notion de degi 1 2. Les lois de probabil sont en fin d’ouvrage, Si le nombre d’observations n est supérieur & 30, on peut approximer la loi de Student par une loi normale, soit 1? = 1,96, Copyright © 2018 Dunod. Chapitre1 = Qu’est-ce que I'économétrie ? Solution _ 1 = Le nuage de points (graphique 6) indique que les couples de valeurs sont approximativement alignés : les deux variables semblent corrélées positivement, Quantité d'engrais BERBERRS Rendement Graphique 6 — Nuage du couple de valeurs : rendement-quantité d’engrais 2. = Afin d’appliquer la formule [2], nous dressons le tableau de calcul 3. Tableau 3- Calcul d’un coefficient de corrélation 2 2 576 4s 8 2 2 ru | 1004 256 » 2 a 784 ae 2% 2 os | to ws n 36 21 12% | 16 2 " ros | test | tan a " 156 | reer | 1394 Somme | 26 | 308 | 7127 | 97a | 20 (10)(8 286) — (261)(304), 3042 (56,11)(70, 17) ay (10)(7 127) - 26P? J10)(9 734) soit p,,y = 0,89 et p2, = 0,79 3 E 3 a 8 Qu’est-ce que I’économétrie ? = Chapitre1 Le t de Student empirique (d°aprés [3]) est égal & : Pry 0,89 = 5,49 > 125 = 2,306 0,1620 le coefficient de corrélation entre x et y est significativement différent de 0. 2.2 Limites de la notion de corrélation 1 La relation testée est linéaire L’application de la formule [1] ou [2] ne permet de déterminer que des corrélations linéaires entre variables. Un coefficient de corrélation nul indique que la covariance entre la variable x et la variable y est gale & 0. C’est ainsi que deux variables en totale dépendance peuvent avoir un coefficient de corrélation nul, comme T’illustre exemple suivant : I’équation d'un cercle nous est donnée par (x —.x,)? + (y= y) R’, les variables x et y sont bien liées entre elles fonctionnellement (graphique 7) et pourtant leur covariance est nulle et done leur coefficient de corrélation égal a 0. Pour pallier cette limite, il convient éventuellement de transformer les variables, préalablement au calcul du coefficient de corrélation, afin de linéariser leur relation, par exemple au moyen d’une transformation de type logarithmique. Graphique 7 - La relation fonctionnelle n’est pas corrélation linéaire " Chapitre1 = Qu’est-ce que I'économétrie ? ! Corrélation n’est pas causalité Le fait d’avoir un coefficient de corrélation élevé entre deux variables ne signifie pas qu’il existe un autre lien que statistique. En d’autres termes, une covariance significativement différente de 0 n’implique pas une liaison d’ordre économique, physique ou autre. Nous appelons corrélation fortuite ce type de corrélation que rien ne peut expliquer. L’exemple le plus fameux concerne la forte corrélation existante entre le nombre de taches solaires observées et le taux de criminalité aux Etats-Unis. Cela ne signifie pas qu’il existe une relation entre les deux variables, mais qu’ une troisi¢me variable, Vévolution de long terme (a tendance) ici, explique conjointement les deux phéno- menes. La théorie de la cointégration traite de ce probléme (cf. chapitre 11). 2 Le modele de régression simple SECTION Présentation du modéle SECTION 2 Estimation des paramétres SECTION Conséquences des hypothéses : construction des tests SECTION 4 Equation et tableau d’analyse de la variance SEEHON'S La prévision dans le modéle de régression simple Chapitre 2 = Le modéle de régression simple ous commencons notre étude par le modéle le plus simple : une variable endogéne est expliquée par une variable exogéne. Section 1 PRESENTATION DU MODELE Soit la fonction de consommation keynésienne : CHa,+aY ot: C= consommation, y 4a, = propension marginale & consommer, revenu, dy = consommation autonome ou incompressible. 1.1 Vocabulaire * La variable consommation est appelée « variable & expliquer » ou « variable endogene ». * La variable revenu est appelée « variable expli (cest le revenu qui explique la consommation). ive » ou « variable exogéne » * a, et ay sont les paramétres du modéle ou encore les coefficients de régression. 1.2 Spécification Nous pouvons distinguer deux types de spécifications : *+ Les modeles en série temporelle, les variables représentent des phénomenes obser- vés 2 intervalles de temps réguliers, par exemple la consommation et le revenu annuel sur 20 ans pour un pays donné. Le modéle s’écrit alors : CHa +a, ¥, : 20 ol: C,= consommation au temps f, Y, = revenu au temps f. 4 Le modéle de régression simple = Chapitre 2 + Les modéles en coupe instantanée, les variables représentent des phénoménes observés au méme instant mais concernant plusieurs individus, par exemple la consommation et le revenu observés sur un échantillon de 20 pays. Le modéle s’écrit alors : 20 ot 4 Y, C,= consommation du pays i pour une année donnée, = 1 revenu du pays i pour une année donnée. Le modéle tel qu'il vient d’étre spécifié n’est qu'une caricature de la réalité. En effet, ne retenir que le revenu pour expliquer la consommation est a I’évidence méme insuffisant ; il existe une multitude d'autres facteurs susceptibles d’expliquer la consommation. C’est pourquoi nous ajoutons un terme (€) qui synthétise l'en- semble de ces informations non explicitées dans le modéle : C,= ay + 4, Y,+ & si le modele est spécifié en série temporelle (C, = ay + a, ¥, + &) si le modéle est spécifié en coupe instantanée), ot & représente I’erreur de spécification du modéle, c’est-2- dire l'ensemble des phénoménes explicatifs de la consommation non liés au revenu. Le terme & mesure la différence entre les valeurs réellement observées de C, et les valeurs qui auraient é&é observées si la relation spécifiée avait été rigoureusement exacte. Le terme & regroupe done trois erreurs — une erreur de spécification, c’est-a-dire le fait que la seule variable explicative n'est pas suffisante pour rendre compte de la totalité du phénoméne expliqué ; — une erreur de mesure, les données ne représentent pas exactement le phénoméne — une erreur de fluctuation d’échantillonnage, d°un échantillon a l’autre les observa- 3 tions, et donc les estimations, sont Iégérement différentes. g > Bee eee eee 7 eee E 2 Le tableau | présente le revenu moyen par habitant sur 10 ans exprimé en dollars & pour un pays. ? 4 15 Copyright © 2018 Dunod. Chapitre 2 = Le modéle de régression simple 16 Tableau 1- Evolution du revenu moyen par habitant en dollars 8.000 9.000 9.500 9.500 9.800 11000 12.000 13.000 15.000 16.000 1 p 3 4 5 6 7 8 9 Sachant que la propension marginale & consommer est de 0,8 et que la consommation incompressible est 1 000, on demande : 1 = de caleuler la consommation théorique sur les 10 ans ; 2 = considérant que notre erreur d’observation suit une loi normale de moyenne 0 et de variance 20 000, de générer cette variable algatoire et de calculer une consommation observée tenant compte de cette erreur. Solution —_ Les calculs des questions 1) et 2) sont présentés dans le tableau 2. La consommation théorique (colonne 3) est calculée par application directe de la formule : C, = 1 000 +0,8 ¥,. La génération de la variable aléatoire ¢, (¢, > N(O; 20 000) ne pose pas de difficulté particuligre ; bien entendu il en existe une infinité, un exemple en est présenté en colonne 4. La consommation « observée » (colonne 5) est donc égale 4 C, = 1 000 + 0,8 Y, + &, soit la somme de la colonne 3 et de la colonne 4. Tableau 2- Calcul de la consommation observée @ Cy 8) Gy ee eT) ony Coed 1 8.000 7 400 = 10,01 7-389,99 2 9.000 8200 = 30,35 8 169,65 3 9500 8600 B71 8 831,71 4 9.500 8 600 52,84 8 652,84 5 9 800 8840 ~ 51,92 8 788,08 6 11.000 9 800 ~ 183,79 9.616,21 7 12.000 10.600 =~ 655 10593,45 8 13.000 11400 = 213,89 11186,11 9 15.000 13.000 = 241,91 12 758,09 10 16.000 13 800 69,62 13.869,62 Moyenne:' — 38,42 Ecarttype: 137,24 2018 Dunod Copyright © Dunod ~ Toute reproduction non autorisée est un délit Le modele de régression simple = Chapitre 2 Nous observons que la moyenne de €, = ~38,42, et la variance de, Var(g) = 18 834,81 sont légérement différentes des valeurs théoriques. Cela est la conséquence du tirage particulier d'un échantillon de taille assez faible (dix observations). 3_Conséquences du terme aléatoire == Dans l’exercice précédent, les valeurs vraies ay et a, sont parfaitement connues, cependant, dans la réalité, nous ne connaissons pas ces valeurs mais seulement les deux séries d’ observations C, et R,. Les estimateurs! de ay et a,, notés respective- ment dj et dj, sont des variables aléatoires, qui suivent les mémes lois de probabilité, celle de &, puisqu’ils sont fonctions de la variable aléatoire &. Les caractéristiques de moyenne et d’écart type de ces coefficients permettent de construire des tests de validité du modéle estimé. Si a l'aide d'un programme informatique (C2EX1.PRG ou C2EX1.INP) nous construisons 150 échantillons de valeurs différentes pour la variable aléatoire & — N(O ; 20 000), nous allons alors trouver 150 estimations de a! légérement différentes entre elles dont la distribution aura la forme de ’histogramme du graphique 1. Cette distribution a pour moyenne 0,801 et écart type 0,032, nous pouvons observer gu’elle est peu prés symétrique par rapport & la moyenne et qu’elle a la forme d’une courbe en « cloche » : tous ces éléments suggerent bien une distribution normale de : a, > N(0,801 ; 0,032). Cela est la conséquence directe de la normalité des erreurs. 17 16 15 14 18 2 1" 10 Fréquence os nmennare® 71 072 073.0740750.760.77 0.78078 08 G8 0E2 0850.84 085 086087088089 08 Coefficient 4, Graphique 1—Histogramme de la distribution de 150 4, 1. Tne faut pas confondre : estimateur d de a et estimation de @ qui est la valeur particulitre de lestimateur pour un échantillon, 7 Chapitre 2 = Le modéle de régression simple Section 2 ESTIMATION DES PARAMETRES 1_Modéle et hypothéses Soit le modéle suivant : » +a,x,+€ pou ¢ variable A expliquer au temps ¢ ; variable explicative au temps f ; parametres du modéle ; & = erreur de spécification (différence entre le modéle vrai et le modéle spécifié), cette erreur est inconnue et restera inconnue ; n = nombre d’observations. ©) Hypotheses + HI: le modéle est linéaire en x, (ou en n’importe quelle transformation de x,). + H2 : les valeurs x, sont observées sans erreur (x, non aléatoire). oH : E(€,) = 0, l'espérance mathématique de erreur est nulle : en moyenne le modele est bien spécifié et done erreur moyenne est nulle. + H4: E(e?) = 02, la variance de Verreur est constante! : le risque de amplitude de l’erreur est le méme quelle que soit la période. Ele, €)) =0 si t #1, les erreurs sont non corrélées (ou encore indépendantes) : une erreur & instant r n'a pas d’influence sur les erreurs suivantes. m RK : Cov(x,, &) = 0, erreur est indépendante de la variable explicative. ‘ 2 Formulation des estimateurs En tragant un graphique (2) des couples de données liant le revenu et la consom- mation observée, nous obtenons un nuage de points que nous pouvons ajuster Paide dune droite. 1. Cette hypothése s'appelle Phypothése dhomoseédasticité ; dans le cas oi! cette hypothése n'est pas vériliée, ‘on parle alors de modéle hstéroseédastique. 18 © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 estimateur des coefficients a et a, est obtenu en minimisant la distance au carré entre chaque observation et la droite, d’ott le nom d’estimateur des moindres carrés ordinaires (MCO). La résolution analytique est la suivante : Min} (y, — ay — @,x,)? = Min S Consommation (milier) Nmostnatass Ptititiiry 8 10 2 “4 16 Revenus (miler) © Consommation observée © Consommation ajustée Graphique 2— Ajustement d’un nuage de points par une droite En opérant par dérivation par rapport & ay et a, afin de trouver le minimum! de cette fonction, on obtient les résultats suivants : 5s Say = 200, -& -Gx,)=0 et 3s = 2030, - dy - Gyx,) = 0 i 1 ay Sommant par rapport & 1, il vient : Da - Wx AL? = 0 Ly, - nd - Dx, = 0 1. Nous considérons les conditions du deuxitme ordre comme vérifiges car la fonetion est convexe. 19 Chapitre 2 = Le modéle de régression simple qu'on appelle les équations normales et qui impliquent que : (1) & Nous pouvons faire deux remarques ~l’écriture du modéle n’est pas neutre ; La spécification : y, = ay + a, x, + & n'est pas équivalente A: x, = af, + aly, + €f Dans le premier modéle, x, est la cause de y,, alors que dans la deuxiéme spécifica- tion, c’est y, qui est la cause de x, Nous remarquons que : 4, x dj = (p= coefficient de corrélation entre x et y); —le coefficient a, représente la pente de la droite ou encore une propension marginale. Nous avons : Ay, = 4Ax,. impact d'une variation de x, se mesure directement sur y, au travers du coefficient 4,. ©! Cas particulier : modéle sans terme constant La théorie économique postule parfois des relations dans lesquelles ay) = 0: c’est le cas par exemple pour une fonction de production de produit industriel ott le fac teur de production (unique) nul entraine une production nulle, L’estimation de a, est alors donnée par la formule suivante : £ dx, S Nous remarquons qu’il s’agit de l'application de la formule [1] dans laquelle ¥ et sont nulles. Dans le cas de variables centrées', c’est donc cette formule [3] qu’il convient d’employer car le terme constant est nul. 1. Les données sont centrées lorsque les observations sont centr données centrées est done par construction null s sur leur moyenne : (x, ~ 3) la somme des 20 Dunod © Dunod ~ Toute reproduction non autorisée est un délit pyright Le modéle de régression simple = Chapitre 2 L& | Fichier C2EX2 Estimation des coefficients de régression _ A partir des données du tableau 2 de l’exercice 1, on demande de calculer les estimations de dy et 4,. Solution —_ Le tableau 3 présente les calculs a effectuer. Tableau 3 Calcul d’un coefficient de régression © @ (5)* (6) ao) 1 7349,99 | 8000 | ~2595,59 = 3280 10758 400 8513518 2 816965 | 9000 | -1 815,93 -2280 5 198 400 4.140300 3 883171 | 9500 | -1153,87 -1780 3 168 400 2053 879 4 865284 | 9500 | -1332,74 1780 3 168 400 2372268 5 8 748,08 | 9800 | ~1197,50 1480 2190 400 1.772.292 6 961621 | 11000 | - 369,37 = 280 78400 103 422 7 | 1059345 | 12000 607,88 720 518 400 437 670, 8 | 11 196,11 | 13000 | 1 200,54 1720 2.958 400 2064 920 9 | 1275809 | 15000 | 2772,52 3720 13-838 400 10313 755 10 | 13.869,62 | 16000 | 3 884,05 4720 22278 400 18332 692 Somme | 99 855,75 | 112 800 0 0 (64 156 000 50 104729 Moyenne | 9:985,57 | 11280 0 0 6415 600 5.010472 50 104 729 0,78 64 156 000 J — A,X = 9 985,57 — 0,78 x 11 280 = 1 176,08 Ces estimations sont & comparer aux valeurs vraies (respectivement 0,8 et 1 000), les différences importantes en ce qui concerne surtout le terme constant sont impu- tables & l'aléa d’ observation qui « perturbe » l’estimation des coefficients. 2 Chapitre 2 = Le modéle de régression simple ff 7 Le modéle de régression simple peut s’écrire sous deux formes selon qu’il s‘agit du mod2le théorique spécifié par I’économiste ou du modéle estimé & partir d’un échantillon. * Modéle théorique spécifié par I’économiste avec ¢, l’erreur inconnue : Vy = ay +X, + E, + Modéle estimé a partir d’un échantillon d’ observations : y, = dy + ax, te, = 3,4] — ¢, = résidu (Bien noter les « chapeaux » sur les a.) Le résidu observé e, est donc la différence entre les valeurs observées de la variable 4 expliquer et les valeurs ajustées 4 I’aide des estimations des coefficients du modéle ; ou encore : Je dy + Gx, My + aX, + & (4] Fs ay tajX+E 5] [41-15] a(x, - 3) +(e, - 8) En remplagant dans la formule [1] de l’estimateur 4, y, — ¥ par son expression, on obtient DG - Fe, - 2) 4, = 4, + —__ 22 © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 * Les estimateurs sont-ils sans biais ? (Rappel : un estimateur est sans biais si E(a) = a.) Ys, -Ve, SEER ESE EEE 7 Yo, - DEE) dou: E(a) = Ela) + = Soit E(4,) = a, car E(e,) = 0 De méme on démontre que E(4y) = ay. G+ GE dy =a + B-(G, -4)¥ Fay tax+e E(Gq) = dy + EE) ~ E(a, = a,)X) = iy car E(@, - a,) = 0 et E@) = 0 BeJ-o car E(E) est par hypothése nulle, + Les estimateurs sont sans biais. + Les estimateurs sont-ils convergents ? Puisque les estimateurs sont sans biais, il suffit pour qu’ils soient convergents que : LimV(4,) > 0 lorsque n—> 0 ot V(d) esta varaiance de a. Yu, - Ve, De, 3? a VG) = el( E06 )|- +[ Dore +230, 0, €, «| rer V(4,) = Ela, — E(a))? = E(@ - 4)? = E (d’aprés [7]) 23 Chapitre 2 = Le modéle de régression simple 24 avec, =) Lo V(a\) = Lorne y+ 2Le, @, Ele, €y) Or, d’apris les hypotheses : —H4 E(e?) = 02 —HS5 Ele, €,)= Osirer, VG) = Ler o2= Yor Lorsque n — 2 alors (x, — ¥)? tend également vers ee, d’od V(4;) tend vers 0 puisque o? est constant. Nous pouvons observer sur l’expression de la variance de 4, que cet estimateur est “est-ivdire lorsque : autant plus précis que (x, — ¥)? est élevé — le nombre d’ observations est important ; — ev/ou les valeurs de la variable explicative sont trés dispersées autour de la moyenne. Une démonstration analogue pour dy conduit aux résultats suivant : ii ¥ Mao) = 821 * $y Lim V(a) > 0 lorsque n > 0. Nous remarquons que : C2 an = Vea) = S& + FV(G)_— Cov(dysd) = -FVCA) Les estimateurs sont convergents. Le modele de régression simple = Chapitre 2 Section 2 CONSEQUENCES DES HYPOTHESES : CONSTRUCTION DES TESTS ‘1_Hypothése de normalité deserreurs Nous allons maintenant introduire de nouveau I’hypothése qui est celle de la nor- malité des erreurs (cf. exercice 1). Cette hypothése n’est pas indispensable afin d’obtenir des estimateurs convergents mais elle va nous permetire de construire des tests statistiques! concernant la validité du modale estimé. Soit e, > N(0,02) Le graphique 3 illustre cette hypothése sur la distribution des valeurs projetées sur la droite des moindres carrés. Probabilité Vaz dot Ax, x % % Graphique 3 - Les erreurs suivent une | 2_Conséquences de I’hypothése de normalité des erreurs En préliminaire, cherchons un estimateur de la variance de I’ erreur. Le résidu est donné par : Ye — GX, 4 E } a 1. En effet, cette hypothése permet de définir la loi de probabilits des estimateurs. 25 Chapitre 2 = Le modéle de régression simple Sans rien changer & I’expression précédente, nous pouvons écrire : e, = ax, - Ou encore = AF — dy — dx, +4 Ory = aX + dy D'ou: e, = y, —¥- 4(a, -¥) En remplacant y, et ¥ par leurs expressions [4] et [5]. il vient : e, = (a ~ 4 \(x, — X) + (€, - €) Nous obtenons en élevant ce terme au carré et effectuant la somme sur les 7 observation: De? = (@ ~ 4) L(x, — 2? + VE, — EP + ay — GY, — ¥VME, - B) 7 Or d’aprés I’expression [6], nous avons : Ley, - HME, = 8) = ay ~ GY (x, - ¥P r D que nous remplacons dans I’expression précédente et aprés simplification : = Lee, - 2% -@, - 4 DO, - 3? En prenant l'espérance mathématique de cette derniére expression : [Z| [Ze - =]- Ella, - 4 PLC, Examinons les deux membres de cette équation. +a) [Ze - »| = [Zee ~ 28, + >| = [Ze -2@ De, +d = [Zee —2Ené + =) = + = [See - ve] = ct t — nk? + nF | =6/ Nous savons que : Ele?] = 02 26 Le modéle de régression simple = Chapitre 2 Ye -#]- no? - : Ele, + &, t+ &, n Or, d’aprés 'hypothése d’indépendance des erreurs, les doubles produits sont done tous nuls. Nous obtenons alors : [Ze - =| = no? - 1162 =no2-o2 : n +b) Elia, — 41D, En effet E[(a, ~ @,)?]= say % Doi: (10) Ce qui nous permet de définir, en remplagant la variance des erreurs par son esti- mateur dans les expressions [8] et [9], les estimateurs empiriques! de la variance de chacun des coefficients. oy 1. Bien noter les chapeaux qui différencient les estimateurs théoriques (inconnus) des estimations empiriques alculables) © Dunod ~ Toute reproduction non autorisée est un délit 27 Chapitre 2 = Le modéle de régression simple 28 suivent une loi normale centrée réduite N(O, 1). suit une loi du ? (chi-deux) & n — 2 degrés de liberté! (somme au carré de n — 2 variables aléatoires indépendantes normales centrées réduites). 2 > - e Ge Ga x Nous pouvons remarquer que (n ~ 2)2£ = (n - 2)24 = — st oz 63 oD, - xP suit done aussi une loi du 7? (chi-deux) &.n — 2 degrés de liberté, Ten résulte que : am 4 =a (I'écart type théorique est remplacé par I’écart type Ga, Ou empirique) suivent une loi de Student & n ~ 2 degrés de liberté. a =a En effet est le rapport d’une loi normale cenirée réduite a la racine carrée d'un chi-deux divisé par son degré de liberté. Tl est done possible maintenant de mettre en place des tests statistiques afin d’ap- porter des réponses des problémes tels que — la comparaison dun coefficient de régression par rapport 2 une valeur fixée : ~ a comparaison de deux coefficients de régression provenant de deux échantillons différents ; — la détermination d’un intervalle de confiance pour un coefficient. 1. La notion de degré de liberté correspond au nombre de valeurs restant réellement a disposition aprés une procédure d"estimation statistique. Si un échamtillon comprend 10 observations et qu’on dispose en plus de ta moyenne de cet échantillon, on ne peut choisirlibrement les valeurs que pour 9 de ces observations, la dixieme se «déduisant de la valeur de la moyenne. Dans le cas présent, le modele de régression simple, le nombre de degrés de liberté est done de n ~ 2 car nous avons estimé deux parametres a, et a Le modéle de régression simple = Chapitre 2 3_Test bilatéral, test unilatéral et probabilité critique d’un test _ 3.1 Test bilatéral Soit & tester, & un seuil de 5 %, 'hypothése HO : a, = 0 contre I'hypothése HI : a, #0. 4-4, Nous savons que suit une loi de Student 4 n — 2 degrés de liberté. Ga, Sous HO (a, = 0) le ratio appelé ratio de Student — : suit donc une loi de Student 4 n — 2 degrés de liberté. Le test d’hypothéses bilatéral consiste done a Pn al, comparer le ratio de Student empirique r* = /4il 1a valeur du ¢ de Student Ine dans la table An ~ 2 degrés de liberté! et pour un seuil de probabilité égal 4 5 %, soit si n—2>30, 20° = 1,96, (la table 2 de Student en fin du livre est tabulée pour les tests bilatéraux). Si f° > £25 = 1,96, nous rejetons ’hypothése HO (cf. graphique 4), le coefficient théorique et inconnu a, est significativement différent de 0. 0,45 04 0,35 03 0,25 0,2 0,15 | oA 0,05 0 -3,00 -2,50 -2,)0 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 4,00 2,50 3,00 1,96 41,96 25% Graphique 4 —Test bilatéral a5 % © Dunod ~ Toute reproduction non autorisée est un délit 1. Si le degré de liberté est supérieur & 30, Ia loi de Student peut étre approximée par une loi normale. 29, Chapitre 2 = Le modéle de régression simple 30 3.2 Test unilatéral Soit a tester, 2 un seuil de 5 %, I'hypothése HO : a a, > 0 ou a, <0 selon que le coefficient estimé soit po O contre I’hypothése HI : ff ou négatif. Le test d’hypothéses unilatéral consiste donc A comparer le ratio de Student » _ 1a empirique 1° = a la valeur du r de Student lue dans la table 4 n — 2 degrés de Ga, liberté et pour un seuil de probabilité égal 4 5 %, soit sin —2>30, 1° > 1,65 Si 12.5 = 1,65, nous rejetons I’hypothése HO (cf: graphique 5), le coefficient théo- rique et inconnu a, est significativement différent de 0. Attention, la table de Student en fin du livre est tabulée pour les tests bilatéraux, il faut donc lire & 10 % =2 x 0,05, 0,45 0,4 0,35 03 0,25 0,2 0,15 01 0,05. 0 sco — -2,50 -2,00 -1,50 -1,00 -0,50 0,00 0,50 1,00 1,50 2,00 2,50 3,00 41,65 Graphique 5 ~Test unilatéral a5 % (Ht: a, > 0) REMARQUE Si nous rejetons hypothése HO pour un test bilatéral, alors nou (pour un méme seuil de probabilité) I’hypothése HO pour un test rejetons forcément lateral 3.3 Probabilité critique d’un test La probabilité critique — risque de rejeter & tort "hypothse HO — ou encore risque de premiere espéce est donnée par la valeur de la probabilité a telle que : c 4 [a ! . par la lecture sur une table de Student n — 2 degrés de liberté. Ga, © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 La probabilité critique d’un test unilatéral peut directement se déduire de la probabilité critique d’un test bilatéral par une simple division par 2 Of serérot = iteenas/2 (Opération inverse de celle de la lecture de la table). EXEMPLE Pour r* = 2,53 et nm — 2 = 20, soit A déterminer a tel que we 2,53. Par lecture de la table de Student & 20 degrés de liberté, nous trouvons o° = 2 % pour un test bilatéral et done 1 % pour un test unilatéral. wh Test de coefficient et intervalle de confiance ier CZ2EX2 En reprenant les résultats de l’exercice 2, on demande de répondre aux questions suivantes. 1 = La propension marginale & consommer est-elle significativement différente de 0? 2 = Quel est lintervalle de confiance au seuil (ou niveau) de 95 % pour la propension marginale A consommer ? 1 = La propension marginale & consommer est-elle significativement différente de 0? Cette question est tres importante en économétrie. En effet, dans le cas d'une réponse négative — le coefficient n'est pas significativement différent de 0 — la variable explicative Revenu ne sera pas considérée comme étant explicative de la consommation puisque son coefficient de pondération est nul Il peut paraitre étonnant de tester la différence par rapport A zéro et non pas seule- ment la positivité ou la négativité du coefficient de régression. En effet, il est com- mode de ne s’interroger que sur la contribution de la variable explicative, qu’elle soit positive ou négative. Ce probléme peut étre formulé & I’aide de la théorie des tests & partir des deux hypo- theses suivantes HO: a,=0 Hi: a,40 31 )18 Dunod. Copyright Chapitre 2 = Le modéle de régression simple 32 Si nous rejetons I’hypothése HO, a un seuil a fixé, alors la propension marginale a consommer est considérée comme étant significativement différente de 0. Le seuil le plus communément employé est o& = 0,05, soit un risque de rejeter a tort HO de 5%. Nous savons que : A= suit une loi de Student & n — 2 degrés de liberté. Ga, Sous I'hypothése HO, cette relation devient : 4-0 4 Oo, 6, 13; — loi de Student an — 2 degrés de liberté. a Sa 1 est appelé le ratio de Student. Nous avons caleulé 4, lors de Vexercice 2, il convient done de calculer 4) ; or, apres [11], 64 156000 . nous connaissons (x, — Yo, -7F 7 D (colonne 6 du tableau de calcul 3). L’estimateur de la variance de l’erreur nous est donné par [10] : 1 , ob et est le résidu de I’estimation (e, n-2 a) Calcul de 5, et de e, La série ajustée $, est calculée par application des estimations dy et 4, : Gy tax, soit §) = dy +4 x; >e, = y,-S 1 176,08 + 0,78 x 8 000 = 7 423,95? + e, = 7 389,99 — 7 423,95 = -33,96 1 176,08 + 0,78 x 9 000 = 8 204,93 > ey = 8 169,65 ~ 8 204,93 = ~35,28 Les résultats sont consignés dans le tableau 4. Nous remarquons bien que (propriété de la méthode des moindres carrés). 7 1. Le seuil a est aussi appelé risque de premidre espoce : c'est la probabilité de rejeter hypothése HO bien qu'elle soit vraie, 2. Les petites di +s constatées sont dues aux arrondis, © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 Tableau 4 - Calcul du résidu d’estimation 7 423,95 = 33,96 1153,38 820493 | - 35,28 124,98 859543 | 236,28 | 55830,26 8595,43 57,41 3.296,40 8829,72 | - 41,64 1733,93 976690 | -15069 | 22 707,42 10547,88 45,57 2:076,39 1132887 | -142,76 | 20379,08 1289083 | -132,74 | 17 620,12 1367181 | 197.81_| 3912738 Somme Mayenne b) Calcul de l’estimation de la variance de erreur et de I’écart type du coefficient de régression. 165 169,3 16 516,93 Lestimation de la variance de l’erreur est donc égale a : _ 165169. n-2 10-2 = 20 646,16 ce qui nous permet de calculer la variance estimée de 4: _ 20 646,16 =————- = 0,000 3218, 64 156 000 soit Gj, =0,0179 ©) Calcul du ratio de Student et régle de décision. Nous savons que “l= ¢%, est distribué selon une loi de Student an ~ 2 degrés de al liberté, la distribution d’échantillonnage sous HO est done représentée par le graphique 6 Graphique 6 - Distribution d’échantillonnage sous ’hypothése HO 33 Dunod Copyright Chapitre 2 = Le modéle de régression simple 34 La régle de décision pour un seuil crest alors la suivante On calcule le ratio empirique de Student 13, =-<'- (rapport du coefficient sur son écart type) Oa ~ Siti; est inférieur 4-12’? ou supérieur A +123 alors on rejette I’hypothése HO (nous sommes dans la zone hachurée H1), le coefficient a, est alors significativement différent de 0 (on accepte a, #0) ; la variable explicative R, est donc contributive & Vexplication de la variable C,. = Sif, est compris dans Vintervalle :t1'%/3, alors nous ne sommes pas en mesure de rejeter 'hypothése HO (donc on l’accepte), le coefficient a, n’est pas significativement différent de 0 (on accepte a, = 0) ; la variable explicative R, n'est done pas explicative de la variable C,, Test plus simple de profiter de la symétrie de la loi de Student et done de caleuler la valeur absolue du ratio de Student et de la comparer directement 4 la valeur lue dans la table. La régle de décision pour un seuil o = 0,05 est alors la suivante : -si G)= lal > 10.5 5 on rejette I'hypothése HO, le coefficient a, est alors a significativement différent de 0 (on accepte a, # 0) ; la variable explicative R, est done contributive & I'explication de la variable C, : «lil 002s < 1835 —s on accepte I’hypoth’se HO, le coefficient a, n'est done pas significativement différent de 0 (on accepte a, # 0) done pas contributive 4 l’explication de C,. ; la variable explicative R, n’est Nous voyons l’importance que revét ce test dans l’investigation économétrique ; en effet, il permet de tester la pertinence d'une variable explicative qui figure dans un modéle et sa contribution & l'explication du phénoméne que l'on cherche & modéliser. Dans notre exemple, nous calculons le ratio de Student : la __ 0,78 0,0179 43,57 > th = 2,306! > a, #0 oy La propension marginale & consommer est done significativement différente de 0, la variable Revenu est bien explicative de la variable Consommation. 1. Les tables statistiques sont en fin d’ouvrage. Dans le cas d'un test unilatéral, il convient d'utiliser une table correspondent & ce type de test, e"est-t-dire dont seule la partie de gauche est hiachurée. Dans le cas d'un test bila~ teral, ce sont les tables dont les deux parties extrémes sont hachurées, Bien entendu, cela n'est vrai que pour les lois, de probabilité symétriques, 4 E } a Le modéle de régression simple = Chapitre 2 2. = Détermination d’un intervalle de confiance, au seuil de 95 %, pour la propen- sion marginale & consommer. Nous savons que : a-a << ,, Pintervalle £103 a, = 4, £6) x13 Application numérique pour un seuil a = 0,95 : a, = 0,78 + 2,306 x 0,0179 Nous avons done un risque de 5 % que le véritable coefficient a, se trouve V'extérieur de lintervalle [0,74 ; 0,82] ; nous constatons que 0 ne figure pas dans cet intervalle de confiance, ce qui est bien entendu cohérent avec la question précédente. Section 4 EQUATION ET TABLEAU D’ANALYSE DE LA VARIANCE 1_Equation d’analyse de la variance Démontrons les deux relations suivantes : -Y¢,=0 : la somme des résidus est nulle (la droite de régression passe par le 7 point moyen'), y= dy 44x, +e, 9 Dy, = La +4 Dx + De > 7 7 ~ 4X, en divisant par n il apparait que Do -niy 4 Ds, =Le, O8 = -Yy,=¥5, ily a égalité entre la moyenne de la série & expliquer et la moyenne de la série ajustée. 1. Cela n'est vrai que pour les modéles comportant un terme constant, ou bien, pour les modéles sans terme constant, si les données sont centrées sur leur moyenne, 35 Chapitre 2 = Le modéle de régression simple 4? L- LHaL De ces deux relations nous pouvons en déduire I’ équation fondamentale d’analyse de la variance : [12] La variabilité totale (SCT) est égale @ la variabilité expliquée (SCE) + la variabi- lité des résidus (SCR). Cette équation va nous permettre de juger de la qualité de P’ajustement d’un modele. En effet, plus la variance expliquée est proche de la variance totale, meilleur est I’ajustement du nuage de points par la droite des moindres carrés. Il est d’usage de calculer le rapport : [13] R° est appelé le coefficient de détermination, et R le coefficient de corrélation multiple (dans le cas particulier du modéle de régression A une seule variable expli- cative, il est égal au coefficient de corrélation linéaire simple entre x et y). 2 Tableau d’analysedelavariance Le tableau 5 présente I’analyse de la variance pour un modele de régression simple. Tableau 5 ~ Analyse de la variance par une régression simple Sie es Cee ed x sce=S9,-77 1 scen 2 Résidu ScR-Lef n-2 ScRIn- 2) Total sct=Ly,-fy n-2 Les degrés de liberté correspondent au nombre de valeurs que nous pouvons choi- sir arbitrairement (par exemple, pour la variabilité totale, connaissant n — | valeurs, nous pourrons en déduire la n-itme, puisque nous connaissons la moyenne J). Le test HO : a, = 0 est équivalent au test d’hypothése! HO : SCE = 0 (la variable explicative x, ne contribue pas & l’explication du modéle). 1. Cela n’est vrai que dans le cas du modéle de régression simple, Le modéle de régression simple = Chapitre 2 Soit le test d’hypothéses HO : SCE = 0 contre I'hypothése HI : SCE #0. La statistique! de ce test est donnée par : sce Li-5P dalsex SCR ua) dailscx Ou encore : Fis 5) c (n-2) La statistique F* est le rapport de la somme des carrés expliqués par x, sur ka somme des carrés des résidus, chacune de ces sommes étant divisée par son degré de liberté respectif. Ainsi, si la variance expliquée est significativement supérieure & la variance résiduelle, la variable x, est considérée comme étant une variable réelle- ment explicative. F* suit une statistique de Fisher & | et n — 2 degrés de liberté. Si F*> F%_) nous rejetons au seuil a Vhypothése HO d’égalité des variances, la variable x, est signifi- cative : dans le cas contraire, nous acceptons I’hypothese d’ égalité des variances, la variable x, n’est pas explicative de la variable y, @-a? oD, (a - En effet, uit une loi du 7? (chi-deux) a un degré de liberté (carré d'une variable aléatoire normale centrée réduite) et suit une loi du z? (chi-deux) An — 2 degrés de liberté (somme au caré de n ~ 2 variables aléatoires indépendantes normales centrées réduites). @-a4 PD, - 3" En effectuant le rapport des deux chi-deux on obtient : F’ (n—2) 1. Nous comparons la somme des carrés expliqués SCE a la somme des carrés des résidus SCR qui est représen- tative de la somme des carrés théoriquement Ia plus faible. © Dunod ~ Toute reproduction non autorisée est un délit 37 Chapitre 2 = Le modéle de régression simple aye SCE soit sous HO (a, = 0) F* = SUR suit une loi de Fisher a 1 £ (n—2) (n-2) et n ~ 2 degrés de liberté (rapport de chi-deux divisés par leurs degrés de liberté). En effet, nous avons SCE = ¥(5, — 3)" = 4? D(x, 3) car MT Nous remarquons = ay +4 diy —4,X =4,(x, Un agronome cherche & estimer la relation liant la production de mais bauxite x se trouvant dans la terre en formalisant la relation : YA Mgt ax t & A partir d’une étude statistique portant sur 85 parcelles de terre, un économetre lui fournit les résultats suivants : yy = 132,80-1lx +e, i= 1... 85 (4,3) (10,2) () = ratio de Student x 1 = Montrer que tester ’hypothése HO : a, = 0 revient & tester I’hypothése r= 0, oir est le coefficient de corrélation linéaire simple entre y, et x; ; le calculer. 6234,32 2 Construire le tableau d’ analyse de la variance et vérifier les résultats obtenus en 1) a partir du test de Fisher. 3 Le coefficient a, est-il significativement inférieur 4-1 ? © Dunod ~ Toute reproduction non autorisée est un Le modéle de régression simple = Chapitre 2 Solution _ 1 = Les observations ne sont pas datées, le modéle est spécifié en coupe instan- tanée. Pour tester I’hypothése HO : a, = 0, nous comparons le ratio de Student empirique 1 = 10,2 la valeur critique #9," = 1,96! Puisque f° est largement supérieur & 1,96, nous rejetons I’hypothése HO, a, est done significativement différent de 0. Le taux de bauxite est un facteur explicatif (négatif) de la production de r Gq = Gt" =0,107. 0. Le coefficient de corrélation linéaire simple est égal a : Dei-¥) ro sy M@i-3P DOr? Or, d’aprés [1], nous savons que : LE-NG; é- ee r Ley Lécart type du coefficient a, est égal Montrons I’ équivalence de ce test avec HO : SCE 4 Y;-H0;-3) Yow scr 20 En effet : 4D (4) - DO, -H)=4 x4, L (4, -¥)? =4? D(a) -¥) = Y@x;-4,7)7 = D6, Pour le modéle de régression simple, nous avons égalité entre le coefficient de déter- mination et le carré du coefficient de corrélation. dy -F+4P=LS Nous avons la relation : Eee HH (1-R*)/(n—2) (1=r?)/(n-2) =(ry done on en déduit : 7 =) qui suit une loi de Student n— 2 degrés de liberté. (I-r*) 1. Le degré de liberté de la loi de Student étant supétieu 310, il est licite de l'approximer par une loi normale, 1,96 est la valeur de la loi normale & un seuil de 0,05 (test bilateral) al). 39 Copyright © 2018 Dunod. Chapitre 2 = Le modéle de régression simple Ceci permet de tester si la relation entre y, et .x; est significative, ou encore si le coefficient r est significativement différent de 0. Le calcul du coefficient de corréla- tion empirique ne pose alors plus de probléme : — p?=0,556—|p|=0,745" 2 SCT=Y(y;-3P Or, d’aprés [13], nous avons : R? = 1 — qe = 1 - SR YO; - ¥F Scr R°= p? = 0,556, la connaissance de SCR=S,e?=6234,32 permet de déterminer SCR = 14 041,26 ainsi que, d’aprés [12], SCE = 7 806,94. Nous pouvons maintenant construire le tableau 6 d’analyse de la variance. Tableau 6 ~ Analyse de la variance Source de variation Somme des carrés_Degré de liberté__Carrés moyens x SCE=7 806,94 1 7 806,94 Résidu SCR = 6 234,32 85-2 75,11 Total 041,26 85-1 Fe SCE/\ — 7806,94 SCRI(n-2) 75,11 = 103,94 > Fi’ = 3,96 Nous remarquons que F* = (t*)?. Dans le modéle de régression simple, il y a équivalence a tester : a,=0 4,20 hy ry #0 SCE=0 SCE 20 1. Nous savons que le coeflicient p est en réalité négati puisque le coefficient de régression dj est lui-méme nega 4o © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 Le premier test porte sur la pente de la droite de régression, le deuxitme test sur le coefficient de corrélation entre x et y et, enfin, le troisigme a pour but de juger si la somme des carrés expliqués est significative, ces trois tests néanmoins répondent & la méme interrogation. 3 = Le coefficient a, est-il significativement inférieur 4-1? La formulation des hypotheses est la suivante : HO: a, =-1 Hi: a,<-1 Sous I’hypothése H0, nous avons la-al _ la -CD 6x 6 11+] _ 01078 \ ,92 < 19.5 = 1,65 a Nous acceptons I’hypothése HO, a, n'est pas significativement différent de — 1. Nous pouvons aussi répondre & cette question en vérifiant que la valeur ~ I est comprise dans Pintervalle de confiance : ay = Gy £1,96 Gq, > a E[-1,315 -0,89] (Attention : #5 = 1,96 car le test est maintenant bilatéral.) Section 5 LA PREVISION DANS LE MODELE DE REGRESSION SIMPLE Lorsque les coefficients du modéle ont été estimés, il est possible de calculer une prévision & un horizon h. Soit le modéle estimé sur la période = 1,..., nt y, = +4, x, +e, si la valeur de la variable explicative x, est connue en n + I(x,,,), la prévision est donnée par : Fny = Gy +4) Xn int Montrons que cette prévision est sans bia erreur de prévision est égale & + é..1 = Yugi — Syst que l'on peut écrire : €,,.) = (ay + 4) Xny1 + Enst) — (Gy + 4 X41) soit! egy, = (Ay — Gy) + (4, — 4X4, +E,41 En se référant aux hypotheses du modéle, on a El )=0 Une démonstration analogue permet d’obtenir Ete...) )=0. 1. Valeur de la loi normale au seuil de 5 % ; en effet il sagt d'un test unilatral 4i Chapitre 2 = Le modéle de régression simple 42 La prévision sans biais est done obtenue par I’application directe du modéle de régression estimé. Cependant, dans la pratique, il n’est que de peu d’utilité de connaitre la prévision si nous ne savons pas quel degré de confiance nous pouvons lui accorder. Nous allons done calculer la variance de l’erreur de prévision qui nous permet de déterminer un intervalle de confiance! bornant la prévision. La variance de l’erreur de prévision est donnée par : Vn =V (Gq = a) + G = a) p44 + E41) Puisque la variable x,,, est certaine et l’erreur ,,,, est non autocorrélée avec les €, cette expression peut s’écrire VE qe1) = Vy) + VG) + 2% j4,COVG, Gy) + VEpa1) En remplacant les variances et la covariance des coefficients par leurs expressions dapres [9] et connaissant V(é,,,,)=02, nous obtenons : 3 Vea = ( SE PV(G) + ARVO) — 244 .8V(G) + 2) n encore” 1, Gnu - 3? 1, Gon)" an Ya, -3P T VE ns.) =VOns1 ~ Susi) +1 [16] Nous pouvons observer que, dans cette formule, la variance de erreur de pré- vision est fonction de I’écart quadratique entre la variable exogtne prévue et la moyenne de cette méme variable : plus la valeur prévue s’éloigne de cette moyenne, plus le risque d’erreur est important. De méme, nous remarquons que la variance de l’erreur de prévision est une fonction inverse de la variabilité de la série explicative. Lihypothése de normalité de ¢, permet alors de déterminer un intervalle & (1 ~ &) % pour la prévision : Cnst = Ynsi ~ Inst > N] O07 1, Test plus juste de parler d’intervalle de prédiction, Le modéle de régression simple = Chapitre 2 1,9 (Student an - 2 d.d.l.) 07) ©) Cas particulier Lorsque nous utilisons le modéle de régression simple pour calculer une droite de tendance (moindres carrés sur le temps), le mod2le est spécifié ainsi : T,=dy+ayte, pour f=l...n Pour calculer la prévision & horizon h, nous employons la formule d’extrapolation : Fy, = 4 +4 (n+h), et Vintervalle de prédiction se trouve alors sur deux branches d’hyperbole! (n + h — 7) illustré par le graphique 7. 123.4 5 67 BY 101 121314 1516 1718 19 2021 22 23 24.25, Graphique 7 Intervalle de la prévision par extrapolation de tendance 3 E 3 a 8 1. Crest effet « trompeite », le lecteur devinera pourquv 43 Chapitre 2 = Le modéle de régression simple 44 wb Prévision dans un modéle de régression simple __ Nous reprenons le modéle consommation-revenu estimé lors de l’exercice 2 1 176,08 + 0,78 x, +e, (0.21) (43,53) 10 de Student ichier C2EX2 1 Calculer le coefficient de détermination et effectuer le test de Fisher permet- tant de déterminer si la régression est globalement significative. 2 = Quelle est la conséquence sur la consommation de I’augmentation du revenu de 800 dollars? 3 = Pour les années 11 et 12, on prévoit respectivement 16 800 et 17 000 dollars de revenu par habitant, Déterminer la prévision de consommation pour ces deux années ainsi que l’intervalle de prédiction au seuil de 95 %. Solution __ 1 = Pour calculer le coefficient de détermination, nous nous référons & la relation U5] is R z ce ; = nr aa? C= R)Kn-2 =P? )n=2) Soit : 12 = 0,99, nous pouvons alors calculer le Fisher empirique = F' = 1895,3 > Fix” = 5,32, la variable explicative est significative. 2 = Augmentation de 800 dollars du revenu. Nous avons : A$, =4,Ax, soit A$, = 0,78 x Ax, = 0,78 x 800 = 624 La consommation augmente de 624 dollars, soit un peu moins que le revenu. 3. = Les prévisions sont calculées par l'utilisation du modéle estimé 5i1 = 1176,08 + 0,78 x, =1176,08 + 0,78 x 16 800 =14 280,08 Lintervalle de prévi ion [17] peut alors étre caleulé = © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 avec n=10 6, = 143,69 (d’aprés l’exercice 3) = 64 156 000 (d’aprés l’exercice 3) 3 1 280 (d’aprés l’exercice 2) 12/3 = 2,306 16 800 Yup = 14 280,08 + 2,306 x 180,32 IC =[13 864,24 ; 14 695,91] La réalisation a 95 % de chance de se trouver 4 l’intérieur de cet intervalle'. De méme, pour l'année 12, nous obtenons Sip =1176,08 + 0,78.x,5 = 1176,08 + 0,78 x 17 000. = 14 436,08 = 14 436,08 + 2,306 x 182,32 14 015,65; 14.856,51] 7 : ffici eee Un économiste spécialisé en économie du travail s’intéresse & la relation liant la rémunération et la durée des études (théorie du capital humain). Pour ce faire, il dispose d’un échantillon de 40 hommes et 25 femmes ayant le méme Age, dont il releve la rémunération annuelle (y;), exprimée en milliers d’euros, et le nombre d’années d’ études (1) Les estimations économétriques conduisent aux résultats suivants : Pour les hommes : y,= 18,60 + 1.8.x, +6, . 40.n, =40 (9,3) 5,2) () = ratio de Student 42 1. La distribution étant normale (loi continue). il est clair que la probabilité d’apparition de chacune des valeurs de V'intervalle n'est pas identique, La valeur la plus probable se trouve au centre de Pintervalle. 45 Dunod Copyright Chapitre 2 = Le modéle de régression simple Pour les femmes : 4,50 +0,7 x, +6, (12,8) (2,5) atio de Student + 25n,=25 0,22 1 = Linfluence de la durée des études sur la rémunération vous semble-t-elle significative ? 2 = Existe-til une différence significative de impact de la durée des études sur la rémunération des hommes et des femmes ? Solution _ 1 = Pour répondre a cett ratios de Student, soit le coe emigre question, nous pouvons analyser soit les nt de détermination Le ratio de Student empirique de la variable « années d'études » est égal a : Pour les hommes : 5,2>182 =1,96 Pour les femmes : =2,5>195 =2,06 Les écarts types sont : =0,34 et = Gp = 0,28 Les deux coefficients de régression sont done significativement différents de 0. Il est A noter que, pour les femmes, le coefficient de pondération des années d’études est plus faible et moins significatif que celui des hommes. Les probabilités critiques! sont, pour les hommes, de a = 0,000 | et de a = 0,02 pour les femmes (nous consi- dérons le coefficient comme non significativement différent de 0 au seuil de 2 %). Le test de Fisher mené sur les coefficients de détermination conduit aux mémes résultats. 2 = Ce probléme se raméne a un test de différence de moyennes de variables aléatoires normales indépendantes et de variances inégales, HO: d=a,-a,=0 Hl: d=a,—a,40 a, : suit une loi de Student an, +, —4 degrés de liberté. et d=; ~ G, et sous I’hypothése HO, le rapport s’écrit : o£ 33 1. Cette notion est importante: il s‘agit de déterminer le seuil de probabil thse HO. Plus ce seuil est faible, moins le risque de se tromper est important A partir duquel on aceepte hypo © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 2Var(x,) + b2Var(xy) + 2abCov(x x2) OU x, et xy sont deux variables aléatoires et a et b sont deux si Rappel : Var(a x x; + bX x2) laires. Tei Cov(d,,4,)=0 car Vara ,)+ Var(d,,). Nous rejetons 'hypothése HO, il existe une différence significative des coefficients de régression : la durée des études des femmes a moins d’impact sur la rémunération que la durée des études des hommes (sur cet échantillon...) les deux régressions sont indépendantes. D’ott Var(d , —4) Nous pouvons déterminer la probabilité critique de ce test (probabilité & partir de laquelle nous sommes amenés & accepter I'hypothése HO). La lecture de la table de Student A 61 degrés de liberté (sur la table ©) indique une probabilité comprise entre 0,01 et 0,02 (la valeur exacte déterminée par la fonction Excel « loi.student » est 0,0154). Le risque de se romper en rejetant 'hypothése HO est done de 1,54 % ; compte tenu de ce trés faible risque, nous rejetons ’hypothése HO. Evidemment, plus la probabilité critique est faible plus nous sommes confortés dans notre décision. Soit les résultats d’une estimation économétrique = 251x,-32,95+e, 3 0,66 1» A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme des carrés des résidus (SCR), la somme des carrés totaux (SCT), la somme des carrés expliqués (SCE), la valeur de la statistique du Fisher empirique (F’) et I’écart type du coefficient 4 (¢41)- 2 = Le coefficient de la variable x est-il significativement supérieur 2 1 ? SCR=(10,66)? x18=2045,44 Nous pouvons calculer SCE et SCT a V'aide du coefficient de détermination. R? = 0,23 = | - SCRISCT = SCT =SCRI(1— R?)=2045,44/(1—0,23)=2656,42 Or SCT = SCE + SCR > SCE = 610,98 47 2018 Dunod. Copyright Chapitre 2 = Le modéle de régression simple Nous pouvons calculer maintenant : A R SCE (1=R?)i(n=2) — SCRI(n-2) (dans le cas d’un modéle de régression simple 1°? =F"). Nous pouvons en déduire 540=9 f° =VF* = 2,32 Pécart type du coefficient : 6, == 4251 9,54, r 2,32 2 = On pose le test d’hypothases : HO Sous HO, nous pouvons écrire : fica 125-1 Gy (0,54 Vacceptation de HO, le coefficient a, n’est pas significativement supérieur a 1. = L contre "hypothése HI: a, > 1 734! => nous sommes donc dans la zone de ,46< 114" Apprendre a utiliser les formules —__ A partir dun échantillon de 190 observations, on étudie la relation entre la variable a expliquer y, et la variable explicative x. A aide des informations fournies ci-dessous, reconstituez les huit valeurs manquan- tes signalées par VMI, ... VMB. Dependent Variable: ¥ Method: Least Squares Sample: 1 190 Included observations: 190 -A364.928 ‘VMI M4 Resquared VMs S.E ofregression 322.8850 Sum squared resid VM7 ‘Mean dependent var vMo S.D. dependent var Ma statistic 778.9623 On donne o, 1, Attention, comme le test est unilatéral et que la table de Student de cet ouvrage est tabulée directement pour ai? (cas le plus général d'un test bilatéral), il convient done ici de lire sur la table & un seuil de 0,10 = 2 x 0.05, © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression simple = Chapitre 2 Solution _ VMI : directement par 6 a = 267,76 V2: 4, = VF" = = N78, 96 = 27,91 wor, = 322,88: Goa! Y(4;-%) = (1-1) x G? = 189 x (3,447)? = 245,66 fect 322,88 _ cg, “SG; 224566 d’ol VM4 = VM3 x VM2 = 190,15 : Ril R VMS : on sait que FX = _ = __—i_ (= R)n—2) = R?)/188 9 = 778,96 R? = 178.96 _ _ 9.89 778,964 188 M6 : ¥ = dy +4, x ¥ =—4364,928 + 190,15 x 38,416 = 2930,8 Le VM7 : SCR =} e?, or 62 = aE) aor Y, 88 x (322,88)? = 19 599 280, 2 _ SCE R SCR :RPs 2 = 1-3 SCT = 98 986 262 “ scr" scr LO. [SCT =73,7 a ge Vin 1. Nous prenons ici la formule de les divisons par n ~ 1 wateur de I'écart type calculé & partir d'un échamtillon, done nous 49 “pound gtoz @ 3461sAdo> SECTION 1 SECTION 2 SECTION 3 SECTION 4 SECTION 5 SECTION 6 SECTION 7 Le modele de régression multiple Le modéle linéaire général Estimation et propriétés des estimateurs Les tests statistiques Uanalyse de la variance utilisation de variables indicatrices La prévision a l'aide du modéle linéaire général et la régression récursive Exercices récapitulatifs Chapitre 3 = Le modéle de régression multiple 52 € modele linéaire général est une extension du modéle de régression simple abordé au chapitre précédent. Section 1 LE MODELE LINEAIRE GENERAL 1 Présentation Lors du chapitre précédent, nous avons considéré qu’une variable endogéne est expliquée & l'aide dune seule variable exogéne. Cependant, il est extrémement rare qu'un phénoméne économique ou social puisse étre appréhendé par une seule variable. Le modéle linéaire général est une généralisation du modéle de régression simple dans lequel figurent plusieurs variables explicatives : Jy Fy AX yp + Ny, +o. Fh gky +E, pour t= 1,...,7 variable 4 expliquer & la date ¢ : variable explicative 1 a la date f ; variable explicative 2 a la date f ; 444, = variable explicative & a la date; yy dy, «+ @, = parametres du modble + £, = erreur de spécification (différence entre le modéle vrai et le modéle spi fig), cette erreur est inconnue et restera inconnue n = nombre d’ observations. 2 Forme matricielle Lécriture précédente du modéle est d’un maniement peu pratique. Afin d’en allé- ger I’écriture et de faciliter expression de certains résultats, on a habituellement recours aux notations matricielles. En écrivant le modéle, observation par observa- tion, nous obtenons : Vy = Ao + yxy, + QXy He. + A,X +E, © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression multiple = Chapitre 3 Vo = Aq +AyXyy + AX, Hee + A_XpD FE Ay + 4X1 + AyXyy FoF Xp FE, Vn FM + AX q + AQXIq_ eee FAX in + Ep Soit, sous forme matricielle = avec : y Vox xm xe a Y2 Lox co ie & - a ie 4 : y=] [sx ; eee ee 1 Xu Xa : 7" Lin Xan Xen a g Nous remarquons la premitre colonne de la matrice X, composée de 1, qui corres pond au coefficient a, (coefficient du terme constant). La dimension de la matrice X est donc de n lignes et k + | colonnes (k étant le nombre de variables explicatives réelles, dire constante exclue). Lécriture sous forme matricielle rend plus aisée la manipulation du modéle linéaire général, c’est pourquoi nous I'adoptons par la suite. Section 2 ESTIMATION ET PROPRIETES DES ESTIMATEURS 1 Estimation des coefficients de régression = Soit le modéle sous forme matricielle 4 k variables explicatives et n observa- tions : Y=Xate (y 53 Chapitre 3 = Le modéle de régression multiple 54 Afin d’estimer le vecteur a composé des coefficients a), a, ... a, nous appliquons la méthode des Moindres Carrés Ordinaires (MCO) qui consiste 2 minimiser la somme des carrés des erreurs, soit : Min Min é’e = Min(Y — Xa)'(Y — Xa) = Min S [2] avec €’ transposé! du vecteur €. Pour minimiser cette fonction par rapport a, nous différencions? § par rapport ha: x ~2X'¥ + 2X’ XG =0 >| G= (XX) XY [3] la Cette solution est réalisable3 si la matrice carrée X’ X de dimension ( + 1, k +1) est inversible. La matrice X’X est la matrice des produits croisés des variables explicatives ; en cas de colinéarité parfaite entre deux variables explicatives, la matrice X’ X est singulidre et la méthode des MCO defaillante. On appelle équations normales les équations issues de la relation : X’ Xa = X’Y Soit, sous forme matricielle : mY Den Dt 7 Ly Len Da De Late || a, Las Ye Le, Dd Deere |] & f=} Dev De Dat Leet LE OY | xe oy Le modéle estimé s’écrit : Ye = dy + At + dyty, tt ary +e, avec e, = y, — § olt e, est le résidu, c’est-A-dire I’écart entre la valeur observée de la variable & expliquer et sa valeur estimée (ajustée). 1. Nous désignerons par le signe ‘les ansposés de vecteur ou de matrice. 2. $= (¥ ~Kay(¥ ~Xa) = V/V -Y'Na a" ¥ +X? Xa YY —20X ¥ +a’ Xa conditions de second ora sont wérfiges du fait que X’ X est une matt 3. Les isinie semi-positive. © Dunod ~ Toute reproduction non autorisée est un délit Le modéle de régression multiple = Chapitre 3 ATTENTION Ul convient de bien distinguer entre l’erreur de spécifi et restera inconnue et le résidu (e,) qui, lui, est connu, tion du modéle (noté €,) qui est 1.1 Cas particulier Si nous raisonnons sur des données centrées, I'estimateur de a peut s*écrire en fonction des matrices des variances et covariances empiriques : a Var(x;) Covi, x) Cover. x3) Cov, ay) a Cov(x,, x1) Varlay) Cov(x9, x3)... Cov(ay, x) & J=| Covirs,4) Cov(ay, a) Varta) see Covers, xy) 4, Cov(xy, ay) Cover, x3) Cov(ry, a5) Var(x,) Covi, y) Cov(xy, y) x] Covirs, y) Cov(x,, ») avec dy = AX, — 4gX_ —...-— A,X. Que sont des données centrées sur a moyenne ? Soit x, une variable connue sur 1 observations et ¥ sa moyenne, nous pouvons calculer une nouvelle variable (X, = x, — X) dont la somme est par construction nulle : }’(x, - ¥) =X, il al Nous avons donc X = 0. 1.2 Effet de la variation d’une seule des variables explicatives Soit le modéle estimé : y, = Gy + Gj xy, + Gy Xa, + 0 + Ay Ry + Si la variable x, passe de la valeur .x,, A (xy, + Avy,), toutes choses étant égales par ailleurs (les k — 1 autres variables restant constantes), alors la variable & expliquer varie de dy Ary : Af, = ay Avy, Les coefficients s’interprétent done directement en terme de propension marginale. 55 Chapitre 3 = Le modéle de régression multiple 2_Hypothéses et propriétés des estimateurs = Par construction, le modéle est linéaire en X (ou sur ces coefficients) et nous distinguons les hypotheses stochastiques (liges a I’erreur €) des hypotheses structurelles. 2.1 Hypothéses stochastiques -HI: -H2: —H3 -H4: -HS: : Ee?) les valeurs x, , sont observées sans erreur. E(e,) = 0, l’'espérance mathématique de l’erreur est nulle. 2, la variance de lerreur est constante (Vf) (homoscédasticité). E(, £/) = 0 sit #1’, les erreurs sont non corrélées (ou encore indépendantes). Cov(x,, €,) = 0, erreur est indépendante des variables explicatives. 2.2 Hypothéses structurelles -H6: -H7: —H8: absence de colinéarité entre les variables explicatives, cela implique que la matrice (X’X) est régulire et que la matrice inverse (X’X)" existe. (X’X)/n tend vers une matrice finie non singuliére. n>k-+1, le nombre dobservations est supérieur! au nombre des séries explicatives. 2.3 Propriétés des estimateurs Considérons les propriétés de l’estimateur [3]. Le modéle sous forme matricielle peut s’écrire, comme pour le modéle de régres- sion simple, de différentes maniéres : Y=Xa+e ¥=Xa+e (>e=Y-Y (e=sésidu) Y=Xa Nous obtenons G = (X'XY!X’Y = (X’ XY X"(Xa +e) G = (X/XYX(Xa) + (XX) Xe [4] G=at(X’X)'Xe dot E(4) = a+ (X’Xy' X’E(e)=a car E(e)=0 56 énous aurions un systéme de n équations &in inconnues, done pati

Potrebbero piacerti anche