Fundamentele analizei datelor. Metode de analiză de regresie Metoda de regresie vă permite să stabiliți

Analiza de regresie examinează dependența unei anumite cantități de o altă cantitate sau de mai multe alte cantități. Analiza de regresie este utilizată în principal în prognoza pe termen mediu, precum și în prognoza pe termen lung. Perioadele pe termen mediu și lung permit stabilirea unor schimbări în mediul de afaceri și luarea în considerare a impactului acestor modificări asupra indicatorului studiat.

Pentru a efectua o analiză de regresie, este necesar:

    disponibilitatea datelor anuale privind indicatorii studiați,

    disponibilitatea previziunilor unice, de ex. previziuni care nu se îmbunătățesc cu date noi.

Analiza de regresie se realizează de obicei pentru obiecte care au o natură complexă, multifactorială, precum volumul investițiilor, profiturile, volumele vânzărilor etc.

La metoda de prognoză normativă se determină modalităţile şi termenii de realizare a stărilor posibile ale fenomenului, luate ca scop. Vorbim despre prezicerea realizării stărilor dorite ale fenomenului pe baza unor norme, idealuri, stimulente și scopuri predeterminate. O astfel de prognoză răspunde la întrebarea: în ce moduri se poate realiza ceea ce s-a dorit? Metoda normativă este folosită mai des pentru prognozele programatice sau țintite. Se utilizează atât o expresie cantitativă a standardului, cât și o anumită scară a posibilităților funcției de evaluare.

În cazul utilizării unei expresii cantitative, de exemplu, a normelor fiziologice și raționale pentru consumul anumitor produse alimentare și nealimentare elaborate de specialiști pentru diferite grupuri ale populației, se poate determina nivelul de consum al acestor bunuri pentru anii precedenți realizării normei specificate. Astfel de calcule se numesc interpolare. Interpolarea este o modalitate de calculare a indicatorilor care lipsesc în seria temporală a unui fenomen, pe baza unei relații stabilite. Luând valoarea reală a indicatorului și valoarea standardelor acestuia ca membri extremi ai seriei dinamice, este posibil să se determine mărimea valorilor din această serie. Prin urmare, interpolarea este considerată o metodă normativă. Formula dată anterior (4), utilizată în extrapolare, poate fi utilizată în interpolare, unde y n nu va mai caracteriza datele efective, ci standardul indicatorului.

Dacă în metoda normativă se folosește o scară (câmp, spectru) a posibilităților funcției de evaluare, adică funcția de distribuție a preferințelor, se indică aproximativ următoarea gradație: nedorit - mai puțin de dorit - mai de dorit - cel mai dezirabil - optim ( standard).

Metoda de previziune normativă ajută la elaborarea recomandărilor pentru creșterea nivelului de obiectivitate și, prin urmare, a eficacității deciziilor.

Modelare, poate cea mai dificilă metodă de prognoză. Modelarea matematică înseamnă descrierea unui fenomen economic prin formule, ecuații și inegalități matematice. Aparatul matematic ar trebui să reflecte cu acuratețe fundalul predictiv, deși este destul de dificil să reflecte pe deplin întreaga adâncime și complexitate a obiectului prezis. Termenul „model” este derivat din cuvântul latin modelus, care înseamnă „măsură”. Prin urmare, ar fi mai corect să considerăm modelarea nu ca o metodă de prognoză, ci ca o metodă de studiere a unui fenomen similar pe un model.

Într-un sens larg, modelele sunt numite înlocuitori pentru obiectul de studiu, care sunt cu acesta într-o asemenea similitudine care vă permite să obțineți noi cunoștințe despre obiect. Modelul trebuie considerat ca o descriere matematică a obiectului. În acest caz, modelul este definit ca un fenomen (obiect, instalație) care se află în oarecare corespondență cu obiectul studiat și îl poate înlocui în procesul de cercetare, prezentând informații despre obiect.

Cu o înțelegere mai restrânsă a modelului, acesta este considerat obiect de prognoză, studiul său permite obținerea de informații despre posibilele stări ale obiectului în viitor și modalități de realizare a acestor stări. În acest caz, scopul modelului predictiv este de a obține informații nu despre obiect în general, ci doar despre stările sale viitoare. Apoi, la construirea unui model, poate fi imposibil să se verifice direct corespondența acestuia cu obiectul, deoarece modelul reprezintă doar starea sa viitoare, iar obiectul însuși poate fi în prezent absent sau să aibă o existență diferită.

Modelele pot fi materiale și ideale.

Modelele ideale sunt folosite în economie. Cel mai perfect model ideal pentru o descriere cantitativă a unui fenomen socio-economic (economic) este un model matematic care utilizează numere, formule, ecuații, algoritmi sau o reprezentare grafică. Cu ajutorul modelelor economice determinați:

    relația dintre diverși indicatori economici;

    diverse tipuri de restricții impuse indicatorilor;

    criterii de optimizare a procesului.

O descriere semnificativă a unui obiect poate fi reprezentată sub forma schemei sale formalizate, care indică ce parametri și informații inițiale trebuie colectate pentru a calcula valorile necesare. Un model matematic, spre deosebire de o schemă formalizată, conține date numerice specifice care caracterizează un obiect.Dezvoltarea unui model matematic depinde în mare măsură de ideea prognozatorului despre esența procesului modelat. Pe baza ideilor sale, el propune o ipoteză de lucru, cu ajutorul căreia se realizează o înregistrare analitică a modelului sub formă de formule, ecuații și inegalități. În urma rezolvării sistemului de ecuații se obțin parametri specifici funcției, care descriu modificarea variabilelor dorite în timp.

Ordinea și succesiunea lucrărilor ca element al organizării prognozei se determină în funcție de metoda de prognoză utilizată. De obicei, această lucrare se desfășoară în mai multe etape.

Etapa 1 - retrospecția predictivă, adică stabilirea obiectului prognozei și a fundalului prognozei. Lucrarea în prima etapă se desfășoară în următoarea secvență:

    formarea unei descrieri a unui obiect din trecut, care include o analiză pre-prognozată a obiectului, o evaluare a parametrilor acestuia, semnificația lor și relațiile reciproce,

    identificarea și evaluarea surselor de informații, procedura și organizarea lucrului cu acestea, colectarea și plasarea informațiilor retrospective;

    stabilirea obiectivelor cercetării.

Îndeplinesc sarcinile de retrospecție predictivă, prognozatorii studiază istoria dezvoltării obiectului și fundalul prognozei pentru a obține descrierea sistematică a acestora.

Etapa 2 - diagnostic predictiv, în cadrul căreia se studiază o descriere sistematică a obiectului prognozei și a fondului prognozei pentru a identifica tendințele în dezvoltarea acestora și a selecta modele și metode de prognoză. Lucrarea se realizează în următoarea secvență:

    elaborarea unui model de obiect de prognoză, inclusiv o descriere formală a obiectului, verificarea gradului de adecvare a modelului la obiect;

    selectarea metodelor de prognoză (principale și auxiliare), elaborarea unui algoritm și a programelor de lucru.

Etapa a 3-a - patronajul, adică procesul de dezvoltare extinsă a prognozei, incluzând: 1) calculul parametrilor preziși pentru o anumită perioadă de timp; 2) sinteza componentelor individuale ale prognozei.

Etapa a 4-a - evaluarea prognozei, inclusiv verificarea acesteia, adică determinarea gradului de fiabilitate, acuratețe și validitate.

În cursul prospectării și evaluării, sarcinile de prognoză și evaluarea acesteia sunt rezolvate pe baza etapelor anterioare.

Etaparea indicată este aproximativă și depinde de metoda principală de prognoză.

Rezultatele prognozei sunt intocmite sub forma unui certificat, raport sau alt material si sunt prezentate clientului.

În prognoză, poate fi indicată abaterea prognozei de la starea reală a obiectului, care se numește eroare de prognoză, care se calculează prin formula:

;
;
. (9.3)

Surse de erori în prognoză

Principalele surse pot fi:

1. Simplu transfer (extrapolare) de date din trecut în viitor (de exemplu, compania nu are alte opțiuni de prognoză, cu excepția unei creșteri de 10% a vânzărilor).

2. Incapacitatea de a determina cu exactitate probabilitatea unui eveniment și impactul acestuia asupra obiectului studiat.

3. Dificultăți neprevăzute (evenimente perturbatoare) care afectează implementarea planului, de exemplu, concedierea bruscă a șefului departamentului de vânzări.

În general, acuratețea prognozării crește odată cu acumularea de experiență în prognoză și dezvoltarea metodelor acesteia.

Ca urmare a studierii materialului din capitolul 4, studentul ar trebui:

stiu

  • concepte de bază ale analizei de regresie;
  • metode de estimare și proprietăți ale estimărilor metodei celor mai mici pătrate;
  • reguli de bază pentru testarea semnificației și estimarea pe intervale a ecuației și a coeficienților de regresie;

a fi capabil să

  • găsiți estimări ale parametrilor modelelor bidimensionale și multiple ale ecuațiilor de regresie din datele eșantionului, analizați proprietățile acestora;
  • verificați semnificația ecuației și a coeficienților de regresie;
  • găsiți estimări de interval ale parametrilor semnificativi;

proprii

  • abilitățile de estimare statistică a parametrilor ecuațiilor de regresie bidimensională și multiplă; abilități de verificare a adecvării modelelor de regresie;
  • abilități în obținerea unei ecuații de regresie cu toți coeficienții semnificativi folosind software analitic.

Noțiuni de bază

După efectuarea unei analize de corelație, când a fost identificată prezența unor relații semnificative statistic între variabile și a fost evaluat gradul de strângere a acestora, se procedează de obicei la o descriere matematică a tipului de dependențe folosind metode de analiză de regresie. În acest scop, este selectată o clasă de funcții care leagă indicatorul efectiv lași argumente„ calculează estimări ale parametrilor ecuației de constrângere și analizează acuratețea ecuației rezultate .

Funcția| care descrie dependența valorii medii condiționate a caracteristicii efective la din valorile date ale argumentelor, se numește ecuația de regresie.

Termenul „regresie” (din lat. regresie- retragere, întoarcere la ceva) a fost introdus de psihologul și antropologul englez F. Galton și este asociat cu unul dintre primele sale exemple, în care Galton, prelucrând date statistice legate de problema eredității creșterii, a constatat că dacă înălțimea de tații se abate de la înălțimea medie pe care toți tații sunt X inci, atunci înălțimea fiilor lor se abate de la înălțimea medie a tuturor fiilor cu mai puțin de X inci Tendința identificată a fost numită regresie la medie.

Termenul de „regresie” este utilizat pe scară largă în literatura statistică, deși în multe cazuri nu caracterizează cu exactitate dependența statistică.

Pentru o descriere exactă a ecuației de regresie, este necesar să se cunoască legea condiționată de distribuție a indicatorului efectiv y.În practica statistică, este de obicei imposibil să se obțină astfel de informații, prin urmare, acestea se limitează la găsirea aproximărilor adecvate pentru funcție. f(x u X 2, .... l *), pe baza unei analize preliminare semnificative a fenomenului sau a datelor statistice originale.

În cadrul ipotezelor modelului individual despre tipul de distribuție a vectorului indicatorilor<) может быть получен общий вид ecuații de regresie, Unde. De exemplu, în ipoteza că setul studiat de indicatori se supune legii distribuției normale ()-dimensionale cu vectorul așteptărilor matematice

Unde și după matricea de covarianță,

unde este varianța y,

Ecuația de regresie (așteptarea condiționată) are forma

Astfel, dacă o variabilă aleatoare multivariată ()

respectă legea distribuției normale ()-dimensionale, apoi ecuația de regresie a indicatorului efectiv laîn variabile explicative are liniar în X vedere.

Cu toate acestea, în practica statistică, de obicei trebuie să se limiteze la găsirea aproximărilor adecvate pentru funcția de regresie adevărată necunoscută f(x),întrucât cercetătorul nu are cunoștințe exacte despre legea condiționată a distribuției de probabilitate a indicatorului de performanță analizat la pentru valorile date ale argumentelor X.

Luați în considerare relația dintre estimările adevărate, de model și de regresie. Lasă indicatorul de performanță la asociat cu argumentul X raport

unde este o variabilă aleatoare cu o lege de distribuție normală. Funcția de regresie adevărată în acest caz este

Să presupunem că nu cunoaștem forma exactă a ecuației de regresie adevărată, dar avem nouă observații asupra unei variabile aleatoare bidimensionale legate de relațiile prezentate în Fig. 4.1.

Orez. 4.1. Poziția relativă a adevăratuluif(x) și teoreticWowmodele de regresie

Localizarea punctelor din fig. 4.1 ne permite să ne limităm la clasa de dependențe liniare ale formei

Folosind metoda celor mai mici pătrate, găsim o estimare pentru ecuația de regresie.

Pentru comparație, în fig. 4.1 prezintă grafice ale funcției de regresie adevărată și ale funcției de regresie de aproximare teoretică. Estimarea ecuației de regresie converge în probabilitate către cea din urmă Wow cu o creștere nelimitată a dimensiunii eșantionului ().

Deoarece am ales greșit o funcție de regresie liniară în loc de o funcție de regresie adevărată, care, din păcate, este destul de comună în practica cercetării statistice, concluziile și estimările noastre statistice nu vor avea proprietatea consistenței, adică. indiferent cât de mult am crește volumul de observații, estimarea eșantionului nostru nu va converge către funcția de regresie adevărată

Dacă am fi ales corect clasa de funcții de regresie, atunci inexactitatea în descriere folosind Wow s-ar explica doar prin caracterul limitat al eșantionului și, prin urmare, ar putea fi redus în mod arbitrar cu

Pentru a restabili cel mai bine valoarea condiționată a indicatorului efectiv și a funcției de regresie necunoscută din datele statistice inițiale, se folosesc cel mai des următoarele: criterii de adecvare funcții de pierdere.

1. metoda celor mai mici pătrate, conform căreia abaterea pătrată a valorilor observate ale indicatorului efectiv, , de la valorile modelului este minimizată, unde coeficienții ecuației de regresie; sunt valorile vectorului de argumente în observația „-M :

Problema găsirii unei estimări a vectorului este în curs de rezolvare. Regresia rezultată se numește medie pătrată.

2. Metoda celor mai puține module, conform căruia suma abaterilor absolute a valorilor observate ale indicatorului efectiv de la valorile modulare este minimizată, adică

Regresia rezultată se numește înseamnă absolut(median).

3. metoda minimax se reduce la minimizarea modulului de abatere maximă a valorii observate a indicatorului efectiv y, din valoarea modelului, adică

Regresia rezultată se numește minimax.

În aplicațiile practice, există adesea probleme în care este studiată variabila aleatoare y,în funcție de un set de variabile și parametri necunoscuți. Vom considera () ca (k + Populația generală 1)-dimensională, din care o mostră aleatorie de volum P, unde () este rezultatul observației /-a,. Este necesar să se estimeze parametrii necunoscuți pe baza rezultatelor observațiilor. Sarcina descrisă mai sus se referă la sarcinile analizei de regresie.

analiza regresiei numiți metoda analizei statistice a dependenței unei variabile aleatoare la asupra variabilelor considerate în analiza de regresie ca variabile non-aleatoare, indiferent de legea distribuției adevărate

Analiza regresiei

regresie (liniar) analiză- o metodă statistică pentru studierea influenței uneia sau mai multor variabile independente asupra unei variabile dependente. Variabilele independente sunt altfel numite regresori sau predictori, iar variabilele dependente sunt numite criterii. Terminologie dependentși independent variabile reflectă doar dependența matematică a variabilelor ( vezi Corelație falsă), mai degrabă decât o relație cauzală.

Obiectivele analizei de regresie

  1. Determinarea gradului de determinism al variației variabilei criteriu (dependente) de către predictori (variabile independente)
  2. Predicția valorii variabilei dependente folosind variabilele independente
  3. Determinarea contribuției variabilelor independente individuale la variația dependentei

Analiza de regresie nu poate fi utilizată pentru a determina dacă există o relație între variabile, deoarece existența unei astfel de relații este o condiție prealabilă pentru aplicarea analizei.

Definiția matematică a regresiei

Dependența strict regresivă poate fi definită după cum urmează. Fie , variabile aleatoare cu o distribuție de probabilitate comună dată. Dacă pentru fiecare set de valori este definită o așteptare condiționată

(ecuația generală de regresie),

atunci funcția este apelată regresie Valori Y după valori și graficul său - linie de regresie de , sau ecuația de regresie.

Dependența de se manifestă prin modificarea valorilor medii ale lui Y la schimbare. Deși pentru fiecare set fix de valori, cantitatea rămâne o variabilă aleatoare cu o anumită dispersie.

Pentru a clarifica întrebarea cu cât de precis este estimat analiza de regresie modificarea lui Y cu o modificare, valoarea medie a varianței lui Y este utilizată pentru diferite seturi de valori (de fapt, vorbim despre măsura dispersiei lui Y). variabilă dependentă în jurul dreptei de regresie).

Metoda celor mai mici pătrate (calcul coeficienților)

În practică, linia de regresie este cel mai adesea căutată ca o funcție liniară (regresie liniară) care aproximează cel mai bine curba dorită. Acest lucru se face folosind metoda celor mai mici pătrate, când suma abaterilor pătrate ale celor observate efectiv de la estimările lor este minimizată (adică estimări folosind o linie dreaptă care pretinde că reprezintă dependența de regresie dorită):

(M - dimensiunea eșantionului). Această abordare se bazează pe faptul binecunoscut că suma care apare în expresia de mai sus ia valoarea minimă tocmai pentru cazul când .

Pentru a rezolva problema analizei regresiei prin metoda celor mai mici pătrate, se introduce conceptul funcții reziduale:

Condiția pentru minimul funcției reziduale:

Sistemul rezultat este un sistem de ecuații liniare cu necunoscute

Dacă reprezentăm termenii liberi ai părții stângi a ecuațiilor prin matrice

iar coeficienții necunoscutelor din partea dreaptă a matricei

atunci obținem ecuația matriceală: , care se rezolvă ușor prin metoda Gauss. Matricea rezultată va fi o matrice care conține coeficienții ecuației dreptei de regresie:

Pentru a obține cele mai bune estimări, este necesar să se îndeplinească cerințele prealabile LSM (condiții Gauss-Markov). În literatura engleză, astfel de estimări sunt numite BLUE (Best Linear Unbiased Estimators) - cele mai bune estimări liniare imparțiale.

Interpretarea parametrilor de regresie

Parametrii sunt coeficienți de corelație parțială; este interpretată ca proporția varianței lui Y explicată prin fixarea influenței predictorilor rămași, adică măsoară contribuția individuală la explicarea lui Y. În cazul predictorilor corelați, există o problemă de incertitudine în estimări. , care devin dependente de ordinea în care predictorii sunt incluși în model. În astfel de cazuri, este necesar să se aplice metodele de analiză a corelației și a analizei de regresie în trepte.

Vorbind despre modele de analiză de regresie neliniară, este important să acordăm atenție dacă vorbim de neliniaritate în variabile independente (din punct de vedere formal, ușor de redus la regresie liniară), sau de neliniaritate în parametrii estimați ( provocând serioase dificultăți de calcul). În cazul neliniarității de primul tip, din punct de vedere semnificativ, este important să se evidențieze aspectul în modelul membrilor formei , , indicând prezența interacțiunilor între trăsături etc. (vezi Multicolinearitate).

Vezi si

Legături

  • www.kgafk.ru - Prelegere despre „Analiza regresiei”
  • www.basegroup.ru - metode de selectare a variabilelor în modelele de regresie

Literatură

  • Norman Draper, Harry Smith Analiza de regresie aplicată. Regresie multiplă = Analiză de regresie aplicată. - Ed. a 3-a. - M .: „Dialectică”, 2007. - S. 912. - ISBN 0-471-17082-8
  • Metode durabile de estimare a modelelor statistice: monografie. - K. : PP „Sansparelle”, 2005. - S. 504. - ISBN 966-96574-0-7, UDC: 519.237.5:515.126.2, LBC 22.172 + 22.152
  • Radcenko Stanislav Grigorievici, Metodologia analizei de regresie: monografie. - K. : „Korniychuk”, 2011. - S. 376. - ISBN 978-966-7599-72-0

Fundația Wikimedia. 2010 .

Analiza regresiei este o metodă de cercetare statistică care vă permite să arătați dependența unui parametru de una sau mai multe variabile independente. În era pre-computer, utilizarea sa era destul de dificilă, mai ales când era vorba de cantități mari de date. Astăzi, după ce ați învățat cum să construiți o regresie în Excel, puteți rezolva probleme statistice complexe în doar câteva minute. Mai jos sunt exemple specifice din domeniul economiei.

Tipuri de regresie

Conceptul în sine a fost introdus în matematică în 1886. Are loc regresia:

  • liniar;
  • parabolic;
  • putere;
  • exponențial;
  • hiperbolic;
  • demonstrativ;
  • logaritmică.

Exemplul 1

Luați în considerare problema determinării dependenței numărului de membri ai echipei pensionari de salariul mediu la 6 întreprinderi industriale.

Sarcină. La șase întreprinderi, am analizat salariul mediu lunar și numărul de angajați plecați de bunăvoie. În formă tabelară avem:

Numărul de persoane care au plecat

Salariul

30000 de ruble

35000 de ruble

40000 de ruble

45000 de ruble

50000 de ruble

55000 de ruble

60000 de ruble

Pentru problema determinării dependenței numărului de pensionari de salariul mediu la 6 întreprinderi, modelul de regresie are forma ecuației Y = a 0 + a 1 x 1 +…+a k x k , unde x i sunt variabilele de influență. , a i sunt coeficienții de regresie, a k este numărul de factori.

Pentru această sarcină, Y este indicatorul angajaților plecați, iar factorul de influență este salariul, pe care îl notăm cu X.

Utilizarea capabilităților foii de calcul „Excel”

Analiza de regresie în Excel trebuie să fie precedată de aplicarea funcțiilor încorporate la datele tabelare disponibile. Cu toate acestea, în aceste scopuri, este mai bine să utilizați programul de completare foarte util „Setul de instrumente de analiză”. Pentru a-l activa aveți nevoie de:

  • din fila „Fișier”, accesați secțiunea „Opțiuni”;
  • în fereastra care se deschide, selectați linia „Suplimente”;
  • faceți clic pe butonul „Go” situat în jos, în dreapta liniei „Management”;
  • bifați caseta de lângă numele „Pachet de analiză” și confirmați acțiunile făcând clic pe „OK”.

Dacă totul este făcut corect, butonul dorit va apărea în partea dreaptă a filei Date, situată deasupra foii de lucru Excel.

în Excel

Acum că avem la îndemână toate instrumentele virtuale necesare pentru efectuarea calculelor econometrice, putem începe să ne rezolvăm problema. Pentru asta:

  • faceți clic pe butonul „Analiza datelor”;
  • în fereastra care se deschide, faceți clic pe butonul „Regresie”;
  • în fila care apare, introduceți intervalul de valori pentru Y (numărul de angajați care au demisionat) și pentru X (salariile lor);
  • Confirmăm acțiunile noastre apăsând butonul „Ok”.

Ca rezultat, programul va completa automat o nouă foaie a foii de calcul cu date de analiză de regresie. Notă! Excel are capacitatea de a seta manual locația pe care o preferați în acest scop. De exemplu, ar putea fi aceeași foaie în care sunt valorile Y și X sau chiar un nou registru de lucru special conceput pentru a stoca astfel de date.

Analiza rezultatelor regresiei pentru R-pătrat

În Excel, datele obținute în timpul procesării datelor din exemplul considerat arată astfel:

În primul rând, ar trebui să acordați atenție valorii pătratului R. Este coeficientul de determinare. În acest exemplu, R-pătrat = 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii considerați cu 75,5%. Cu cât valoarea coeficientului de determinare este mai mare, cu atât modelul ales este mai aplicabil pentru o anumită sarcină. Se crede că descrie corect situația reală cu o valoare R pătrat peste 0,8. Dacă R-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza raportului

Numărul 64,1428 arată care va fi valoarea lui Y dacă toate variabilele xi din modelul pe care îl luăm în considerare sunt setate la zero. Cu alte cuvinte, se poate susține că valoarea parametrului analizat este influențată și de alți factori care nu sunt descriși într-un anumit model.

Următorul coeficient -0,16285, situat în celula B18, arată ponderea influenței variabilei X asupra Y. Aceasta înseamnă că salariul mediu lunar al angajaților din cadrul modelului luat în considerare afectează numărul de renunțați cu o pondere de -0,16285, adică. gradul influenței sale deloc mic. Semnul „-” indică faptul că coeficientul are o valoare negativă. Acest lucru este evident, deoarece toată lumea știe că, cu cât salariul la întreprindere este mai mare, cu atât mai puține persoane își exprimă dorința de a rezilia contractul de muncă sau de a renunța.

Regresie multiplă

Acest termen se referă la o ecuație de conexiune cu mai multe variabile independente de forma:

y \u003d f (x 1 + x 2 + ... x m) + ε, unde y este caracteristica efectivă (variabilă dependentă) și x 1 , x 2 , ... x m sunt factorii factori (variabile independente).

Estimarea parametrilor

Pentru regresia multiplă (MR) se efectuează folosind metoda celor mai mici pătrate (OLS). Pentru ecuații liniare de forma Y = a + b 1 x 1 +…+b m x m + ε, construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare cazul cu doi factori. Atunci avem o situație descrisă de formula

De aici obținem:

unde σ este varianța caracteristicii corespunzătoare reflectate în indice.

LSM este aplicabil ecuației MP pe o scară standardizată. În acest caz, obținem ecuația:

unde t y , t x 1, … t xm sunt variabile standardizate pentru care valorile medii sunt 0; β i sunt coeficienții de regresie standardizați, iar abaterea standard este 1.

Vă rugăm să rețineți că toate β i în acest caz sunt setate ca normalizate și centralizate, astfel încât compararea lor între ele este considerată corectă și admisibilă. În plus, se obișnuiește să se filtreze factorii, eliminând cei cu cele mai mici valori ale βi.

Problemă folosind ecuația de regresie liniară

Să presupunem că există un tabel cu dinamica prețurilor unui anumit produs N în ultimele 8 luni. Este necesar să luați o decizie cu privire la oportunitatea de a cumpăra lotul său la un preț de 1850 de ruble/t.

numărul lunii

numele lunii

pretul articolului N

1750 de ruble pe tonă

1755 de ruble pe tonă

1767 ruble pe tonă

1760 de ruble pe tonă

1770 de ruble pe tonă

1790 de ruble pe tonă

1810 ruble pe tonă

1840 de ruble pe tonă

Pentru a rezolva această problemă în foaia de calcul Excel, trebuie să utilizați instrumentul de analiză a datelor deja cunoscut din exemplul de mai sus. Apoi, selectați secțiunea „Regresie” și setați parametrii. Trebuie reținut că în câmpul „Interval Y de intrare” trebuie introdus un interval de valori pentru variabila dependentă (în acest caz, prețul unui produs în anumite luni ale anului), iar în „Intrare” Interval X" - pentru variabila independentă (numărul lunii). Confirmați acțiunea făcând clic pe „Ok”. Pe o foaie nouă (dacă a fost indicat așa), obținem date pentru regresie.

Pe baza acestora, construim o ecuație liniară de forma y=ax+b, unde parametrii a și b sunt coeficienții rândului cu numele numărului lunii și coeficienții și rândul „Y-intersection” din fișă cu rezultatele analizei de regresie. Astfel, ecuația de regresie liniară (LE) pentru problema 3 se scrie astfel:

Prețul produsului N = 11,714* număr lunar + 1727,54.

sau în notaţie algebrică

y = 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuația de regresie liniară rezultată este adecvată, se folosesc coeficienți de corelație multipli (MCC) și coeficienți de determinare, precum și testul Fisher și testul Student. În tabelul Excel cu rezultatele de regresie, acestea apar sub numele de mai multe R, R-pătrat, F-statistic și, respectiv, t-statistic.

KMC R face posibilă evaluarea strânsei relației probabilistice dintre variabilele independente și dependente. Valoarea sa ridicată indică o relație destul de puternică între variabilele „Numărul lunii” și „Prețul mărfurilor N în ruble pe 1 tonă”. Cu toate acestea, natura acestei relații rămâne necunoscută.

Pătratul coeficientului de determinare R 2 (RI) este o caracteristică numerică a ponderii dispersiei totale și arată dispersia a cărei parte a datelor experimentale, adică. valorile variabilei dependente corespund ecuației de regresie liniară. În problema luată în considerare, această valoare este egală cu 84,8%, adică datele statistice sunt descrise cu un grad ridicat de acuratețe de către SD-ul obținut.

F-statistica, numită și testul lui Fisher, este folosită pentru a evalua semnificația unei relații liniare, infirmând sau confirmând ipoteza existenței acesteia.

(Criteriul studentului) ajută la evaluarea semnificației coeficientului cu termen necunoscut sau liber al unei relații liniare. Dacă valoarea criteriului t > t cr, atunci se respinge ipoteza nesemnificației termenului liber al ecuației liniare.

În problema luată în considerare pentru membrul liber, folosind instrumentele Excel, s-a obținut că t = 169,20903 și p = 2,89E-12, adică avem o probabilitate zero ca ipoteza corectă despre nesemnificația membrului liber să fie fi respins. Pentru coeficientul la necunoscut t=5,79405 și p=0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă despre nesemnificația coeficientului pentru necunoscut să fie respinsă este de 0,12%.

Astfel, se poate susține că ecuația de regresie liniară rezultată este adecvată.

Problema oportunității cumpărării unui bloc de acțiuni

Regresia multiplă în Excel este efectuată folosind același instrument de analiză a datelor. Luați în considerare o problemă aplicată specifică.

Conducerea NNN trebuie să ia o decizie cu privire la oportunitatea achiziționării unui pachet de 20% din MMM SA. Costul pachetului (JV) este de 70 de milioane de dolari SUA. Specialiștii NNN au colectat date despre tranzacții similare. S-a decis evaluarea valorii blocului de acțiuni în funcție de astfel de parametri, exprimați în milioane de dolari SUA, astfel:

  • conturi de plătit (VK);
  • cifra de afaceri anuala (VO);
  • conturi de încasat (VD);
  • costul mijloacelor fixe (SOF).

În plus, se utilizează parametrul restanțe de salarii ale întreprinderii (V3 P) în mii de dolari SUA.

Soluție folosind foaia de calcul Excel

În primul rând, trebuie să creați un tabel de date inițiale. Arata cam asa:

  • apelați fereastra „Analiza datelor”;
  • selectați secțiunea „Regresie”;
  • în caseta „Interval de intrare Y” introduceți intervalul de valori ale variabilelor dependente din coloana G;
  • faceți clic pe pictograma cu o săgeată roșie din dreapta ferestrei „Interval de intrare X” și selectați intervalul tuturor valorilor din coloanele B, C, D, F de pe foaie.

Selectați „Foaie de lucru nouă” și faceți clic pe „Ok”.

Obțineți analiza de regresie pentru problema dată.

Examinarea rezultatelor și concluziilor

„Colectăm” din datele rotunjite prezentate mai sus pe foaia de calcul Excel, ecuația de regresie:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Într-o formă matematică mai familiară, poate fi scrisă ca:

y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

Datele pentru JSC „MMM” sunt prezentate în tabel:

Înlocuindu-le în ecuația de regresie, ei obțin o cifră de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile JSC MMM nu ar trebui cumpărate, deoarece valoarea lor de 70 de milioane de dolari SUA este mai degrabă supraevaluată.

După cum puteți vedea, utilizarea foii de calcul Excel și a ecuației de regresie au făcut posibilă luarea unei decizii informate cu privire la fezabilitatea unei tranzacții foarte specifice.

Acum știi ce este regresia. Exemplele în Excel discutate mai sus vă vor ajuta să rezolvați probleme practice din domeniul econometriei.

În timpul studiilor, studenții întâlnesc foarte des o varietate de ecuații. Una dintre ele - ecuația de regresie - este luată în considerare în acest articol. Acest tip de ecuație este utilizat în mod specific pentru a descrie caracteristicile relației dintre parametrii matematici. Acest tip de egalitate este folosit în statistică și econometrie.

Definiţia regresion

În matematică, regresia este înțeleasă ca o anumită mărime care descrie dependența valorii medii a unui set de date de valorile unei alte mărimi. Ecuația de regresie arată, în funcție de o anumită caracteristică, valoarea medie a unei alte caracteristici. Funcția de regresie are forma unei ecuații simple y \u003d x, în care y acționează ca o variabilă dependentă, iar x este o variabilă independentă (factor caracteristică). De fapt, regresia este exprimată ca y = f (x).

Care sunt tipurile de relații dintre variabile

În general, se disting două tipuri opuse de relații: corelația și regresia.

Primul este caracterizat de egalitatea variabilelor condiționate. În acest caz, nu se știe cu siguranță care variabilă depinde de cealaltă.

Dacă nu există egalitate între variabile și condițiile spun care variabilă este explicativă și care este dependentă, atunci putem vorbi despre prezența unei conexiuni de al doilea tip. Pentru a construi o ecuație de regresie liniară, va fi necesar să aflăm ce tip de relație se observă.

Tipuri de regresii

Până în prezent, există 7 tipuri diferite de regresie: hiperbolic, liniar, multiplu, neliniar, perechi, invers, liniar logaritmic.

Hiperbolice, liniară și logaritmică

Ecuația de regresie liniară este utilizată în statistică pentru a explica în mod clar parametrii ecuației. Se pare că y = c + m * x + E. Ecuația hiperbolică are forma unei hiperbole regulate y \u003d c + m / x + E. Ecuația liniară logaritmică exprimă relația folosind funcția logaritmică: În y \u003d În c + m * În x + În E.

Multiplu și neliniar

Două tipuri mai complexe de regresie sunt multiple și neliniare. Ecuația de regresie multiplă este exprimată prin funcția y \u003d f (x 1, x 2 ... x c) + E. În această situație, y este variabila dependentă și x este variabila explicativă. Variabila E este stocastică și include influența altor factori în ecuație. Ecuația de regresie neliniară este puțin inconsecventă. Pe de o parte, în ceea ce privește indicatorii luați în considerare, nu este liniară, iar pe de altă parte, în rolul de evaluare a indicatorilor, este liniară.

Regresii inverse și perechi

O inversă este un fel de funcție care trebuie convertită într-o formă liniară. În cele mai tradiționale programe de aplicație, are forma unei funcții y \u003d 1 / c + m * x + E. Ecuația de regresie pereche arată relația dintre date în funcție de y = f(x) + E. La fel ca și celelalte ecuații, y depinde de x și E este un parametru stocastic.

Conceptul de corelare

Acesta este un indicator care demonstrează existența unei relații între două fenomene sau procese. Puterea relației este exprimată ca un coeficient de corelație. Valoarea sa fluctuează în intervalul [-1;+1]. Un indicator negativ indică prezența feedback-ului, un indicator pozitiv indică unul direct. Dacă coeficientul ia o valoare egală cu 0, atunci nu există nicio relație. Cu cât valoarea este mai aproape de 1 - cu atât relația dintre parametri este mai puternică, cu atât mai aproape de 0 - cu atât mai slabă.

Metode

Metodele parametrice de corelație pot estima strângerea relației. Ele sunt utilizate pe baza estimărilor de distribuție pentru a studia parametrii care respectă legea distribuției normale.

Parametrii ecuației de regresie liniară sunt necesari pentru a identifica tipul de dependență, funcția ecuației de regresie și pentru a evalua indicatorii formulei de relație alese. Câmpul de corelație este folosit ca metodă de identificare a unei relații. Pentru a face acest lucru, toate datele existente trebuie reprezentate grafic. Într-un sistem de coordonate bidimensional dreptunghiular, toate datele cunoscute trebuie reprezentate grafic. Așa se formează câmpul de corelație. Valoarea factorului de descriere este marcată de-a lungul abscisei, în timp ce valorile factorului dependent sunt marcate de-a lungul ordonatei. Dacă există o relație funcțională între parametri, aceștia se aliniază sub forma unei linii.

Dacă coeficientul de corelație al unor astfel de date este mai mic de 30%, putem vorbi despre absența aproape completă a unei conexiuni. Dacă este între 30% și 70%, atunci aceasta indică prezența legăturilor de etanșeitate medie. Un indicator 100% este dovada unei conexiuni funcționale.

O ecuație de regresie neliniară, la fel ca una liniară, trebuie completată cu un indice de corelație (R).

Corelație pentru regresia multiplă

Coeficientul de determinare este un indicator al pătratului corelației multiple. El vorbește despre strânsoarea relației dintre setul de indicatori prezentat cu trăsătura studiată. Se poate vorbi și despre natura influenței parametrilor asupra rezultatului. Ecuația de regresie multiplă este evaluată folosind acest indicator.

Pentru a calcula indicele de corelație multiplă este necesar să se calculeze indicele acestuia.

Metoda celor mai mici pătrate

Această metodă este o modalitate de estimare a factorilor de regresie. Esența sa constă în minimizarea sumei abaterilor pătrate obținute datorită dependenței factorului de funcție.

O ecuație de regresie liniară pereche poate fi estimată folosind o astfel de metodă. Acest tip de ecuații este utilizat în cazul detectării între indicatorii unei relații liniare pereche.

Opțiuni de ecuație

Fiecare parametru al funcției de regresie liniară are o semnificație specifică. Ecuația de regresie liniară pereche conține doi parametri: c și m. Parametrul t arată modificarea medie a indicatorului final al funcției y, sub rezerva unei scăderi (creșteri) a variabilei x cu o unitate convențională. Dacă variabila x este zero, atunci funcția este egală cu parametrul c. Dacă variabila x nu este zero, atunci factorul c nu are sens economic. Singura influență asupra funcției este semnul din fața factorului c. Dacă există un minus, atunci putem spune despre o schimbare lentă a rezultatului în comparație cu factorul. Dacă există un plus, atunci acesta indică o schimbare accelerată a rezultatului.

Fiecare parametru care modifică valoarea ecuației de regresie poate fi exprimat în termeni de ecuație. De exemplu, factorul c are forma c = y - mx.

Date grupate

Există astfel de condiții ale sarcinii în care toate informațiile sunt grupate în funcție de atributul x, dar, în același timp, pentru un anumit grup, sunt indicate valorile medii corespunzătoare ale indicatorului dependent. În acest caz, valorile medii caracterizează modul în care indicatorul depinde de x. Astfel, informațiile grupate ajută la găsirea ecuației de regresie. Este folosit ca analiză a relațiilor. Cu toate acestea, această metodă are dezavantajele sale. Din păcate, mediile sunt adesea supuse fluctuațiilor externe. Aceste fluctuații nu sunt o reflectare a tiparelor relației, ci doar maschează „zgomotul” acesteia. Mediile arată modele de relație mult mai proaste decât o ecuație de regresie liniară. Cu toate acestea, ele pot fi folosite ca bază pentru găsirea unei ecuații. Înmulțind dimensiunea unei anumite populații cu media corespunzătoare, puteți obține suma lui y în cadrul grupului. Apoi, trebuie să eliminați toate sumele primite și să găsiți indicatorul final y. Este puțin mai dificil să faci calcule cu indicatorul de sumă xy. În cazul în care intervalele sunt mici, putem lua condiționat indicatorul x pentru toate unitățile (din cadrul grupului) la fel. Înmulțiți-l cu suma lui y pentru a găsi suma produselor lui x și y. În plus, toate sumele sunt bătute împreună și se obține suma totală xy.

Regresia ecuației cu perechi multiple: evaluarea importanței unei relații

După cum sa discutat mai devreme, regresia multiplă are o funcție de forma y \u003d f (x 1, x 2, ..., x m) + E. Cel mai adesea, o astfel de ecuație este utilizată pentru a rezolva problema cererii și ofertei pentru un produs, a veniturilor din dobânzi la acțiunile răscumpărate, studiind cauzele și tipul funcției de cost de producție. De asemenea, este utilizată în mod activ într-o mare varietate de studii și calcule macroeconomice, dar la nivelul microeconomiei, această ecuație este folosită puțin mai rar.

Sarcina principală a regresiei multiple este de a construi un model de date care să conțină o cantitate imensă de informații pentru a determina în continuare ce efect are fiecare dintre factori individual și în totalitate asupra indicatorului de modelat și a coeficienților acestuia. Ecuația de regresie poate lua o varietate de valori. În acest caz, două tipuri de funcții sunt de obicei utilizate pentru a evalua relația: liniare și neliniare.

O funcție liniară este descrisă sub forma unei astfel de relații: y \u003d a 0 + a 1 x 1 + a 2 x 2, + ... + a m x m. În acest caz, a2, a m , sunt considerați a fi coeficienții de regresie „pură”. Este necesar să se caracterizeze modificarea medie a parametrului y cu o modificare (scădere sau creștere) a fiecărui parametru x corespunzător cu o unitate, cu condiția unei valori stabile a altor indicatori.

Ecuațiile neliniare au, de exemplu, forma unei funcții de putere y=ax 1 b1 x 2 b2 ...x m bm . În acest caz, indicatorii b 1, b 2 ..... b m - se numesc coeficienți de elasticitate, ei demonstrează modul în care rezultatul se va schimba (cu cât %) cu o creștere (scădere) a indicatorului corespunzător x cu 1% și cu un indicator stabil al altor factori.

Ce factori ar trebui luați în considerare la construirea unei regresii multiple

Pentru a construi corect o regresie multiplă, este necesar să aflăm căror factori ar trebui să li se acorde o atenție deosebită.

Este necesar să avem o anumită înțelegere a naturii relației dintre factorii economici și cei modelați. Factorii care trebuie incluși trebuie să îndeplinească următoarele criterii:

  • Trebuie să fie măsurabil. Pentru a utiliza un factor care descrie calitatea unui obiect, în orice caz, ar trebui să i se acorde o formă cantitativă.
  • Nu ar trebui să existe o intercorelație a factorilor sau o relație funcțională. Astfel de acțiuni duc cel mai adesea la consecințe ireversibile - sistemul de ecuații obișnuite devine necondiționat, iar acest lucru implică nefiabilitatea și estimările sale neclare.
  • În cazul unui indicator de corelație uriaș, nu există nicio modalitate de a afla influența izolată a factorilor asupra rezultatului final al indicatorului, prin urmare, coeficienții devin ininterpretabili.

Metode de construcție

Există un număr mare de metode și moduri de a explica cum puteți alege factorii pentru ecuație. Cu toate acestea, toate aceste metode se bazează pe selecția coeficienților folosind indicele de corelație. Printre acestea se numără:

  • Metoda excluderii.
  • Activați metoda.
  • Analiza de regresie în trepte.

Prima metodă implică separarea tuturor coeficienților din mulțimea agregată. A doua metodă implică introducerea multor factori suplimentari. Ei bine, a treia este eliminarea factorilor care au fost aplicați anterior ecuației. Fiecare dintre aceste metode are dreptul de a exista. Au avantajele și dezavantajele lor, dar pot rezolva problema eliminării indicatorilor inutile în felul lor. De regulă, rezultatele obținute prin fiecare metodă individuală sunt destul de apropiate.

Metode de analiză multivariată

Astfel de metode pentru determinarea factorilor se bazează pe luarea în considerare a combinațiilor individuale de caracteristici interconectate. Acestea includ analiza discriminantă, recunoașterea modelelor, analiza componentelor principale și analiza clusterului. În plus, există și analiza factorială, totuși, aceasta a apărut ca urmare a dezvoltării metodei componentelor. Toate sunt aplicate în anumite circumstanțe, în anumite condiții și factori.

Acțiune