Relația dintre variabilele aleatoare se determină folosind. Proprietăţi ale operaţiilor pentru calcularea caracteristicilor cantitative ale variabilelor aleatoare

Scopul analizei corelației este de a identifica o estimare a puterii conexiunii dintre variabilele aleatoare (trăsături) care caracterizează un proces real.
Probleme de analiză a corelației:
a) Măsurarea gradului de coerență (apropiere, forță, severitate, intensitate) a două sau mai multe fenomene.
b) Selectarea factorilor care au cel mai semnificativ impact asupra atributului rezultat, pe baza măsurării gradului de conectivitate între fenomene. Factorii care sunt semnificativi în acest aspect sunt utilizați în continuare în analiza de regresie.
c) Detectarea relaţiilor cauzale necunoscute.

Formele de manifestare a relațiilor sunt foarte diverse. Cele mai comune tipuri sunt funcționale (complete) și conexiune de corelare (incompletă)..
Corelație se manifestă în medie pentru observațiile de masă, atunci când valorile date ale variabilei dependente corespund unei anumite serii de valori probabilistice ale variabilei independente. Relația se numește corelație, dacă fiecare valoare a caracteristicii factorului corespunde unei valori non-aleatoare bine definite a caracteristicii rezultante.
O reprezentare vizuală a unui tabel de corelare este câmpul de corelație. Este un grafic în care valorile X sunt reprezentate pe axa absciselor, valorile Y sunt reprezentate pe axa ordonatelor, iar combinațiile de X și Y sunt afișate prin puncte. După locația punctelor, se poate aprecia prezența a unei conexiuni.
Indicatori de apropiere a conexiunii fac posibilă caracterizarea dependenței variației trăsăturii rezultate de variația trăsăturii factorului.
Un indicator mai avansat al gradului de aglomerare conexiunea de corelare este coeficient de corelație liniară. La calcularea acestui indicator, se iau în considerare nu numai abaterile valorilor individuale ale unei caracteristici față de medie, ci și magnitudinea acestor abateri.

Întrebările cheie ale acestui subiect sunt ecuațiile relației de regresie dintre caracteristica efectivă și variabila explicativă, metoda celor mai mici pătrate pentru estimarea parametrilor modelului de regresie, analiza calității ecuației de regresie rezultată, construirea intervalelor de încredere pentru prezicerea valorile caracteristicii efective folosind ecuația de regresie.

Exemplul 2


Sistem de ecuații normale.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Pentru datele noastre, sistemul de ecuații are forma
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Din prima ecuație pe care o exprimăm Ași înlocuiți în a doua ecuație:
Obținem b = -3,46, a = 1379,33
Ecuația de regresie:
y = -3,46 x + 1379,33

2. Calculul parametrilor ecuației de regresie.
Eșantion înseamnă.



Variante de eșantion:


Deviație standard


1.1. Coeficient de corelație
Covarianta.

Calculăm indicatorul de apropiere a conexiunii. Acest indicator este coeficientul de corelație liniară al eșantionului, care este calculat prin formula:

Coeficientul de corelație liniară ia valori de la –1 la +1.
Conexiunile dintre caracteristici pot fi slabe și puternice (strânse). Criteriile lor sunt evaluate pe scara Chaddock:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
În exemplul nostru, relația dintre trăsătura Y și factorul X este mare și inversă.
În plus, coeficientul de corelație liniară a perechii poate fi determinat prin coeficientul de regresie b:

1.2. Ecuația de regresie(estimarea ecuației de regresie).

Ecuația de regresie liniară este y = -3,46 x + 1379,33

Coeficientul b = -3,46 arată modificarea medie a indicatorului efectiv (în unități de măsură y) cu o creștere sau scădere a valorii factorului x pe unitatea de măsură a acestuia. În acest exemplu, cu o creștere de 1 unitate, y scade în medie cu -3,46.
Coeficientul a = 1379,33 arată în mod formal nivelul prezis al lui y, dar numai dacă x = 0 este aproape de valorile eșantionului.
Dar dacă x=0 este departe de valorile eșantionului lui x, atunci o interpretare literală poate duce la rezultate incorecte și chiar dacă linia de regresie descrie valorile eșantionului observate destul de precis, nu există nicio garanție că acest lucru va fi cazul extrapolării la stânga sau la dreapta.
Prin înlocuirea valorilor x corespunzătoare în ecuația de regresie, putem determina valorile aliniate (prevăzute) ale indicatorului de performanță y(x) pentru fiecare observație.
Relația dintre y și x determină semnul coeficientului de regresie b (dacă > 0 - relație directă, în caz contrar - inversă). În exemplul nostru, conexiunea este inversă.
1.3. Coeficientul de elasticitate.
Nu este recomandabil să se utilizeze coeficienți de regresie (în exemplul b) pentru a evalua direct influența factorilor asupra unei caracteristici rezultante dacă există o diferență între unitățile de măsură ale indicatorului rezultat y și caracteristica factorului x.
În aceste scopuri, se calculează coeficienții de elasticitate și coeficienții beta.
Coeficientul mediu de elasticitate E arată cu ce procent în medie se va modifica rezultatul în agregat la din valoarea sa medie atunci când factorul se modifică X cu 1% din valoarea sa medie.
Coeficientul de elasticitate se gaseste prin formula:


Coeficientul de elasticitate este mai mic de 1. Prin urmare, dacă X se modifică cu 1%, Y se va modifica cu mai puțin de 1%. Cu alte cuvinte, influența lui X asupra lui Y nu este semnificativă.
Coeficientul beta arată cu ce parte din valoarea abaterii sale standard se va modifica valoarea medie a caracteristicii rezultate atunci când caracteristica factorului se modifică cu valoarea abaterii sale standard cu valoarea variabilelor independente rămase fixată la un nivel constant:

Acestea. o creștere a lui x cu abaterea standard S x va duce la o scădere a valorii medii a lui Y cu 0,74 abaterea standard S y .
1.4. Eroare de aproximare.
Să evaluăm calitatea ecuației de regresie folosind eroarea de aproximare absolută. Eroare medie de aproximare - abaterea medie a valorilor calculate de la cele reale:


Deoarece eroarea este mai mică de 15%, această ecuație poate fi folosită ca regresie.
Analiza variatiei.
Scopul analizei varianței este de a analiza varianța variabilei dependente:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Unde
∑(y i - y cp) 2 - suma totală a abaterilor pătrate;
∑(y(x) - y cp) 2 - suma abaterilor pătrate datorate regresiei („explicate” sau „factoriale”);
∑(y - y(x)) 2 - suma reziduală a abaterilor pătrate.
Relația de corelație teoretică pentru o legătură liniară este egală cu coeficientul de corelație r xy .
Pentru orice formă de dependență, etanșeitatea conexiunii se determină folosind coeficient de corelație multiplă:

Acest coeficient este universal, deoarece reflectă apropierea relației și acuratețea modelului și poate fi folosit și pentru orice formă de conexiune între variabile. Atunci când se construiește un model de corelație cu un singur factor, coeficientul de corelație multiplă este egal cu coeficientul de corelație de pereche r xy.
1.6. Coeficient de determinare.
Pătratul coeficientului de corelație (multiplu) se numește coeficient de determinare, care arată proporția de variație a atributului rezultat explicată de variația atributului factorului.
Cel mai adesea, atunci când se interpretează coeficientul de determinare, acesta este exprimat ca procent.
R2 = -0,742 = 0,5413
acestea. în 54,13% din cazuri, modificările în x conduc la modificări în y. Cu alte cuvinte, acuratețea selectării ecuației de regresie este medie. Restul de 45,87% din modificarea lui Y se explică prin factori neluați în considerare în model.

Bibliografie

  1. Econometrie: Manual / Ed. I.I. Eliseeva. – M.: Finanțe și Statistică, 2001, p. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometrie. Curs pentru incepatori. Tutorial. – Ed. a II-a, rev. – M.: Delo, 1998, p. 17..42.
  3. Atelier de econometrie: Proc. indemnizatie / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko și alții; Ed. I.I. Eliseeva. – M.: Finanțe și Statistică, 2001, p. 5..48.

Caracteristicile relației dintre variabile aleatoare

Alături de funcția de regresie, econometria folosește și caracteristici cantitative ale relației dintre două variabile aleatoare. Acestea includ covarianța și coeficientul de corelație.

Covarianța variabilelor aleatoareX Șiy este așteptarea matematică a produsului abaterilor acestor mărimi de la așteptările lor matematice și se calculează conform regulii:

unde și sunt așteptările matematice ale variabilelor, respectiv XȘi u.

Covarianța este o constantă care reflectă gradul de dependență dintre două variabile aleatoare și se notează ca

Pentru variabile aleatoare independente, covarianța este zero; dacă există o relație statistică între variabile, atunci covarianța corespunzătoare este diferită de zero. Pe baza semnului covarianței se apreciază natura relației: unidirecțională () sau multidirecțională ().

Rețineți că în cazul în care variabilele XȘi la coincid, definiția (3.12) se transformă în definiția pentru varianța unei variabile aleatoare:

Covarianța este o valoare dimensională. Dimensiunea sa este produsul dimensiunilor variabilelor. Prezența dimensiunii în covarianță face dificilă utilizarea acesteia pentru a evalua gradul de dependență al variabilelor aleatoare.

Alături de covarianță, coeficientul de corelație este utilizat pentru a evalua relația dintre variabilele aleatoare.

Coeficientul de corelație a două variabile aleatoareraportul dintre covarianța lor și produsul erorilor standard ale acestor mărimi se numește:

Coeficientul de corelație este o mărime adimensională, al cărei interval de valori posibile este segmentul [+1; -1]. Pentru variabile aleatoare independente, coeficientul de corelație este zero, dar dacă da, aceasta indică prezența unei relații funcționale liniare între variabile.

Prin analogie cu variabilele aleatoare, sunt introduse și caracteristici cantitative pentru un vector aleator. Există două astfel de caracteristici:

1) vector al valorilor așteptate ale componentelor

aici este un vector aleator, sunt așteptările matematice ale componentelor unui vector aleator;

2) matricea de covarianță

(3.15)

Matricea de covarianță conține simultan atât informații despre gradul de incertitudine al componentelor vectoriale aleatoare, cât și informații despre gradul de interrelație a fiecărei perechi de componente vectoriale.

În economie, conceptul de vector aleatoriu și caracteristicile acestuia, în special, și-au găsit aplicație în analiza tranzacțiilor de pe piața de valori. Celebrul economist american Harry Markowitz a propus următoarea abordare. Lăsați n active riscante să fie tranzacționate la bursă. Randamentul fiecărui activ într-o anumită perioadă de timp este o variabilă aleatorie. Se introduc vectorul randamentelor si vectorul corespondent al randamentelor asteptate. Markovets a propus să ia în considerare vectorul randamentelor așteptate ca un indicator al atractivității unui anumit activ, iar elementele diagonalei principale a matricei de covarianță ca valoare a riscului pentru fiecare activ. Elementele diagonale reflectă valorile relației perechilor corespunzătoare de returnări incluse în vector. Modelul parametric Markowitz al bursei a luat forma

Acest model formează baza teoriei unui portofoliu optim de valori mobiliare.

Proprietăţi ale operaţiilor pentru calcularea caracteristicilor cantitative ale variabilelor aleatoare

Să luăm în considerare proprietățile de bază ale operațiilor de calcul a caracteristicilor cantitative ale variabilelor aleatoare și ale unui vector aleator.

Operații pentru calcularea așteptărilor matematice:

1) dacă o variabilă aleatoare x = Cu, Unde Cu este o constantă, atunci

2) dacă x și y – variabile aleatoare, ai sunt constante arbitrare, atunci

3) dacă XȘi la variabile aleatoare independente, atunci

Operații de calcul a variației:

1) dacă o variabilă aleatoare x = c, unde c este o constantă arbitrară, atunci

2) dacă X

3) dacă X este o variabilă aleatorie, iar c este o constantă arbitrară, atunci

4) dacă XȘi y sunt variabile aleatoare, ai sunt constante arbitrare, atunci

Compania are 10 angajați. Tabelul 2 prezintă date despre experiența lor de muncă și

salariu lunar.

Calculați folosind aceste date

  • - valoarea estimării covarianței eșantionului;
  • - valoarea coeficientului de corelație Pearson al eșantionului;
  • - se estimează direcția și rezistența conexiunii din valorile obținute;
  • - determinați cât de legitim este să spunem că această companie folosește modelul de management japonez, care presupune că cu cât un angajat petrece mai mult timp într-o anumită companie, cu atât salariul său ar trebui să fie mai mare.

Pe baza câmpului de corelație, putem emite ipoteza (pentru populație) că relația dintre toate valorile posibile ale lui X și Y este liniară.

Pentru a calcula parametrii de regresie, vom construi un tabel de calcul.

Eșantion înseamnă.

Variante de eșantion:

Ecuația de regresie estimată va fi

y = bx + a + e,

unde ei sunt valorile (estimările) observate ale erorilor ei, a și b, respectiv, estimările parametrilor b și în modelul de regresie care ar trebui găsite.

Pentru estimarea parametrilor b și c se utilizează metoda celor mai mici pătrate (metoda celor mai mici pătrate).

Sistem de ecuații normale.

a?x + b?x2 = ?y*x

Pentru datele noastre, sistemul de ecuații are forma

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Să înmulțim ecuația (1) a sistemului cu (-30.7), obținem un sistem pe care îl rezolvăm prin metoda adunării algebrice.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Primim:

1432,1 b = 105390

De unde provine b = 73,5912?

Acum să găsim coeficientul „a” din ecuația (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Obținem coeficienți de regresie empiric: b = 73,5912, a = 1070,7492

Ecuație de regresie (ecuație de regresie empirică):

y = 73,5912 x + 1070,7492

Covarianta.

În exemplul nostru, legătura dintre trăsătura Y și factorul X este ridicată și directă.

Prin urmare, putem spune cu siguranță că cu cât un angajat lucrează mai mult timp într-o anumită companie, cu atât salariul său este mai mare.

4. Testarea ipotezelor statistice. La rezolvarea acestei probleme, primul pas este formularea unei ipoteze testabile și a uneia alternative.

Verificarea egalitatii actiunilor generale.

A fost realizat un studiu asupra performanței studenților la două facultăți. Rezultatele opțiunilor sunt prezentate în tabelul 3. Se poate spune că ambele facultăți au același procent de studenți excelenți?

Media aritmetică simplă

Testăm ipoteza privind egalitatea acțiunilor generale:

Să găsim valoarea experimentală a criteriului Studentului:

Numărul de grade de libertate

f = nх + nу - 2 = 2 + 2 - 2 = 2

Determinați valoarea tkp utilizând tabelul de distribuție Student

Folosind tabelul Studentului găsim:

Ttabel(f;b/2) = Ttabel(2;0,025) = 4,303

Folosind tabelul punctelor critice ale distribuției Student la un nivel de semnificație b = 0,05 și un număr dat de grade de libertate, găsim tcr = 4,303

Deoarece tob > tcr, atunci ipoteza nulă este respinsă, cotele generale ale celor două eșantioane nu sunt egale.

Verificarea uniformității distribuției generale.

Oficialii universității doresc să afle cum s-a schimbat popularitatea departamentului de științe umaniste de-a lungul timpului. Numărul de solicitanți care au aplicat la această facultate a fost analizat în raport cu numărul total de solicitanți din anul corespunzător. (Datele sunt date în Tabelul 4). Dacă considerăm că numărul de solicitanți este un eșantion reprezentativ din numărul total de absolvenți de școală al anului, putem spune că interesul școlarilor pentru specialitățile acestei facultăți nu se modifică în timp?

Opțiunea 4

Soluție: Tabel pentru calcularea indicatorilor.

Mijlocul intervalului, xi

Frecvența acumulată, S

Frecvență, fi/n

Pentru a evalua seria de distribuție, găsim următorii indicatori:

Medie ponderată

Intervalul de variație este diferența dintre valorile maxime și minime ale caracteristicii seriei primare.

R = 2008 - 1988 = 20 Dispersia - caracterizează măsura dispersiei în jurul valorii sale medii (o măsură a dispersiei, adică abaterea de la medie).

Abatere standard (eroare medie de eșantionare).

Fiecare valoare a seriei diferă de valoarea medie 2002,66 cu o medie de 6,32

Testarea ipotezei despre distribuția uniformă a populației.

Pentru a testa ipoteza despre distribuția uniformă a lui X, i.e. conform legii: f(x) = 1/(b-a) în intervalul (a,b) este necesar:

Estimați parametrii a și b - capetele intervalului în care au fost observate posibile valori ale lui X, folosind formulele (semnul * indică estimările parametrilor):

Aflați densitatea de probabilitate a distribuției așteptate f(x) = 1/(b* - a*)

Găsiți frecvențele teoretice:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Comparați frecvențele empirice și teoretice folosind criteriul Pearson, luând numărul de grade de libertate k = s-3, unde s este numărul de intervale inițiale de eșantionare; dacă a fost efectuată o combinație de frecvențe mici și, prin urmare, intervalele în sine, atunci s este numărul de intervale rămase după combinație. Să găsim estimări pentru parametrii a* și b* ai distribuției uniforme folosind formulele:

Să găsim densitatea distribuției uniforme presupuse:

f(x) = 1/(b* - a*) = 1/(2013,62 - 1991,71) = 0,0456

Să găsim frecvențele teoretice:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456(1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Deoarece statistica Pearson măsoară diferența dintre distribuțiile empirice și teoretice, cu cât valoarea sa observată Kob este mai mare, cu atât argumentul împotriva ipotezei principale este mai puternic.

Prin urmare, regiunea critică pentru aceste statistici este întotdeauna dreptaci :)

Acțiune