Odnos između slučajnih varijabli određuje se pomoću. Svojstva operacija za izračunavanje kvantitativnih karakteristika slučajnih varijabli

Svrha korelacione analize je identificirati procjenu jačine veze između slučajnih varijabli (obilježja) koje karakteriziraju neki stvarni proces.
Problemi korelacione analize:
a) Mjerenje stepena koherentnosti (blizina, snaga, ozbiljnost, intenzitet) dva ili više fenomena.
b) Odabir faktora koji imaju najznačajniji uticaj na rezultirajući atribut, na osnovu mjerenja stepena povezanosti između pojava. Faktori koji su značajni u ovom aspektu se dalje koriste u regresionoj analizi.
c) Otkrivanje nepoznatih uzročno-posledičnih veza.

Oblici ispoljavanja odnosa su veoma raznoliki. Najčešći tipovi su funkcionalni (potpuni) i korelacija (nepotpuna) veza.
Korelacija manifestira se u prosjeku za masovna promatranja, kada date vrijednosti zavisne varijable odgovaraju određenom nizu vjerojatnosti vrijednosti nezavisne varijable. Odnos se naziva korelacija, ako svaka vrijednost faktorske karakteristike odgovara dobro definiranoj neslučajnoj vrijednosti rezultantne karakteristike.
Vizuelni prikaz korelacione tabele je korelaciono polje. To je grafikon gdje su vrijednosti X iscrtane na osi apscise, vrijednosti Y iscrtane na osi ordinata, a kombinacije X i Y prikazane su tačkama. Po lokaciji tačaka može se suditi o prisutnosti veze.
Indikatori bliskosti veza omogućavaju karakterizaciju zavisnosti varijacije rezultujuće osobine o varijaciji faktorske osobine.
Napredniji pokazatelj stepena gužve korelacione veze je koeficijent linearne korelacije. Prilikom izračunavanja ovog pokazatelja uzimaju se u obzir ne samo odstupanja pojedinačnih vrijednosti karakteristike od prosjeka, već i sama veličina ovih odstupanja.

Ključna pitanja ove teme su jednadžbe regresionog odnosa između efektivne karakteristike i eksplanatorne varijable, metoda najmanjih kvadrata za procjenu parametara regresionog modela, analiza kvaliteta rezultirajuće regresione jednačine, konstruiranje intervala povjerenja za predviđanje vrijednosti efektivne karakteristike pomoću regresione jednačine.

Primjer 2


Sistem normalnih jednačina.
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Za naše podatke sistem jednačina ima oblik
30a + 5763 b = 21460
5763 a + 1200261 b = 3800360
Iz prve jednačine koju izražavamo A i zamijeni u drugu jednačinu:
Dobijamo b = -3,46, a = 1379,33
Regresijska jednadžba:
y = -3,46 x + 1379,33

2. Proračun parametara regresijske jednadžbe.
Uzorak znači.



Uzorci varijacija:


Standardna devijacija


1.1. Koeficijent korelacije
Kovarijansa.

Izračunavamo indikator bliskosti veze. Ovaj indikator je koeficijent linearne korelacije uzorka, koji se izračunava po formuli:

Koeficijent linearne korelacije uzima vrijednosti od –1 do +1.
Veze između karakteristika mogu biti slabe i jake (bliske). Njihovi kriterijumi se ocjenjuju na Chaddock skali:
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
U našem primjeru, odnos između osobine Y i faktora X je visok i inverzan.
Osim toga, koeficijent korelacije linearnog para može se odrediti preko koeficijenta regresije b:

1.2. Jednačina regresije(procjena jednadžbe regresije).

Jednačina linearne regresije je y = -3,46 x + 1379,33

Koeficijent b = -3,46 pokazuje prosječnu promjenu efektivnog pokazatelja (u mjernim jedinicama y) sa povećanjem ili smanjenjem vrijednosti faktora x po jedinici mjerenja. U ovom primjeru, s povećanjem od 1 jedinice, y se smanjuje u prosjeku za -3,46.
Koeficijent a = 1379,33 formalno pokazuje predviđeni nivo y, ali samo ako je x = 0 blizu vrijednosti uzorka.
Ali ako je x=0 daleko od vrijednosti uzorka za x, onda doslovno tumačenje može dovesti do pogrešnih rezultata, pa čak i ako linija regresije prilično precizno opisuje promatrane vrijednosti uzorka, nema garancije da će i to biti slučaj kada se ekstrapolira lijevo ili desno.
Zamjenom odgovarajućih vrijednosti x u jednadžbu regresije, možemo odrediti usklađene (predviđene) vrijednosti indikatora učinka y(x) za svako opažanje.
Odnos između y i x određuje predznak koeficijenta regresije b (ako je > 0 - direktna veza, inače - inverzna). U našem primjeru, veza je obrnuta.
1.3. Koeficijent elastičnosti.
Nije preporučljivo koristiti koeficijente regresije (u primjeru b) za direktnu procjenu utjecaja faktora na rezultantnu karakteristiku ako postoji razlika u mjernim jedinicama rezultantnog indikatora y i faktorske karakteristike x.
Za ove svrhe izračunavaju se koeficijenti elastičnosti i beta koeficijenti.
Prosječni koeficijent elastičnosti E pokazuje za koji će se postotak u prosjeku rezultat promijeniti u agregatu at od njegove prosječne vrijednosti kada se faktor promijeni x za 1% njegove prosječne vrijednosti.
Koeficijent elastičnosti se nalazi po formuli:


Koeficijent elastičnosti je manji od 1. Dakle, ako se X promijeni za 1%, Y će se promijeniti za manje od 1%. Drugim riječima, utjecaj X na Y nije značajan.
Beta koeficijent pokazuje za koji dio vrijednosti njegove standardne devijacije će se promijeniti prosječna vrijednost rezultirajuće karakteristike kada se faktorska karakteristika promijeni za vrijednost svoje standardne devijacije s vrijednošću preostalih nezavisnih varijabli fiksiranih na konstantnom nivou:

One. povećanje x za standardnu ​​devijaciju S x će dovesti do smanjenja prosječne vrijednosti Y za 0,74 standardne devijacije S y .
1.4. Greška aproksimacije.
Procijenimo kvalitetu jednadžbe regresije koristeći grešku apsolutne aproksimacije. Prosječna greška aproksimacije - prosječno odstupanje izračunatih vrijednosti od stvarnih:


Pošto je greška manja od 15%, ova jednačina se može koristiti kao regresija.
Analiza varijanse.
Svrha analize varijanse je analiza varijanse zavisne varijable:
∑(y i - y cp) 2 = ∑(y(x) - y cp) 2 + ∑(y - y(x)) 2
Gdje
∑(y i - y cp) 2 - ukupan zbir kvadrata odstupanja;
∑(y(x) - y cp) 2 - zbir odstupanja na kvadrat zbog regresije („objašnjeno“ ili „faktorsko“);
∑(y - y(x)) 2 - rezidualni zbir kvadrata odstupanja.
Teorijska korelacija za linearnu vezu jednak je koeficijentu korelacije r xy .
Za bilo koji oblik zavisnosti, nepropusnost veze se određuje pomoću koeficijent višestruke korelacije:

Ovaj koeficijent je univerzalan, jer odražava bliskost odnosa i tačnost modela, a može se koristiti i za bilo koji oblik veze između varijabli. Prilikom konstruisanja jednofaktorskog korelacionog modela, koeficijent višestruke korelacije jednak je koeficijentu parne korelacije r xy.
1.6. Koeficijent determinacije.
Kvadrat (višestrukog) koeficijenta korelacije naziva se koeficijent determinacije, koji pokazuje proporciju varijacije u rezultantnom atributu objašnjenu varijacijom u atributu faktora.
Najčešće, kada se tumači koeficijent determinacije, on se izražava u procentima.
R2 = -0,742 = 0,5413
one. u 54,13% slučajeva promjene x dovode do promjene y. Drugim riječima, tačnost odabira regresione jednačine je prosječna. Preostalih 45,87% promjene Y je objašnjeno faktorima koji nisu uzeti u obzir u modelu.

Bibliografija

  1. Ekonometrija: Udžbenik / Ed. I.I. Eliseeva. – M.: Finansije i statistika, 2001, str. 34..89.
  2. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Ekonometrija. Početni kurs. Tutorial. – 2. izd., rev. – M.: Delo, 1998, str. 17..42.
  3. Radionica o ekonometriji: Proc. dodatak / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko i drugi; Ed. I.I. Eliseeva. – M.: Finansije i statistika, 2001, str. 5..48.

Karakteristike odnosa između slučajnih varijabli

Uz funkciju regresije, ekonometrija koristi i kvantitativne karakteristike odnosa između dvije slučajne varijable. To uključuje kovarijansu i koeficijent korelacije.

Kovarijansa slučajnih varijabliX Iy je matematičko očekivanje proizvoda odstupanja ovih veličina od njihovih matematičkih očekivanja i izračunava se prema pravilu:

gdje su i matematička očekivanja varijabli, respektivno X I u.

Kovarijansa je konstanta koja odražava stepen zavisnosti između dve slučajne varijable i označava se kao

Za nezavisne slučajne varijable, kovarijansa je nula; ako postoji statistička veza između varijabli, tada je odgovarajuća kovarijansa različita od nule. Na osnovu znaka kovarijanse, ocjenjuje se priroda odnosa: jednosmjerna () ili višesmjerna ().

Imajte na umu da u slučaju kada su varijable X I at poklapaju, definicija (3.12) se pretvara u definiciju za varijansu slučajne varijable:

Kovarijansa je dimenzionalna vrijednost. Njegova dimenzija je proizvod dimenzija varijabli. Prisustvo dimenzije u kovarijansi otežava njeno korištenje za procjenu stepena zavisnosti slučajnih varijabli.

Uz kovarijansu, koeficijent korelacije se koristi za procjenu odnosa između slučajnih varijabli.

Koeficijent korelacije dvije slučajne varijableomjer njihove kovarijanse i proizvoda standardnih grešaka ovih veličina naziva se:

Koeficijent korelacije je bezdimenzionalna veličina, čiji je raspon mogućih vrijednosti segment [+1; -1]. Za nezavisne slučajne varijable koeficijent korelacije je nula, ali ako jeste, to ukazuje na prisustvo linearne funkcionalne veze između varijabli.

Po analogiji sa slučajnim varijablama, kvantitativne karakteristike se uvode i za slučajni vektor. Postoje dvije takve karakteristike:

1) vektor očekivanih vrijednosti komponenti

ovdje je slučajni vektor, su matematička očekivanja komponenti slučajnog vektora;

2) matrica kovarijanse

(3.15)

Matrica kovarijanse istovremeno sadrži i informaciju o stepenu neizvesnosti nasumičnih vektorskih komponenti i informaciju o stepenu međusobne povezanosti svakog para vektorskih komponenti.

U ekonomiji, koncept slučajnog vektora i njegove karakteristike posebno su našli primenu u analizi transakcija na berzi. Čuveni američki ekonomista Harry Markowitz predložio je sljedeći pristup. Neka se na berzi trguje sa n rizičnim sredstvima. Povrat svake imovine u određenom vremenskom periodu je slučajna varijabla. Uvodi se vektor prinosa i odgovarajući vektor očekivanih prinosa. Markovets je predložio da se vektor očekivanih prinosa uzme u obzir kao indikator atraktivnosti određene imovine, a elementi glavne dijagonale matrice kovarijanse kao iznos rizika za svako sredstvo. Dijagonalni elementi odražavaju vrijednosti odnosa odgovarajućih parova povrata uključenih u vektor. Parametarski Markowitzov model berze dobio je oblik

Ovaj model čini osnovu teorije optimalnog portfelja hartija od vrijednosti.

Svojstva operacija za izračunavanje kvantitativnih karakteristika slučajnih varijabli

Razmotrimo osnovna svojstva operacija izračunavanja kvantitativnih karakteristika slučajnih varijabli i slučajnog vektora.

Operacije za izračunavanje matematičkog očekivanja:

1) ako je slučajna varijabla x = sa, Gdje With je onda konstanta

2) ako je x i y – slučajne varijable, ai su proizvoljne konstante, dakle

3) ako X I at nezavisne slučajne varijable, dakle

Operacije izračunavanja varijance:

1) ako je slučajna varijabla x = c, gdje je c proizvoljna konstanta, onda

2) ako x

3) ako X je slučajna varijabla, a c je proizvoljna konstanta, dakle

4) ako X I y su slučajne varijable, ai su proizvoljne konstante, dakle

Kompanija zapošljava 10 ljudi. U tabeli 2 prikazani su podaci o njihovom radnom iskustvu i

mjesečna plata.

Izračunajte koristeći ove podatke

  • - vrijednost procjene kovarijanse uzorka;
  • - vrijednost uzorka Pearsonovog koeficijenta korelacije;
  • - procijeniti smjer i snagu veze iz dobijenih vrijednosti;
  • - utvrditi koliko je legitimno reći da ova kompanija koristi japanski model upravljanja, koji pretpostavlja da što više vremena zaposleni provede u datoj kompaniji, to bi trebala biti veća njegova plata.

Na osnovu korelacionog polja, možemo pretpostaviti (za populaciju) da je odnos između svih mogućih vrednosti X i Y linearan.

Da bismo izračunali parametre regresije, napravićemo tabelu proračuna.

Uzorak znači.

Uzorci varijacija:

Procijenjena jednačina regresije će biti

y = bx + a + e,

gdje su ei uočene vrijednosti (procjene) grešaka ei, a i b, respektivno, procjene parametara b i u regresijskom modelu koje treba pronaći.

Za procjenu parametara b i c koristi se metoda najmanjih kvadrata (metoda najmanjih kvadrata).

Sistem normalnih jednačina.

a?x + b?x2 = ?y*x

Za naše podatke sistem jednačina ima oblik

  • 10a + 307 b = 33300
  • 307 a + 10857 b = 1127700

Pomnožimo jednačinu (1) sistema sa (-30.7), dobijamo sistem koji rešavamo metodom algebarskog sabiranja.

  • -307a -9424,9 b = -1022310
  • 307 a + 10857 b = 1127700

Dobijamo:

1432,1 b = 105390

Odakle dolazi b = 73,5912?

Sada pronađimo koeficijent "a" iz jednačine (1):

  • 10a + 307 b = 33300
  • 10a + 307 * 73,5912 = 33300
  • 10a = 10707,49

Dobijamo koeficijente empirijske regresije: b = 73,5912, a = 1070,7492

Regresijska jednačina (empirijska regresijska jednačina):

y = 73,5912 x + 1070,7492

Kovarijansa.

U našem primjeru, veza između osobine Y i faktora X je visoka i direktna.

Stoga sa sigurnošću možemo reći da što zaposlenik duže radi u datoj kompaniji, to je njegova plata veća.

4. Testiranje statističkih hipoteza. Prilikom rješavanja ovog problema, prvi korak je formuliranje provjerljive hipoteze i alternativne hipoteze.

Provjera jednakosti općih dionica.

Provedeno je istraživanje o uspješnosti studenata na dva fakulteta. Rezultati za opcije su dati u tabeli 3. Može li se reći da oba fakulteta imaju isti procenat odličnih studenata?

Jednostavni aritmetički prosjek

Testiramo hipotezu o jednakosti općih dionica:

Nađimo eksperimentalnu vrijednost Studentovog kriterija:

Broj stepeni slobode

f = nh + nu - 2 = 2 + 2 - 2 = 2

Odredite tkp vrijednost koristeći Studentovu tablicu raspodjele

Koristeći Studentovu tabelu nalazimo:

Ttable(f;b/2) = Ttable(2;0,025) = 4,303

Koristeći tabelu kritičnih tačaka Studentove distribucije na nivou značajnosti b = 0,05 i datom broju stepeni slobode, nalazimo tcr = 4,303

Jer tob > tcr, tada se nulta hipoteza odbacuje, opšti udjeli dva uzorka nisu jednaki.

Provjera ujednačenosti opće distribucije.

Zvaničnici Univerziteta žele saznati kako se popularnost odjela za humanističke nauke promijenila tokom vremena. Analiziran je broj aplikanata koji su se prijavili na ovaj fakultet u odnosu na ukupan broj prijavljenih u odgovarajućoj godini. (Podaci su dati u tabeli 4). Ako smatramo da je broj prijavljenih reprezentativan uzorak ukupnog broja maturanata godine, možemo li reći da se interesovanje školaraca za specijalnosti ovog fakulteta vremenom ne mijenja?

Opcija 4

Rješenje: Tabela za izračunavanje indikatora.

Sredina intervala, xi

Akumulirana frekvencija, S

Frekvencija, fi/n

Za procjenu serije distribucije nalazimo sljedeće indikatore:

Prosjećna težina

Opseg varijacije je razlika između maksimalne i minimalne vrijednosti karakteristike primarne serije.

R = 2008 - 1988 = 20 Disperzija - karakteriše meru disperzije oko njene prosečne vrednosti (mera disperzije, tj. odstupanja od proseka).

Standardna devijacija (prosječna greška uzorkovanja).

Svaka vrijednost serije razlikuje se od prosječne vrijednosti 2002,66 u prosjeku za 6,32

Testiranje hipoteze o ravnomjernoj distribuciji stanovništva.

Da bi se testirala hipoteza o ravnomernoj raspodeli X, tj. prema zakonu: f(x) = 1/(b-a) u intervalu (a,b) potrebno je:

Procijenite parametre a i b - krajeve intervala u kojima su uočene moguće vrijednosti X, koristeći formule (znak * označava procjene parametara):

Pronađite gustinu vjerovatnoće očekivane distribucije f(x) = 1/(b* - a*)

Pronađite teorijske frekvencije:

n1 = nP1 = n = n*1/(b* - a*)*(x1 - a*)

n2 = n3 = ... = ns-1 = n*1/(b* - a*)*(xi - xi-1)

ns = n*1/(b* - a*)*(b* - xs-1)

Uporedite empirijske i teorijske frekvencije koristeći Pearsonov kriterijum, uzimajući broj stepena slobode k = s-3, gde je s broj početnih intervala uzorkovanja; ako je izvedena kombinacija malih frekvencija, a time i samih intervala, tada je s broj intervala preostalih nakon kombinacije. Nađimo procjene za parametre a* i b* uniformne distribucije koristeći formule:

Nađimo gustinu pretpostavljene uniformne distribucije:

f(x) = 1/(b* - a*) = 1/(2013.62 - 1991.71) = 0,0456

Nađimo teorijske frekvencije:

n1 = n*f(x)(x1 - a*) = 0,77 * 0,0456 (1992-1991,71) = 0,0102

n5 = n*f(x)(b* - x4) = 0,77 * 0,0456(2013.62-2008) = 0,2

ns = n*f(x)(xi - xi-1)

Budući da Pearsonova statistika mjeri razliku između empirijske i teorijske distribucije, što je veća njena uočena vrijednost Kob, to je jači argument protiv glavne hipoteze.

Stoga je kritična regija za ovu statistiku uvijek desnoruka :)

Dijeli